首页> 中国专利> 基于网络文章属性的网络舆情热点发现方法和装置

基于网络文章属性的网络舆情热点发现方法和装置

摘要

本发明实施例提供了一种基于网络文章属性的网络舆情热点发现方法和装置。该方法主要包括:通过定向采集和搜索引擎采集相互结合的方式采集网络文章,根据网络文章的多种参数信息计算各个网络文章的权重值,根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对判断出的网络舆情热点进行属性分析。本发明实施例能够快速、及时地发现网络舆情热点。通过先对网络文章进行垃圾信息过滤、去重等预处理,再基于网站文章的多种参数属性判断网络文章的价值高低,提高网络舆情热点发现的准确度。

著录项

  • 公开/公告号CN104077377A

    专利类型发明专利

  • 公开/公告日2014-10-01

    原文格式PDF

  • 申请/专利权人 红麦聚信(北京)软件技术有限公司;

    申请/专利号CN201410290240.X

  • 发明设计人 屈伟;

    申请日2014-06-25

  • 分类号G06F17/30(20060101);

  • 代理机构北京慕达星云知识产权代理事务所(特殊普通合伙);

  • 代理人陈芳

  • 地址 100080 北京市海淀区苏州街18号院-2楼9层906

  • 入库时间 2023-12-17 01:49:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-02-23

    授权

    授权

  • 2014-10-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140625

    实质审查的生效

  • 2014-10-01

    公开

    公开

说明书

技术领域

本发明涉及网络舆情技术领域,尤其涉及一种基于网络文章属性的网络 舆情热点发现方法和装置。

背景技术

网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社 会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、 焦点问题所持的有较强影响力、倾向性的言论和观点。

目前,现有技术中的一种基于聚类的网络舆情热点发现方法主要包括: 通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取 网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情 的时间演变模式,为相关领域研究提供决策支持。然后,通过二次聚类,提 高舆情网页相关度的质量。

上述现有技术中的基于聚类的网络舆情热点发现方法的缺点为:该方法 基于聚类,大量相关信息出现以后才能发现网络舆情热点,造成了网络舆情 热点发现不及时的问题;网络上存在海量信息有大部分的是垃圾信息,该方 法往往将很多出现频率高的垃圾信息判断为热点舆情信息,造成了网络舆情 热点发现准确度低的问题。

发明内容

本发明的实施例提供了一种基于网络文章属性的网络舆情热点发现方法 和装置,以提高网络舆情热点的发现速度和准确率。

本发明提供了如下方案:

一种基于网络文章属性的网络舆情热点发现方法,包括:

通过定向采集和搜索引擎采集相互结合的方式采集网络文章;

根据网络文章的多种参数信息计算各个网络文章的权重值;

根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是 否为网络舆情热点,对判断出的网络舆情热点进行属性分析。

所述的通过定向采集和搜索引擎采集相互结合的方式采集网络文章包 括:

自定义监测网站、监测站点及搜索关键词,通过数据采集服务器中设置 的网页爬虫工具对监测网站、站点实现定向的网络文章抓取,将定向抓取的 网络文章进行格式化处理,得到格式化后的网络文章;所述数据采集服务器 的数量可以为多个,多个数据采集服务器组成服务器集群,服务器集群采用 队列调度模式;

设置元搜索引擎,该元搜索引擎是一个具有双层客户机/服务器机构的 系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成,将所述元 搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利 用元搜索引擎采集所述多个主流搜索引擎中的网络文章;

将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章数据进 行存储。

所述的方法还包括:

针对每个搜索关键词分别设置匹配条件、针对网站和站点类型、权重 值、匹配类型、针对网站、站点列表,所述匹配条件为包含全部字符或者包 含任一字符,所述匹配类型为匹配标题、匹配标题和内容或者匹配内容;

将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓 取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的 抓取时间。

所述的根据网络文章的多种参数信息计算各个网络文章的权重值包括:

网络文章的权重值的算法公式为:

网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权 重*0.2+标题出现权重*0.1+文章长度权重*0.1

站点权重=人工配置站点时所设置

点击数、回复数权重=(点击数权重+回复数权重)/2

点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)

回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)

标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标 题出现次数==1?5:0))

文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度 <300?-4:(文章长度<500?0:(文本密度))))

所述的根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络 文章是否为网络舆情热点包括:

利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算 出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络 文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络 舆情热点;否则,则确定所述某个网络文章不是网络舆情热点;

所述的对判断出的网络舆情热点进行属性分析包括:

设置用于对网络舆情热点进行情感分析的情感值,所述情感词分成通用 关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行 业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词 分别对应一定的权重;

网络舆情热点的情感值的计算公式如下:

其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,

C=通用、行业关键词权重×标题出现权重+通用、行业关键词权重

将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判 断阈值进行比较: 

网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为 正面的网络舆情热点; 

-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确 定网络舆情热点为中立的网络舆情热点; 

网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为 负面的网络舆情热点。 

一种基于网络文章属性的网络舆情热点发现装置,包括:

网络文章采集模块,用于通过定向采集和搜索引擎采集相互结合的方式 采集网络文章;

文章权重值计算模块,用于根据网络文章的多种参数信息计算各个网络 文章的权重值;

网络舆情热点判断模块,用于根据网络文章的权重值和预先设定的舆情 热点判断阈值判断网络文章是否为网络舆情热点;

网络舆情热点分析模块,用于对判断出的网络舆情热点进行属性分析。

所述的网络文章采集模块包括:

定向采集模块,用于自定义监测网站、监测站点及搜索关键词,通过数 据采集服务器中设置的网页爬虫工具对监测网站、站点实现全面的定向的网 络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络 文章;所述数据采集服务器的数量可以为多个,多个数据采集服务器组成服 务器集群,服务器集群采用队列调度模式;

搜索引擎采集模块,用于设置元搜索引擎,该元搜索引擎是一个具有双 层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果 显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户 设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络 文章;

存储处理模块,用于将所有元搜索引擎搜索到的、网页爬虫工具定向抓 取的网络文章数据进行存储。

所述的定向采集模块,还用于针对每个搜索关键词分别设置匹配条件、 针对网站和站点类型、权重值、匹配类型、针对网站、站点列表,所述匹配 条件为包含全部字符或者包含任一字符,所述匹配类型为匹配标题、匹配标 题和内容或者匹配内容;

将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓 取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的 抓取时间。

所述的文章权重值计算模块,具体用于设定网络文章的权重值的算法公 式为:

网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权 重*0.2+标题出现权重*0.1+文章长度权重*0.1

站点权重=人工配置站点时所设置

点击数、回复数权重=(点击数权重+回复数权重)/2

点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)

回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)

标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标 题出现次数==1?5:0))

文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度 <300?-4:(文章长度<500?0:(文本密度))))

所述的网络舆情热点判断模块,具体用于利用基于自然语言处理技术的 训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述 舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判 断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个 网络文章不是网络舆情热点;

所述的网络舆情热点分析模块,具体用于设置作为对网络舆情热点进行 情感分析的情感值,所述情感词分成通用关键词、行业关键词、客户特定关 键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定 关键词的属性为中性,每个类别的情感词分别对应一定的权重;

网络舆情热点的情感值的计算公式如下:

其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,

C=通用、行业关键词权重×标题出现权重+通用、行业关键词权重

将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判 断阈值进行比较: 

网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为 正面的网络舆情热点; 

-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确 定网络舆情热点为中立的网络舆情热点; 

网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为 负面的网络舆情热点。 

由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过根 据网络文章的多种参数信息计算出网络文章的权重值,再根据网络文章的权 重值判断网络文章是否为网络舆情热点,能够快速、及时地发现网络舆情热 点。通过先对网络文章进行垃圾信息过滤、去重等预处理,再基于网站文章 的多种参数属性判断网络文章的价值高低,提高网络舆情热点发现的准确 度。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的 前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种基于网络文章属性的网络舆情热点发现 方法的处理流程图;

图2为本发明实施例一提供的一种针对每个关键词分别确定匹配条件、针 对网站、站点类型、权重值、匹配类型、针对网站、站点列表信息的示意 图;

图3为本发明实施例二提供的一种基于网络文章属性的网络舆情热点发现 装置的具体实现结构图。

具体实施方式

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例 做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

实施例一

本发明实施例基于网站文章的权重值等属性信息判断、发现网络舆情热 点,并对网络舆情热点进行情感分析,能够极大的提高网络热点舆情发现的 速度、准确度。

该实施例提供了一种基于网络文章属性的网络舆情热点发现方法的处理 流程如图1所示,包括如下的处理步骤:

步骤S110、通过定向采集和搜索引擎采集相互结合的方式采集网络文 章。

在本发明实施例中,用户可自定义监测网站、监测站点及监测关键词, 监测站点的范围可以包括:新闻、论坛、微博、贴吧、博客、视频、报刊杂志 等。比如,在本发明的一个实施例中,收录有7000个监测网站,包含站点数 约为15万个站点。然后,通过数据采集服务器中设置的网页爬虫工具对监测 网站、站点实现全面的定向的网络文章抓取,将定向抓取的网络文章进行格 式化处理,得到格式化后的网络文章。同时支持对主流新闻网站分页、评论 内容的采集以及对论坛点击数、回帖数的抓取。

如图2所示,本发明实施例可以针对每个关键词分别设置匹配条件、针对 网站、站点类型、权重值、匹配类型、针对网站、站点列表等信息,上述匹 配条件可以为包含全部字符或者包含任一字符等,上述匹配类型可以为匹配 标题、匹配标题或者内容、匹配内容等。

本发明实施例还将各个站点划分成不同的级别,针对每个级别的站点分 别设定抓取频率列表,该抓取频率列表可以包括多个抓取频率,每个抓取频 率对应相应的抓取时间。系统对不同级别的站点分别设置不同的抓取频率列 表,另外站点级别是文章信息权重的重要依据。

上述数据采集服务器的数量可以为多个,多个数据采集服务器组成服务 器集群,服务器集群采用队列调度模式,服务器集群中空闲的服务器向调度 服务器请求采集任务,调度服务器会分配任务给请求服务器,如果当前采集 服务器已领取的任务已经完成,则可以重新向调度服务器领取其他采集任 务,充分利用服务器资源。

由于数据采集服务器使用集群模式,集群中每台数据采集服务器独立运 行,所以如果某台数据采集服务器出现故障,不会影响整个系统运行。当采 集数据量过大,或对数据采集实效性要求增高,还可以在服务器集群中增加 采集节点来扩展系统采集能力。

本发明实施例设置了元搜索引擎,元搜索引擎是一个具有双层客户机/ 服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组 成。将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索 关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章,本发 明实施例能够采集不少于10个主流搜索引擎中的网络文章,包括新闻搜索、 论坛搜索、博客搜索、网页搜索等。如百度、谷歌、搜搜、必应、搜狗、即 刻、盘古、有道、爱问、奇虎、中搜等,将搜索到的网络文章作为上述定向 抓取的网络文章的补充。

然后,将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章 进行存储。

步骤S120、对采集的网络文章进行垃圾信息过滤、信息提取、去重等预 处理。

首先,对网络文章进行垃圾信息过滤处理,采用基于机器学习的垃圾过 滤方法自动过滤掉网络文章中的广告、水贴等无效垃圾信息。

采用自主知识产权的HTML(HyperText Markup Language,超文本标记 语言)网页内容自动萃取方法提取任意网络文章中的标题、正文内容、作 者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回 帖以及作者等信息。上述网页内容自动萃取方法采用基于文本密度的段落结 构分析技术,计算网络文章中的各个HTML DOM(Document Object  Model,文档对象模型)节点的文本密度,将计算得到的文本密度分别和预先 设定的标题、正文内容、作者、发布时间等信息的文本密度进行匹配,匹配 成功,则确定HTML DOM节点的文本为相应的标题、正文内容、作者或者发 布时间等信息。比如,HTML DOM节点的文本密度与预先设定的标题的文本 密度匹配,则确定HTML DOM节点的文本为标题。

除了上述网页内容自动萃取方法之外,系统还可以针对指定的网站、站 点配置特定的内容提取规则,利用该特定的内容提取规则对来自指定的网 站、站点的网络文章进行标题、正文内容、作者、发布时间等信息提取。在 本发明的一个实施例中,针对主流的论坛和博客内置了近50种规则,当系统 内置的规则不能满足需求时,还可以通过系统后台自行配置内容提取规则,

然后,对网络文章进行智能去重处理,采用设定的文章相似性计算算法 计算垃圾信息过滤后的网络文章的两两之间的相似度,根据相似度确定两个 网络文章是否重复、去重的级别。在实际应用中,根据不同的需要特点可以 对网络文章进行URL(Uniform Resoure Locator,统一资源定位器)去重、 标题去重和全文去重三种去重处理。

当进行URL去重时,当两个网络文章的URL完全相同,即判定为两篇网 络文章URL重复。

当进行标题去重时,当两个网络文章的标题之间的相似度不低于设定标 题判断阈值(比如,70%),即判定为两篇网络的标题重复。

当进行全文去重时,当两个网络文章的标题相似度不低于设定的标题判 断阈值(比如,70%),并且正文内容相似度不低于设定的正文判断阈值 (比如,70%),即判定为两篇网络文章重复,即两篇文章说的是同一件 事。

对重复的网络文章进行去重处理,即在重复的两个或多个网络文章中保 留一个网络文章,删除掉其他的网络文章。

对去重处理后的各个网络文章进行存储,对于每个经过去重处理的网络 文章,系统都存有一个纯文本的备份,方便用户快速浏览,也方便用户查看 被删除的文章或帖子。

步骤S130、根据网络文章的多种参数信息计算各个网络文章的权重值。

文章权重是指网络文章的重要性,本发明实施例综合文章的浏览次数、 回复次数、出现网站的级别和位置(重点网站和普通网站权重不同)、主题 相关度、危机程度、传播数量以及用户自定义规则等参数等属性来计算文章 的重要性。

本发明实施例的文章权重的算法因素包括:

1、报表来源站点和网站(站点,网站,重点关注)

2、报表的点击数回复数

3、报表的正负性(正负性和用户设置的负面关键词)

4、文章正文的长度以及关键词出现的密度

5、关键词是否在标题中出现

网络文章权重值的算法公式为:

网络文章权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重 *0.2+标题出现权重*0.1+文章长度权重*0.1

站点权重=人工配置站点时所设置

点击数、回复数权重=(点击数权重+回复数权重)/2

点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)

回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)

标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标 题出现次数==1?5:0))

文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度 <300?-4:(文章长度<500?0:(文本密度))))

本发明实施例将网络文章权重值分为5个级别选项,从级别1到级别5,其 中级别5的文章权重为最高。网络文章权重值的默认值为级别1。具体说明如 下详释:

级别1:网络文章权重值小于1的;级别2:网络文章权重值在1-2.8之 间的(包含1);级别3:网络文章权重值在2.8-4.8之间的(包含2.8);级 别4:网络文章权重值在4.8-6之间的(包含4.8);级别5:重点关注的和网 络文章权重值在6以上的(含6)。

步骤S140、根据网络文章的权重值和预先设定的舆情热点判断阈值判断 网络文章是否为网络舆情热点,对作为网络舆情热点的网络文章进行情感分 析等属性分析。

本发明实施例需要利用基于自然语言处理技术的训练系统确定舆情热点 判断阈值。将上述计算出的每个网络文章权重值和上述舆情热点判断阈值进 行比较,当某个网络文章权重值大于上述舆情热点判断阈值,则确定上述某 个网络文章为网络舆情热点;否则,则确定上述某个网络文章不是网络舆情 热点。

然后,对作为网络舆情热点的网络文章进行情感分析等属性分析,该属 性分析包括:网络文章分类、传播轨迹分析、情感分析、相似文章聚类等处 理。

本发明实施例将基于学习的自动分类与基于自定义规则的自动分类有机 地结合起来,对作为网络舆情热点的网络文章进行分类。在基于学习的自动 分类方面采用文档向量空间模型与分类算法的概率统计模型。该分类方法可 以实现对新闻、论坛、博客等内容的自动分类,大大减少手工劳动的工作 量,提高网络舆情热点处理的准确性。比如,在本发明的一个实施例中,将 针对万达集团的海量的网络舆情热点,划分为品牌动态、高层动态、万商 会、商业地产、高级酒店、文化产业等信息单元,实现信息科学分类以及方 便万达集团从海量信息及时找到自身所关注的信息。

网络文章的情感训练分析原理为依据情感判定算法,抽取语料库进行信 息对比测试,并逐渐磨合算法中参数的浮动范围以及找出其负面关键词,统 计客户、行业关键词库。从而达到情感训练的目的,完成信息正负面的判 定。本发明实施例将管理员或者客服人员在后台情感训练模块中设置的情感 词作为对网络舆情热点进行情感分析的情感值。上述情感词分成通用关键 词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关 键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别 对应一定的权重。

网络舆情热点的情感值的计算公式如下:

其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,

C=通用、行业关键词权重×标题出现权重+通用、行业关键词权重

将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判 断阈值进行比较,根据比较结果确定网络舆情热点为正面或者中立或者负 面。 

当网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点 为正面的网络舆情热点; 

-舆情情感判断阈值<当网络舆情热点的情感值<舆情情感判断阈值时,则 确定网络舆情热点为中立的网络舆情热点; 

当网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点 为负面的网络舆情热点。 

比如,当情感值>=7,则为正面的网络舆情热点

-7<情感值<7,则为中立的网络舆情热点

情感值<-7,则为负面的网络舆情热点

实施例二

该实施例提供了一种基于网络文章属性的网络舆情热点发现装置,其具 体实现结构如图3所示,具体可以包括如下的模块:

网络文章采集模块31,用于通过定向采集和搜索引擎采集相互结合的方 式采集网络文章;

文章权重值计算模块33,用于根据网络文章的多种参数信息计算各个网 络文章的权重值;

网络舆情热点判断模块34,用于根据网络文章的权重值和预先设定的舆 情热点判断阈值判断网络文章是否为网络舆情热点;

网络舆情热点分析模块35,用于对判断出的网络舆情热点进行属性分 析。

进一步地,所述的网络文章采集模块31包括:

定向采集模块311,用于自定义监测网站、监测站点及搜索关键词,通过 数据采集服务器中设置的网页爬虫工具对监测网站、站点实现全面的定向的 网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网 络文章;所述数据采集服务器的数量可以为多个,多个数据采集服务器组成 服务器集群,服务器集群采用队列调度模式;

搜索引擎采集模块312,用于设置元搜索引擎,该元搜索引擎是一个具有 双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结 果显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用 户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网 络文章;

存储处理模块313,用于将所有元搜索引擎搜索到的、网页爬虫工具定向 抓取的网络文章数据进行存储。

进一步地,所述的定向采集模块311,还用于针对每个搜索关键词分别设 置匹配条件、针对网站和站点类型、权重值、匹配类型、针对网站、站点列 表,所述匹配条件为包含全部字符或者包含任一字符,所述匹配类型为匹配 标题、匹配标题和内容或者匹配内容;

将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓 取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的 抓取时间。

进一步地,所述的装置还包括:

网络文章预处理模块32,用于采用基于机器学习的垃圾过滤方法过滤掉 采集的网络文章中的无效垃圾信息;

采用特定的内容提取规则或者采用HTML网页内容自动萃取方法提取任意 网络文章中的标题、正文内容、作者、发布时间信息;

采用设定的文章相似性计算算法计算网络文章的两两之间的相似度,根 据相似度确定两个网络文章是否重复,对重复的网络文章进行去重处理。

进一步地,所述的网络文章预处理模块32,还用于计算网络文章中的各 个HTML DOM节点的文本密度,将计算得到的文本密度分别和预先设定的标 题、正文内容、作者、发布时间信息的文本密度进行匹配,匹配成功,则确 定HTML DOM节点的文本为相应的标题、正文内容、作者或者发布时间信 息。

进一步地,所述的文章权重值计算模块33,具体用于设定网络文章的权 重值的算法公式为:

网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权 重*0.2+标题出现权重*0.1+文章长度权重*0.1

站点权重=人工配置站点时所设置

点击数、回复数权重=(点击数权重+回复数权重)/2

点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)

回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)

标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标 题出现次数==1?5:0))

文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度 <300?-4:(文章长度<500?0:(文本密度))))

进一步地,所述的网络舆情热点判断模块34,具体用于利用基于自然语 言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的 权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所 述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则 确定所述某个网络文章不是网络舆情热点。

进一步地,所述的网络舆情热点分析模块35,具体用于设置作为对网络 舆情热点进行情感分析的情感值,所述情感词分成通用关键词、行业关键 词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为 负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权 重;

网络舆情热点的情感值的计算公式如下:

其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,

C=通用、行业关键词权重×标题出现权重+通用、行业关键词权重

将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判 断阈值进行比较: 

网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为 正面的网络舆情热点; 

-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确 定网络舆情热点为中立的网络舆情热点; 

网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为 负面的网络舆情热点。 

用本发明实施例的装置进行基于网络文章属性的网络舆情热点发现的具 体过程与前述方法实施例类似,此处不再赘述。

综上所述,本发明实施例通过根据网络文章的多种参数信息计算出网络 文章的权重值,再根据网络文章的权重值判断网络文章是否为网络舆情热 点,能够在网络舆情热点出现初期立即发现网络舆情热点,能够快速、及时 地发现网络舆情热点。

本发明实施例通过先对网络文章进行垃圾信息过滤、去重等预处理,再 基于网站文章的多种参数属性判断网络文章的价值高低,从而事先自动过滤 掉没有价值的网站文章,提高网络舆情热点发现的准确度。

本发明实施例通过对网络舆情热点进行情感分析等属性分析,可以准确 地区分出正面、中立或者负面的网络舆情热点,可以为后续进行网络舆情热 点预警、生成网络舆情热点报告等操作提供基础。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中 的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到 本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解, 本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品 的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、 磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算 机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部 分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同 相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同 之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例, 所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描 述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元 可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可 以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案 的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并 实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可 轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明 的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号