公开/公告号CN105389389A
专利类型发明专利
公开/公告日2016-03-09
原文格式PDF
申请/专利权人 安徽博约信息科技有限责任公司;
申请/专利号CN201510926525.2
申请日2015-12-10
分类号G06F17/30(20060101);
代理机构
代理人
地址 230001 安徽省合肥市高新区黄山路602号大学科技园C2008室
入库时间 2023-12-18 14:45:13
法律状态公告日
法律状态信息
法律状态
2020-08-18
专利权质押合同登记的注销 IPC(主分类):G06F17/30 授权公告日:20180925 登记号:2019340000376 出质人:安徽博约信息科技股份有限公司 质权人:徽商银行合肥创新大道支行 解除日:20200727 申请日:20151210
专利权质押合同登记的生效、变更及注销
2019-08-02
专利权质押合同登记的生效 IPC(主分类):G06F17/30 登记号:2019340000376 登记生效日:20190709 出质人:安徽博约信息科技股份有限公司 质权人:徽商银行合肥创新大道支行 发明名称:一种网络舆情传播态势媒体联动分析方法 授权公告日:20180925 申请日:20151210
专利权质押合同登记的生效、变更及注销
2018-09-25
授权
授权
2016-10-26
著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20151210
著录事项变更
2016-04-06
实质审查的生效 IPC(主分类):G06F17/30 申请日:20151210
实质审查的生效
2016-03-09
公开
公开
查看全部
技术领域
本发明涉及一种网络舆情传播态势媒体联动分析方法。
背景技术
根据CNNIC今年的最新统计,我国现已有网民6.49亿;手机网民规模达5.57亿,网站335万个,域名总数为2060万个。网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。因此,如何精准的预测网络舆情的传播态势去积极化解网络舆论危机显得越来越重要。
目前已经有一些技术能够对网络舆情的传播态势进行分析和评估。其中有很大一部分是通过统计一定时期内相关的舆情事件或细化主题的相关信息传播扩散状况,如通过统计不同的统计期内相关主题的网页页面数量,从而形成在一段较长时间内连续的网页页面变化走势;还有部分是通过网页转载关系等单一因子来分析网络舆情传播态势的。不同厂家的业务背景在技术上形成了各自的特色,但普遍存在着一些明显的不足,主要体现在:
1)单纯统计所有站点的网站页面总数量,即认为所有站点重要度相同,忽略了站点的影响力差异,导致统计结果无法客观反映出站点联动时不同站点的差异性。
2)单纯的对新闻,论坛,微博进行独立分析,忽略了不同互联网媒体间的互动,无法进行不同媒体联动的舆情分析,为分析的结果带来了不准确性。
发明内容
本发明要解决的技术问题是提供一种网络舆情传播态势媒体联动分析方法。
为了解决上述技术问题,本发明采用的技术方案是,一种网络舆情传播态势媒体联动分析方法,包括以下步骤:
(1)网络信息收集和索引
使用网络信息采集雷达采集网站发布的互联网信息,该信息通常为html格式,运用网页预处理算法对正文中的标题,发表时间,正文进行数据提取,并将抽取后的数据发送到索引模块,索引模块在对上述字段进行分词处理后,建立倒排索引,实现文本的检索;
(2)网站影响力的加权估算
基于上述采集数据,采用考虑原创性、阅读量、转载量、评论量的影响力指标对网站的影响力进行加权计算,对每个网站的综合影响力进行打分,该分数作为后续统计分析时的站点权重;
其中:
所述原创性指网站内容是指作者首创,非抄袭的内容;
所述阅读量指网络用户对当前网站内容的浏览量;
所述转载量指的是当前网站内容被转载的次数;
所述评论量指网络用户对当前网站内容的评论数;
(3)相关主题文章检索
用户根据相应的关注主题设定相关的高级布尔查询表达式,系统根据用户设定的表达式进行信息检索,查询出所有和该主题有关的文章信息;
(4)舆情联动趋势分析
根据用户设定的统计时间间隔,计算出每个时间段文章加权总数量值的变化情况,即文章总数量由单篇文章的权重累加得出,然后对计算得到的权重值按照设定标准划分为四个层次,由低到高分别为无联动、弱联动、中级联动以及强联动,在坐标轴中绘制出统计坐标,横轴为时间轴,纵轴为文章加权数量值,每个坐标值表示在当前时间点和前一个时间点之间互联网中出现的相关文章的加权值,每个坐标值所在层为当前的联动级别。
作为优选,步骤(1)中所述网页预处理算法包括以下步骤:
对网页中的内容进行预处理时,会先创建一个预处理对象,预处理对象调用本地的自然语言解析脚本对网页中的正文进行信息预处理;
所述的本地的自然语言解析脚本主要包含了对自然语言的噪音的过滤、信息的归约以及变换。
本发明的有益效果是:
通过采集互联网信息,进行信息抽取和索引后,使用网站的历史影响力(考虑原创性,阅读量、转载量、评论量以及网站存在时间等影响力指标)对检索出来的每个时间段出现的文章数量进行加权统计,实现了对舆情传播态势的联动分析。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例的流程图。
图2是本发明实施例的索引倒排表结构。
图3是运用现有的舆情态势分析方法(没有考虑到媒体差异)的舆情分析图。
图4是本发明实施例的进行媒体(站点)联动分析的舆情分析图。
具体实施方式
如图1所示,一种网络舆情传播态势媒体联动分析方法的具体步骤如下:
一、网页信息采集和索引
该采集过程具体步骤如下:
1、规划好要监测的网站,并将网站入口加入到监测队列中去。
2、选取一个网站入口进行下载,抽取出相关正文URL后,将其放入到待下载队列中。
3、从待下载队列中选取一个URL进行下载,完成后识别出相关的网页编码,并按照预先设定的模板进行标题、发文时间、作者、正文、点击数、回复数、是否转载等关键字段的抽取。
4、将抽取后的标题、正文文本、时间、作者字段直接发送到索引模块。同时将站点名、点击数、评论数、是否转载字段信息发送到联动站点分析模块。
索引过程具体步骤如下:
1、接收到采集模块发送信息后,分词组件对标题和正文文本进行分词处理,把文档分词一个一个单独的词元,并去掉标点符号和停用词。
2、语言处理组件对词元进行处理,对于英语,变成小写;单词变成词根形式。
3、索引组件对处理后的词建立词典,对词典按字母顺序进行排序,并按照词->文档列表的结构建立倒排表。倒排表结构如图2所示(数字为文档编号)。
二、站点影响力的加权估算
该过程需完成对存储信息的统计分析,具体过程如下:
1、分发模块接收到采集和索引模块发送的字段信息后,根据站点名将该信息发送到响应的站点统计模块。
2、站点统计模块初始化页面总数量(N)、页面总点击数(C)、页面总转载量(Re)、页面总评论数(R)、原创数量(I)为0。接收到分发模块发送的页面信息后,执行累加操作如下:
N=N+n,C=C+c,Re=Re+re,R=R+r,I=I+i。
其中c、re、r、i、t分别为该页面的点击数量、转载数量、评论数量、是否原创(当为原创时,i为1,否则为0)。
3、站点统计模块完成每个站点的影响力计算,包括计算单个页面的平均点击量(CR)、平均转载量(ReR)、平均评论量(RR)、平均原创比率(IR)。定义:CR=C/N,ReR=Re/N,RR=R/N,IR=I/N。
4、对每个站点的平均点击量、平均转载量、平均评论量、平均原创比例进行归一化处理。具体方法如下:
>
>
>
>
其中:
maxCR为所有站点的最大CR值,minCR为所有站点中的最小的CR值,new_maxCR=1,new_minCR=0;
maxRR为所有站点的最大RR值,minRR为所有站点中的最小的RR值,new_maxRR=1,new_minRR=0;
maxIR为所有站点最大的原创比率,minIR为所有站点最小的原创比率,new_maxIR=1,new_minIR=0。
5、基于CR′,ReR′,RR′,IR′对每个站点进行影响力计算,具体计算公式如下:
>根据经验,WCR可以取值为0.50,
6、将上述计算出的每个站点的影响力数据存入站点影响力数据库。
该步骤完成用户指定主题的信息检索,并返回相关查询结果。具体过程如下:
1)对用户输入的主题查询语句进行词法分析,并生成关键字组合。
2)对查询关键字组合进行同义词扩展。
3)根据查询语句的语法规则(包括时间范围,关键词之间的与、或、非组合)建立语法分析树。
4)根据解析后的结果对索引进行查询,并对查询结果按照与、或、非进行合并操作,并得到查询结果列表。
5)对查询结果按时间进行排序,并以时间范围为条件,按照时间段(小时,天,月)进行数量统计。
三、舆情联动趋势分析
该步骤基于上述步骤结果,生成舆情发展趋势分析图。其中横轴为时间轴,纵轴为文章加权数量值,每一个统计时间间隔均对应一个加权值,表示该段时间间隔内的文档加权总数量值。具体计算公式如下:
实施案例
假定要监测某一特定时间(该特定时间需要把事件的开始时间和结束时间排除)内(2014年5月30日-2014年6月1日)对山东正式施行“单独两孩”全面取消“准生证”主题进行发展趋势联动分析。以下表1、2、3为不同站点的主题收录情况:
表1:2014-05-30站点主题收录情况
表2:2014-05-31日站点主题收录情况
表3:2014-06-01日站点主题收录情况
根据上述表1、2、3记载的数据,进行计算。
1.先对单个页面各影响力因子取均值,XR=X/N(其中,X为影响力因子,N为页面总数)
①对东方网的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
②对人民网-安徽的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
③对新浪网的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
④对新华网的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
⑤对中国江苏网的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
⑥对网易新闻的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
⑦对齐鲁网的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
⑧对西部网的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
⑨对川北在线网的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
⑩对潍坊传媒网的各影响力因子取均值:
平均点击量>
平均转载量>
平均评论量>
平均原创比>
2.归一化处理,>
其中,X为站点的影响力指标,XR为当前站点单一影响力指标的均值,maxXR为所有站点单一影响力中最大的指标的占比,minXR为所有站点单一影响力中最小指标的占比,new_maxXR=1,new_minXR=0。
1)对东方网的各影响力因子均值归一化处理:
>
>
>
>
2)对人民网-安徽的各影响力因子均值归一化处理:
>
>
>
>
3)对新浪网的各影响力因子均值归一化处理:
>
>
>
>
4)对新华网的各影响力因子均值归一化处理:
>
>
>
>
5)对中国江苏网的各影响力因子均值归一化处理:
>
>
>
>
6)对网易新闻的各影响力因子均值归一化处理:
>
>
>
>
7)对齐鲁网的各影响力因子均值归一化处理:
>
>
>
>
8)对西部网的各影响力因子均值归一化处理:
>
>
>
>
9)对川北在线网的各影响力因子均值归一化处理:
>
>
>
>
10)对潍坊传媒网的各影响力因子均值归一化处理:
>
>
>
>
3.基于归一化处理后的数据对每个站点进行影响力计算,具体计算公式如下:>根据实践经验,WCR可以取值为0.50,
1)东方网站点影响力计算:
S=0.50*0.16+0.15*0.12+0.25*0.23+0.1*0.14=0.17
2)人民网-安徽站点影响力计算:
S=0.50*0.15+0.15*0.36+0.25*0.17+0.1*0.04=0.18
3)新浪网站点影响力计算:
S=0.50*0.06+0.15*0.04+0.25*0.10+0.1*0.04=0.07
4)新华网站点影响力计算:
S=0.50*0.14+0.15*0.14+0.25*0.16+0.1*0.07=0.14
5)中国江苏网站点影响力计算:
S=0.50*0.11+0.15*0.15+0.25*0.11+0.1*0.08=0.11
6)网易新闻站点影响力计算:
S=0.50*0.13+0.15*0.07+0.25*0.03+0.1*0.02=0.09
7)齐鲁站点影响力计算:
S=0.50*0.15+0.15*0.11+0.25*0.17+0.1*0.08=0.14
8)西部网站点影响力计算:
S=0.50*0.18+0.15*0.22+0.25*0.22+0.1*0.15=0.19
9)川北在线站点影响力计算:
S=0.50*0.32+0.15*0.18+0.25*0.47+0.1*0.14=0.32
10)潍坊传媒网站点影响力计算:
S=0.50*0.43+0.15*0.23+0.25*0.37+0.1*0.13=0.36
4、舆情联动趋势分析,其中w为该段时间间隔内的文档加权数量值,N表示该段时间内相关主题的文章总数,Si表示第i篇文章所在站点的影响力因子。
1)2014-05-30日站点趋势分析计算:
w=0.17*101+0.18*692=141
2)2014-05-31日站点趋势分析计算:
w=0.07*1969+0.14*919+0.11*252=294
3)2014-06-1日站点趋势分析计算:
w=0.09*377+0.14*177+0.19*208+0.32*139+0.36*135=191
以上三天的文章数与趋势分析值表:
根据上述数据使用本实施例的方法可以得到的主题趋势分析图如4所示,可以看出该主题处于降温态势态势。而根据已有方法得到的绘制图如图3所示,表明该主题处于持续升温态势。同传统方法相比,本实施例的方法考虑到站点影响力的差异,实现了舆情的站点联动趋势分析。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
机译: 一种基于al的下一代关键信息基础设施网络安全态势感知系统
机译: 检测下设备的矢量网络网络分析系统,以及一种待测设备的矢量网络网络分析方法
机译: 一种使用基于网络的基因集的药物重新定位系统富集分析方法