法律状态公告日
法律状态信息
法律状态
2016-01-06
授权
授权
2013-06-12
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130115
实质审查的生效
2013-05-08
公开
公开
技术领域
本发明涉及网络信息技术领域,具体涉及一种网络舆情地理位置传播、分布实时监控技 术。
背景技术
随着网络大力普及,人们越来越习惯在网络表达自己的观点,并且由于网络的庞大性和 隐匿性,导致观点的表达更加真实、大胆,网络舆情逐渐引起人们的广泛关注。网络舆情具 有一定地域特点,网络的热点话题也是社会中的热点话题,寻找网络舆情和社会舆情的联系, 将舆情在网络上的传播和其在地理位置上的传播联系起来,是网络舆情的一个研究趋势。
但目前在舆情监控应用领域中,存在以下的问题:
1)数据来源的局限性;当前舆情监控系统大多局限在某种或者某类特定的网络形态,导 致舆情监控不够全面。2)网络舆情和社会舆情的联系性较弱;当前大多舆情分析主要针对网 络行为开展,忽略网络舆情的地域特征,也就是说没有和社会舆情相联系。
申请号为201210216349.X的发明专利申请“一种舆情信息展示系统及方法”对包含舆情 信息的网页进行地域识别,客观、直观地反映了不同地域的舆情信息,属于舆情的统计分析 静态展示,没有对特定舆情传播过程的动态展示;其地域识别模块,适于对所述正文信息进 行地域识别,以获得所述正文信息的所属地域并对具有相同所属地域的网页进行数量统计, 该模块所完成的数据处理功能仅仅是对含有地域属性的网页数量进行统计,不涉及用户对话 题的讨论过程演变,对特定的某个舆情,缺乏针对性,无法完成对特定舆情热点的监控。申 请号为201110127509.9的发明专利申请“网络舆情危机预警方法”属于对网络热点话题的监 测和预警,没有对每一个热点话题在网络上的传播态势进行分析,也没有对网络热点话题在 现实社会城市之间的传播态势进行分析,不适用于对社会舆情的观察和预警。
发明内容
本发明针对现有技术存在的上述问题,提供一种网络舆情地理位置传播、分布实时监控 系统。
本发明解决上述技术问题的技术方案是:一种网络舆情地理位置实时监控系统,其特征 在于,包括:数据采集模块、数据处理模块、动态展示模块、分析报告模块;其中,数据采 集模块预先将含有用户所在地的用户注册信息存到本地,获取微博、博客、论坛的热点关键 词,建立关键词列表(可采用相似度检测技术对关键词去重),依次从微博、博客、论坛搜索 每个关键词并将网页源码保存到本地;数据处理模块采用字符串首尾边界切割技术,统一微 博、博客、论坛等各种网络形态的数据处理方式,从搜索结果网页源码中截取时间及与地理 位置有关的信息,并建立地理位置与经纬度坐标的映射;按照舆情传播时间的先后顺序对所 获取的话题讨论相关内容排序,按用户设定的时间间隔对排序后的内容按照定长时间段分批; 动态展示模块读取已分批内容的地理位置信息并转换为经纬度坐标,按批依次载入GIS系统 进行传播动态展示,根据经纬度坐标动态标记定位网民对该热点关键词的讨论传播情况,并 绘制该热点关键词各地网民关注数量随时间变化的曲线;分析报告模块存储演示结果并对网 民地域分布人数做定量分析。具体为:
所述数据采集模块包括:用户数据采集模块、关键词采集模块、话题信息采集模块。用 户数据采集模块实时采集网络信息,通过预处理把含有地理位置属性的用户注册信息保存到 用户注册信息表,当参与某话题讨论的用户存在于表中时,可直接提取其地理位置信息,若 不存在,先进入个人主页提取其地理位置信息并更新用户注册信息表。关键词采集模块自动 获取微博、博客、论坛的热点关键词,通过文本聚类的方法进行相似度检测并去重,得到关 键词列表。话题信息采集模块根据关键词搜索所有话题并保存搜索结果网页源码。
数据处理模块包括:提取时间地点模块、地点转换经纬度模块、数据按时间分批模块。 提取时间地点模块采用字符串首尾边界切割技术,直接锁定待提取信息的位置,从网页源码 中提取和地理位置传播相关的信息,在不需要修改源程序的情况下,对各种网页结构进行统 一处理;地点转换经纬度模块完成城市名称和其经纬度坐标的映射,用于GIS定位;数据按 时间分批模块对已获取数据,按照信息传播时间先后排序,以用户所设定的时间间隔对数据 分批。
动态展示模块包括:GIS系统动态展示传播模块、网民地域分布实时变化模块。GIS系统 动态展示传播模块将分批后的数据依次载入GIS系统,按照经纬度坐标定位并动态标注其传 播位置,采用立方体或圆柱体等带有高度的自定义地标,依次标识每一批城市,同一批地理 位置地标具有相同的高度,处于不同批次同一地理位置的标注点通过对经纬度小量的改变, 使地标处于之前地标的周围位置,地标的高度差用来区分不同的传播批次,地标的密度用来 区分不同地域该特定舆情的密度,以便观察。网民地域分布实时变化模块,在x-y坐标系中 绘制不同省市参与某关键词讨论网民的数量随时间变化的趋势,可一条曲线代表一个城市的 情况。动态展示模块和网民地域分布展示模块同步动态展示,前者从数据库读取分批次的经 纬度坐标集,依次标注传播态势,后者将每一批每一个城市的网民数量绘制为一个点,随时 间推移,动态连接这些点。
分析报告模块包括:存档演示结果图模块、数据分析模块。存档演示结果图保存每一个 关键词所代表的热点话题在地图上标注后的分布情况图,以及网民分布曲线图。数据分析模块 对演示结果进行定量分析,如对网民省市分布情况以表格的形式量化。
一种网络舆情地理位置实时监控方法,数据采集模块预先将用户注册信息存储到本地, 获取微博、博客、论坛的热点关键词,对关键词进行相似度检测并去重,建立关键词列表, 依次从微博、博客、论坛搜索每个关键词并将网页源码保存到本地;数据处理模块使用字符 串首尾边界切割技术,从微博、博客、论坛的搜索结果网页源码中提取时间和地理位置传播 相关信息,根据地理位置建立与经纬度坐标的映射,按照舆情传播时间的先后顺序对所获取 的话题讨论相关内容排序,按用户设定的时间间隔对排序后的内容按照定长时间段分批;动 态展示模块读取分批数据,按批依次载入地理信息系统,进行地理坐标标识,根据经纬度坐 标定位标记热点关键词,进行信息传播动态演示,并绘制热点关键词随时间变化的曲线;分 析报告模块存储演示结果并对网民地域分布人数做定量分析。
对信息字符串首尾边界切割具体为,根据各网络形态的网页源码,查找所要提取目标字 符串首和尾的唯一字符串标识,使用字符串切割功能,将目标字符串提取出来。对于不提供 IP的网站,预处理模块搜索网站所有用户的个人信息主页,使用字符串首尾边界切割技术提 取用户名和注册地点存入用户注册信息表。如果有IP地址,则查找IP地址和地理位置信息 映射表,将IP地址转换为城市名称,保证待处理数据集中仅含有时间和城市名称两个属性。 数据处理模块从搜索结果网页源码中,根据目标信息标识表中对应的该网站的各个标识,使 用字符串首尾边界切割技术提取其中的用户名、话题内容、IP、时间等信息存入数据库。
本发明相对于现有技术,将微博、博客、论坛的数据处理方式进行统一,通过热榜建立 关键词列表,按关键词搜索并获取网页内容,包括传播时间、地点/IP和发布、转发和评论 者,将网络舆情的传播和社会舆情的传播对应,借助GIS软件,动态还原传播过程。本发明 在地理位置信息获取的处理之上,把不能直接获取城市或IP信息的网站,提前对用户信息进 行预处理,保存用户注册城市,以保障系统运行实时性。输入关键词列表和自动获取关键词 列表既可以满足用户对特定话题传播动向观察的需求,也可以实现全网络实时监控。另一方 面,在舆情的动态展示上,借助GIS软件的强大功能,以地标的高度差表示传播批次的不同, 以地标的密度区分不同地域该特定舆情的分布密度。
附图说明
图1是本发明的系统结构组成图;
图2是本发明的运行流程图。
具体实施方式
本发明网络舆情地理位置实时监控系统,统一微博、博客、论坛数据的处理方式,通过 文本聚类等技术进行相似度检测并去重,得到话题热点关键词列表,通过网站结构表获取待 提取信息的首尾边界,对热点关键词相关的地理位置和时间信息进行首尾边界切割提取地理 位置和时间信息,根据每一个关键词获取数据并进行数据处理,在GIS地理模型上动态还原 其传播态势,分析各地网民参与人数。将地理位置转换成经纬度坐标,实现网络环境和真实 环境的映射,通过对数据按时间段分批在GIS系统中完成定位从而实现动态演示传播过程。 最后存储演示结果图并对网民的地域分布人数做定量分析,生成报告。
下面结合附图和实施例对本发明进一步详细描述,但本发明的实施方式不限于此。
如图1所示为本发明系统结构组成图,本发明网络舆情地理位置传播、分布实时监控系 统包括:数据采集模块100、数据处理模块200、动态展示模块300、分析报告模块400。
数据采集模块100包括:用户数据采集模块、关键词采集模块、话题信息采集模块。数 据采集模块完成用户注册信息、热点关键词列表、特定话题相关信息三种数据的采集。对于 信息的采集,对待采集信息字符串首尾边界进行切割获得需要提取的数据。字符串首尾边界 切割技术,具体可使用字符串的切割功能,查找所要提取目标字符串首和尾的唯一字符串标 识,将目标字符串提取出来。如:字符串为“abcA用户名Bdfd”,“A”和“B”为“用户名” 首尾的唯一标识,目标信息是“用户名”。具体做法为首先锁定“A”和“B”在字符串中的索 引位置,使用字符串的切割方法,将“用户名”提取出来。对不同网络形态而言,待提取信 息的首尾标识各有不同,故预先分析各网站源码,将网站源码的唯一标识存入数据库,使得 抓取过程只需从数据库中读入待提取内容的首尾唯一标识即可,避免了因网站结构改变而不 能正确提取的情况出现。
用户数据采集模块101,实时采集用户个人信息,以提高系统效率和保证系统实时性。 由于部分网站通过帖子、博文不能直接获取用户的IP或地址信息,需要进入用户个人信息主 页进行数据抓取,如果不进行预处理,通过先找到帖子中用户然后再根据用户进入其主页抓 取其IP或地址信息的方式获取数据的话,由于请求网页需要一定的时间消耗,会影响系统效 率。用户数据采集模块101通过预处理预先将用户注册信息保存到本地,建立用户注册信息 表,对于不提供IP的网站进行预处理,即预处理模块搜索网站所有用户的个人信息主页,使 用字符串首尾边界切割技术提取用户名和注册地点存入用户注册信息表。
关键词采集模块102自动获取网络话题热点关键词,通过网络爬虫对微博、博客、论坛 话题热榜的关键词进行抓取,利用现有的文本聚类技术进行相似度检测、去重,得到关键词 列表。
话题信息采集模块103使用微博、博客或论坛提供的搜索功能,搜索关键词。将搜索的 所有页面的网页源码保存到本地。
数据处理模块200包括:提取时间地点模块、地点转换经纬度模块、数据按时间分批模 块。预先建立网站结构表,分析网站源码,找到所需信息的首尾唯一标识,存入网站结构表。 格式如:网站、目标信息1首标识、目标信息1尾标识、目标信息2首标识、目标信息2尾 标识等。根据网站结构表中对应的该网站的各个标识使用字符串首尾边界切割技术提取其中 的用户名、话题内容、IP、时间等信息存入数据库中。通过将地理位置转换为经纬度坐标, 并按照时间顺序排序,按照用户设定的时间间隔进行分批,完成动态演示数据集的建立。数 据处理模块完成三次递进式的数据处理。
提取时间地点模块201从搜索结果网页源码中提取时间和地点信息,在处理过程中,如 果有IP地址,则查找IP地址和地理位置信息映射表,将IP地址转换为城市名称,以保证待 处理数据集中仅含有时间和城市名称两个属性。IP地址和地理位置信息映射表,是根据现实 中的IP与地点的对应关系,建立存储在数据库中的表。
地点转换经纬度模块202通过读取地点和经纬度映射表,将提取出来的地理位置信息转 换为经纬度。地点和经纬度映射表,是根据不同GIS系统的地理坐标系统,在数据库中所建 立的城市和经纬度对应关系的映射表。
数据按时间分批模块203对地点转换经纬度模块202所建立的时间地点表,根据“时间” 字段,按时间先后排序,按照用户指定的时间间隔,对数据分批。如对于周期比较短的热点 话题,可以采取10分钟的时间间隔,10分钟之内的数据均认为同属一批,这样可把一个小 时之内传播的数据分为6批,依次类推。
动态展示模块300包括:GIS动态展示传播模块、网民地域分布实时变化模块,主要完 成网络舆情传播到地理位置传播的动态展示。
动态展示传播模块301读取按照时间分批的经纬度坐标,在GIS上分批标识,地标采用 具有高度差异的覆盖物,同一批数据采用相同高度的覆盖物,面对同一地点多次传播的情况, 通过略微改变经纬度坐标,使地标被标识在之前地标的附近,以密度表示舆情在该地区的密 集程度。如采用Google Earth进行数据展示时,可将分好批的数据按照批次写成若干kml演 示文件,再通过Google Earth二次开发所提供的程序接口,使用OpenKmlFile方法依次读入 每一个kml演示文件,建立定时器读取文件或者每读取一次文件程序都休眠小段时间,以这 样的方式完成信息传播动态演示;采用百度地图时,利用官方提供的API程序接口,如 Javascript版API,将对地图进行地标标注的函数用定时器控制其周期性执行,以完成动态 演示。
网民地域分布实时变化模块302完成网民地域分布曲线的动态变化,在x-y坐标系中,x 轴属性为时间,y轴属性为网民人数,省市之间的曲线用颜色区分,一批数据中的同一省市 做一个点,随着数据批次的增加,将同一省市的点动态连接起来,产生动画效果。如,若对 地域按照省市自治区来分,中国有34个独立的单位,则在x-y坐标系中,绘制34条不同颜 色的曲线,坐标系中的点代表某一时间某一地点网民人数。
图2是本发明的网络舆情地理位置传播、分布实时监控工作的流程图,根据图2,对本 发明的网络舆情地理位置传播、分布实时监控方法作进一步的说明。
step0:程序启动;
step1:数据采集模块判断是否需要数据预处理,若不需要,跳到step3;
step2:进入微博、博客或论坛,提取所有网贴的URL。依次进入各个网贴获取出现的发 帖者和回复者的个人主页URL1(这里为了区分,用URL1表示),同时进行去重处理,然后依 次进入每个URL1提取用户名和地点信息,存入用户注册信息表;根据不同网站网页源码结构, 分析待提取关键词前后唯一标识,存入网络结构表;
step3:手动输入关键词或自动获取关键词,关键词列表个数为M,并设两个控制变量 i=j=1;
step4:获取第i个关键词;
step5:在第j个微博、博客或者论坛中根据第i个关键词,利用微博、博客或论坛提供 的搜索功能,搜索关键词;
step6:将搜索结果的网页源码在本地保存;
step7:根据网络结构表,利用字符串首尾边界切割技术,从本地网页源码中提取用户名、 发布时间,存入原始演示数据集;
step8:判断是否能直接获取IP地址,如果否,跳到step10;
step9:将IP地址转为城市名称,跳到step11;
step10:根据用户名,查找用户注册信息表,获取用户注册城市信息,若无记录,则进 入用户主页得到注册城市,并更新用户注册信息表;
step11:完成在第j个微博、博客或者论坛的舆情采集,j++,N为微博、博客和论坛的 总数,如果j<N,跳到step5;
step12:根据经纬度对应关系,把城市信息转换成经纬度信息,存入演示数据集表;
step13:对演示数据集表中的数据按照时间先后分批,供GIS软件分批读取演示数据;
step14:选取一个GIS软件,如百度地图,利用API Flash,对读取演示批数设置定时 器,实现动态演示;每读取一批数据,绘制对应的网民省市分布曲线图的点,动态连接属于 每个省市的点;
step15:保存此次话题演示的结果,并保存数据分析报告;
step16:是否结束第i个关键词的抓取及展示,如果不结束,i=i%M+1,跳到step5;
step17:从关键词列表中删除此关键词,M=M-1,i=i-1,i=i%M+1,跳到step4;
上述实施方式为本发明较佳的实施方式,但是本发明的实施方式不受上述实施例的限制, 其他任何在本发明思想、方法、流程、系统设计、原理下所作的改变、修饰、替代、组合、 简化,均为等效的置换方式,都包含在本发明的保护范围之内。
机译: 一种用于在实时监控系统中预测对称,自动实时电弧闪光能量的方法
机译: 本发明提供了一种基于云的经由电子设备联网的方法和系统,其利用日期和时间可用性,预定技能要求,地理位置和实时技术的系统将企业(雇主)与个人(雇员/求职者)连接。
机译: 一种在实时监控系统中预测电源使用效率和数据中心基础架构效率的方法