公开/公告号CN106202278A
专利类型发明专利
公开/公告日2016-12-07
原文格式PDF
申请/专利权人 武汉泰迪智慧科技有限公司;
申请/专利号CN201610507203.9
申请日2016-07-01
分类号G06F17/30;
代理机构武汉智嘉联合知识产权代理事务所(普通合伙);
代理人黄君军
地址 430000 湖北省武汉市东湖新技术开发区高新大道999号A5北2-509
入库时间 2023-06-19 01:07:21
法律状态公告日
法律状态信息
法律状态
2019-08-13
授权
授权
2017-01-04
实质审查的生效 IPC(主分类):G06F17/30 申请日:20160701
实质审查的生效
2016-12-07
公开
公开
技术领域
本发明涉及大数据云计算技术领域,特别涉及一种基于数据挖掘技术的舆情监测系统。
背景技术
网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。网络舆情其表现方式主要为:新闻评论、BBS论坛、博客、播客、微博、聚合新闻(RSS)、新闻跟帖及转帖等等。
网络舆情表达快捷、信息多元,方式互动。网络的开放性和虚拟性,决定了网络舆情具有以下特点:直接性、随意性和多元化、突发性、隐蔽性、偏差性。这也对网络舆情的监测带来了难度。
发明内容
有鉴于此,本发明提出一种基于数据挖掘技术的舆情监测系统。
一种基于数据挖掘技术的舆情监测系统,其包括如下单元:
数据获取单元,用于通过网络爬虫程序爬取互联网舆情初始数据;
分片单元,用于将互联网舆情初始数据进行输入分片,将各个输入分片分配一个映射任务,输入分片存储分片长度以及记录数据的位置的数组;
通过预先编写的映射函数在数据存储节点上进行映射得到中间文件;
计算单元,用于合并中间文件中的重复键值,以降低映射输出文件冗余;并对合并后的键值进行序列化得到映射缓存文件;自动获取各个计算节点的计算负载值,根据计算节点的计算负载值将各个映射缓存文件分配到各个计算节点中;
缓存单元,用于在内存中开辟环形内存缓冲区,环形内存缓冲区用于映射输出文件输出;在环形内存缓冲区中创建配置文件,在配置文件中配置内存缓冲区的内存占用阈值;在环形内存缓冲区中内存占用大于或等于占用阈值时,保护线程暂停将数据写入内存,并在内存中写入溢出文件,溢出文件确定写入磁盘的文件,并将环形内存缓冲区的文件写入磁盘直至所有的映射输出文件输出完毕;
输出单元,用于将所有的映射输出文件并存储到分布式文件存储系统上;
建模单元,用于建立网络舆情预测模型;
预测单元,用于从分布式文件存储系统上读取映射输出文件并通过网络舆情预测模型进行舆情预测。
在本发明所述的基于数据挖掘技术的舆情监测系统中,
所述数据获取单元包括:
通过网络爬虫程序从自定义抓取列表中取出链接地址,获取网络文本;
对网络页面进行检测深度网络数据源,取出数据噪声,提取正文文本,进行主题相关度判定处理。
在本发明所述的基于数据挖掘技术的舆情监测系统中,所述分片单元中对互联网舆情初始数据进行输入分片包括:
建立关联关系表,将输入文件拆分为位置关系值、活动关系值、结构关系值、功能关系值、功能关系值、行为关系值以及其他关系值,并将各个输入文件的各个关系值的对应关系写入关联关系表中;
将各个关系值对应的数据划入输入分片中。
在本发明所述的基于数据挖掘技术的舆情监测系统中,所述分片单元中通过预先编写的映射函数在数据存储节点上进行映射得到中间文件包括:
通过预先编写的映射函数将输入分片按照映射任务进行映射,所述映射包括按照预先设置的数据格式将输入分片内容进行列表对齐,判断位置关系值、活动关系值、结构关系值、功能关系值、功能关系值、行为关系值以及其他关系值是否存在,如果各个关系值存在则直接保留,如果不存在某一项或某几项关系值,则缺失的关系值为空;各个关系的排列顺序均保持一致。
在本发明所述的基于数据挖掘技术的舆情监测系统中,
所述输出单元包括:
从关联关系表中查询各个映射输出文件对应的所有索引信息,将各个映射输出文件的每个对应一个段数据插入到段列表中;记录段数据的位置关系值、活动关系值、结构关系值、功能关系值、功能关系值、行为关系值以及其他关系值。
在本发明所述的基于数据挖掘技术的舆情监测系统中,
所述分片单元中对通过预先编写的映射函数将输入分片按照映射任务进行映射还包括根据关联关系表判断输入分片是否存在逻辑错误,如存在则丢弃该输入分片。
在本发明所述的基于数据挖掘技术的舆情监测系统中,
所述建模单元包括:
将所有的映射输出文件采用聚类算法进行构造,形成有序网络舆情数据信息;
对有序网络舆情数据信息进行灰色累加,生成累加序列,序列公式如下:
x(1)=[x(1)(1),x(1)(2),...x(1)(n)],其中
通过统一化方法将生成的累加序列数据进行缩放,将其变换为[0,1]之间,归一化的公式为:
建立网络舆情灰度模型,并对预先输入的样本进行预测,对预测值进行累减还原运算得到网络舆情预测值;
计算网络阈值预测值与实际值的残差得到残差训练样本;
将残差训练样本输入反向传播神经网络进行训练,并用粒子群算法进行优化得到网络舆情预测模型。
实施本发明提供的基于数据挖掘技术的舆情监测系统与现有技术相比具有以下有益效果:通过把海量的网络舆情数据按照预先设置的规则分割成了若干部分,分给多台处理器并行处理;然后把各台处理器处理后的结果进行汇总操作以得到最终结果;可以实现处理大量、非结构化的数据,提高了数据处理类型以及速度。并且通过反向传播神经网络得到网络舆情预测模型,可以深入挖掘网络舆情数据之间的变化规律,能够有效、精准地对网络舆情进行监测。
附图说明
图1是本发明实施例的基于数据挖掘技术的舆情监测系统结构框图。
具体实施方式
如图1所示,一种基于数据挖掘技术的舆情监测系统,其包括如下单元:
数据获取单元,用于通过网络爬虫程序爬取互联网舆情初始数据。
互联网舆情初始数据的来源包括互联网网页、微博、微信公共号、论坛等渠道。
分片单元,用于将互联网舆情初始数据进行输入分片,将各个输入分片分配一个映射任务,输入分片存储分片长度以及记录数据的位置的数组;
通过预先编写的映射函数在数据存储节点上进行映射得到中间文件;
计算单元,用于合并中间文件中的重复键值,以降低映射输出文件冗余;并对合并后的键值进行序列化得到映射缓存文件;自动获取各个计算节点的计算负载值,根据计算节点的计算负载值将各个映射缓存文件分配到各个计算节点中;
缓存单元,用于在内存中开辟环形内存缓冲区,环形内存缓冲区用于映射输出文件输出;在环形内存缓冲区中创建配置文件,在配置文件中配置内存缓冲区的内存占用阈值;在环形内存缓冲区中内存占用大于或等于占用阈值时,保护线程暂停将数据写入内存,并在内存中写入溢出文件,溢出文件确定写入磁盘的文件,并将环形内存缓冲区的文件写入磁盘直至所有的映射输出文件输出完毕;
输出单元,用于将所有的映射输出文件并存储到分布式文件存储系统上;
建模单元,用于建立网络舆情预测模型;
预测单元,用于从分布式文件存储系统上读取映射输出文件并通过网络舆情预测模型进行舆情预测。
在本发明所述的基于数据挖掘技术的舆情监测系统中,
所述数据获取单元包括:
通过网络爬虫程序从自定义抓取列表中取出链接地址,获取网络文本;
对网络页面进行检测深度网络数据源,取出数据噪声,提取正文文本,进行主题相关度判定处理。
在本发明所述的基于数据挖掘技术的舆情监测系统中,所述分片单元中对互联网舆情初始数据进行输入分片包括:
建立关联关系表,将输入文件拆分为位置关系值、活动关系值、结构关系值、功能关系值、功能关系值、行为关系值以及其他关系值,并将各个输入文件的各个关系值的对应关系写入关联关系表中;
将各个关系值对应的数据划入输入分片中。
在本发明所述的基于数据挖掘技术的舆情监测系统中,所述分片单元中通过预先编写的映射函数在数据存储节点上进行映射得到中间文件包括:
通过预先编写的映射函数将输入分片按照映射任务进行映射,所述映射包括按照预先设置的数据格式将输入分片内容进行列表对齐,判断位置关系值、活动关系值、结构关系值、功能关系值、功能关系值、行为关系值以及其他关系值是否存在,如果各个关系值存在则直接保留,如果不存在某一项或某几项关系值,则缺失的关系值为空;各个关系的排列顺序均保持一致。
在本发明所述的基于数据挖掘技术的舆情监测系统中,
所述输出单元包括:
从关联关系表中查询各个映射输出文件对应的所有索引信息,将各个映射输出文件的每个对应一个段数据插入到段列表中;记录段数据的位置关系值、活动关系值、结构关系值、功能关系值、功能关系值、行为关系值以及其他关系值。
在本发明所述的基于数据挖掘技术的舆情监测系统中,
所述分片单元中对通过预先编写的映射函数将输入分片按照映射任务进行映射还包括根据关联关系表判断输入分片是否存在逻辑错误,如存在则丢弃该输入分片。
在本发明所述的基于数据挖掘技术的舆情监测系统中,
所述建模单元包括:
将所有的映射输出文件采用聚类算法进行构造,形成有序网络舆情数据信息;
对有序网络舆情数据信息进行灰色累加,生成累加序列,序列公式如下:
x(1)=[x(1)(1),x(1)(2),...x(1)(n)],其中
通过统一化方法将生成的累加序列数据进行缩放,将其变换为[0,1]之间,归一化的公式为:其中xi,xi’分别表示转换前后的值,min(x)、max(x)分别表示有序网络舆情数据信息的最大值和最小值;
建立网络舆情灰度模型,并对预先输入的样本进行预测,对预测值进行累减还原运算得到网络舆情预测值;
计算网络阈值预测值与实际值的残差得到残差训练样本;
将残差训练样本输入反向传播神经网络进行训练,并用粒子群算法进行优化得到网络舆情预测模型。
实施本发明提供的基于数据挖掘技术的舆情监测系统与现有技术相比具有以下有益效果:通过把海量的网络舆情数据按照预先设置的规则分割成了若干部分,分给多台处理器并行处理;然后把各台处理器处理后的结果进行汇总操作以得到最终结果;可以实现处理大量、非结构化的数据,提高了数据处理类型以及速度。并且通过反向传播神经网络得到网络舆情预测模型,可以深入挖掘网络舆情数据之间的变化规律,能够有效、精准地对网络舆情进行监测。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。
机译: 使用数据挖掘技术基于预测硬件统计信息的数据库优化
机译: 基于多元索引的多点添加数据的数据挖掘技术来分析客户的投资品味的装置和方法
机译: 基于数据挖掘技术的银行仿冒贷款格局分析方法及系统