首页> 中文学位 >基于语义指纹关联的网络事件热度分析方法研究
【6h】

基于语义指纹关联的网络事件热度分析方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.2.3 本文相关技术研究现状

1.3 本文研究内容及安排

第二章 相关理论与技术

2.1 数据采集、提取

2.1.1 数据采集技术

2.1.2 信息提取

2.2 信息预处理技术

2.3 热点事件发现相关技术

2.3.1 文本向量化表示

2.3.2 文本相似度计算

2.3.3 文本聚类

2.3.4 分本分类

2.4 基于条件随机场的命名实体识别技术

2.4.1 命名实体识别

2.4.2 条件随机场模型

2.5 柯式复杂性理论

2.6 本章小结

第三章 事件语义指纹的获取

3.1 事件语义指纹的表示

3.1.1 词语的语义指纹

3.1.2 事件的语义指纹

3.2.事件语义指纹的获取

3.2.1 获取方法

3.3 实验

3.3.1 实验数据

3.3.2 实验结果

3.3.3 结果分析

3.4 本章小结

第四章 基于事件关联的网络事件热度分析

4.1 网络热点事件关联分析

4.1.1 关联类型

4.1.2 网络热点事件舆情关联的影响

4.2 基于语义指纹的热点事件关联

4.2.1 事件关联图

4.2.2 HowNet语义相似度计算

4.2.3 事件关联度计算

4.3 基于关联的网络事件热度

4.3.1 热度计算公式

4.3.2 基于事件关联的热度计算

4.3.3 网络事件热度分析

4.4 实验

4.4.1 事件关联图

4.4.2 事件关联图结果分析

4.4.3 事件热度结果分析

4.4 本章小结

第五章 总结与展望

5.1 总结

5.2 下一步工作

参考文献

攻读硕士学位期间公开发表的学术论文与参加的科研项目

致谢

展开▼

摘要

随着互联网的快速发展,网络媒体应运而生,传统媒体公司也随之建立了新闻发布网站。网络传播的快捷性、互动性、开放性等特点使得民众可以快速关注网络上的热点事件,发表看法、参与讨论。随着民众的关注,负面热点事件的事件破坏力可能会对社会的和谐造成不好的影响,因此,在热点事件的萌芽阶段及时发现热点事件并采取适当的措施进行处理,是热点事件下一步的研究方向。
  目前的热点事件发现方法主要是通过文本处理的方法对网络上的信息进行归类,然后对每一类事件进行热度分析。这类方法属于事后分析,如果能在事件的萌芽阶段发现并及时处理该事件就能有效降低影响。因此,本文研究的目标是在事件的萌芽阶段分析事件的热度,判断其是否会成为热点事件。
  新的事件刚产生时,事件的报道数量、评论数、点击率等都很少,通过热度计算公式不能判断其是否会成为热点事件。分析热点事件的特点,发现有很多与热点事件相关的事件在过去发生过。这说明热点事件之间相互关联,因此可通过已经发生的热点事件分析当前事件的热度。
  本文首先提出事件语义指纹的概念描述事件,事件的语义指纹分为主体、主题、时间、地点四部分,从这四部分描述一个事件。事件的主体、时间、地点等属于命名实体,可通过命名实体识别技术得到,根据每部分的特点,分别计算它们的贡献度;事件的主题主要描述事件的内容,通过柯式复杂性理论和共词矩阵得到最能代表事件的相关特征词作为事件的主题。事件的语义指纹根据事件每个方面的特点来描述一个事件,比传统的文本向量表示事件的方法更加完善。
  然后基于事件的语义指纹计算两个事件的相关度,建立关联事件图,分析图中每个事件的热度,依据PageRank算法的思想得到每个事件的重要性,计算事件的热度向量与事件的重要性向量的乘积,得到当前事件的热度。分别计算事件的语义指纹的四个方面的关联度来得到事件之间的关联度,以事件关联度为边的权重,建立权重矩阵,迭代计算事件关联图中事件的重要性,当收敛时得到关联图中每个事件的重要性。
  最后将事件的语义指纹与TF-IDF、BM25等方法在检索模型里作对比,发现事件的语义指纹能更好的表示一个事件,将事件关联图模型计算得到的事件的热度与实际热度进行比较,热度预测效果很好,说明了基于事件关联方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号