首页> 中文学位 >基于主题模型和社区发现的微博热点事件检测研究
【6h】

基于主题模型和社区发现的微博热点事件检测研究

代理获取

目录

声明

摘要

第1章 引言

1.1 研究背景和意义

1.2 国内外研究现状

1.3 研究内容

1.4 论文结构

第2章 相关概念及技术概述

2.1 文档表示模型

2.1.1 向量空间模型

2.1.2 统计语言模型

2.2 主题模型

2.2.1 LSI模型

2.2.2 PLSI模型

2.2.3 LDA模型

2.3 贝叶斯文本分类

2.3.1 朴素贝叶斯方法

2.3.2 PG贝叶斯方法

2.4 社区发现

2.4.1 社区模块度

2.4.2 鲁汶算法

2.5 图核

2.5.1 邻居哈希图核

2.6 本章小结

第3章 基于主题模型和贝叶斯方法的静态事件检测

3.1 任务概述

3.2 Topic-Bayesian文本分类算法

3.2.1 主题信息获取

3.2.2 基于主题表述的文档分类

3.3 实验结果分析与评估

3.3.1 数据描述

3.3.2 参数设置

3.3.3 实验结果及评估

3.4 本章小结

第4章 基于社区发现和图核计算的动态事件检测

4.1 任务概述

4.2 事件词的动态选取

4.2.1 事件词选取指标定义

4.2.2 事件词动态选取算法

4.3 基于社区发现的动态事件检测

4.3.1 事件社区发现

4.3.2 事件微博选取

4.4 基于图核计算的动态事件追踪

4.4.1 基于主题语义的比特数组标签编码方案

4.4.2 基于邻居哈希图核的动态事件社区匹配

4.5 实验结果与评估

4.5.1 实验数据集分析

4.5.2 实验过程及参数设置

4.5.3 实验结果及评估

4.6 本章小结

第5章 总结及展望

参考文献

致谢

攻读硕士学位期间公开发表的论文

展开▼

摘要

凭借简便快捷的信息生成机制和传播机制,微博这一新兴的社交网络服务媒体在Web2.0时代已无处不在。与传统媒体相比,在新闻事件的播报和传播上,微博更加及时高效。因而基于微博数据的热点事件检测成为近几年的一个研究热点。但微博的一些特性为微博热点事件检测任务带来挑战。首先,微博数据流中有大量无价值、无意义的“噪声”微博,如何有效的从微博数据流中将令人感兴趣的事件微博与大量“噪声”微博区分开是微博热点事件检测面对的首要挑战。其次,一条微博只有不超过140个字符,文本极其稀疏,且常常包含拼写和语法错误、混合语言文字等,这些都使传统的文本分析技术无法直接应用于微博事件检测。
  本文首先研究了国内外现有微博热点事件检测相关技术,然后根据现有技术不足,在静态和动态两种类型的微博热点事件检测上进行了相关研究和扩展。在静态微博事件检测方面,本文提出一种基于主题模型和贝叶斯方法的文本分类方法在静态微博数据上检测事件微博,该方法将静态微博数据映射到主题空间表述,并挖掘主题与文本类型之间的关系,然后根据微博的主题类别属性是否为事件类判断该微博的类别属性。在动态事件检测方面,本文提出一种基于社区发现和图核计算的动态事件检测方法,该方法首先根据本文提出的一种动态事件词选取算法选取事件词;然后分时间片将动态实时微博数据流中的微博根据其所含事件词状态构建成微博语义图,每个时间片的微博语义图以微博博文为结点,以结点之间是否出现相同事件词为边,然后使用一种社区发现算法发现每个时间片微博语义图中的事件社区,并返回每个事件社区的关键结点微博作为该事件社区所反映事件的描述;本文还提出一种基于主题语义的编码方案为事件社区图中每个结点编制一个比特数组编码标签,得到新的带标签的事件社区图,最后应用一种图核算法,计算在相邻时间片的标签事件社区图的相似度,并根据计算结果匹配描述同一事件的事件社区,达到事件追踪的目的。本文以实时爬取的中文微博数据为实验数据,分别应用上述两种方法检测微博热点事件,实验结果表明,上述两种方法均能达到预期效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号