首页> 中文学位 >基于主题模型的Twitter事件检测
【6h】

基于主题模型的Twitter事件检测

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

图录

表录

第一章 绪论

1.1 研究背景和意义

1.2国内外研究现状

1.3目前存在的问题

1.4研究内容及工作

1.5论文内容

1.6本章小结

第二章 相关理论技术

2.1参数估计

2.2共轭分布

2.3概率图模型

2.4 LDA主题模型

2.5本章小结

第三章 基于主题模型的Twitter事件检测算法

3.1概述

3.2 Tweets数据预处理

3.3GEAM\(General and Event-related Aspects Model\)

3.4事件排序和展示

3.5本章小结

第四章 在线事件检测

4.1概述

4.2 在线式GEAM模型

4.3本章小结

第五章 实验评估与结果分析

5.1概述

5.2 Tweets数据集

5.3参数设置和评估标准

5.4 GEAM模型构建

5.5在线式GEAM模型

5.6本章小结

第六章 结束语

6.1论文主要工作

6.2未来工作展望

参考文献

攻读硕士学位期间已发表或录用的论文

展开▼

摘要

随着Twitter等社交网络应用的迅速发展,越来越多的用户在上面发布实时信息、更新个人状态、表达自己的观点想法等。Twitter上的事件检测逐渐成为一个热门的研究话题,吸引了越来越多学者的关注。虽然 Twitter上的数据相对于传统的新闻媒体、网络博客等数据有更新实时、覆盖范围广、用户参与度高等优点,但是Tweets数据的单条信息量少、噪音大、更新频繁、总数据量大等特点也给事件检测带来了很大的挑战。
  本文提出一种基于主题模型的 Twitter事件检测算法 GEAM(General and Event-related Aspects Model),该模型通过模拟一条与现实事件相关的Tweet的生成过程将Tweet中描述事件相关方面的词项(Event-related Aspects words)和与事件无关的常用词项(General words)区分开来。同时,我们也提出Collapsed Gibbs Sampling算法对GEAM模型进行估计和推理,以得到描述不同事件的词项分布。此外,我们还提出了GEAM模型的在线式变形算法,实时检测连续的Tweets数据流中产生的事件并且追踪该事件的演化过程。
  本文设计了一系列的实验用以评估 GEAM模型的有效性。大规模真实Tweets数据集(超过6百万条Tweets)上的实验表明,GEAM模型在查准率(Precision),查全率(Recall)和重复事件检测率(DERate)都优于传统LDA主题模型。GEAM模型采用(时间,地点,实体,核心词)四元组的形式表示事件的细粒度信息,使得事件检测结果的语义更为清晰。此外,实验部分还展示了在线式 GEAM 模型追踪事件演变过程的能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号