首页> 中文学位 >面向微博突发事件发现的自适应社区检测算法研究及系统实现
【6h】

面向微博突发事件发现的自适应社区检测算法研究及系统实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题的研究背景和意义

1.2 微博事件检测研究现状

1.2.1 文档优先与特征优先

1.2.2 回顾式事件和新事件发现

1.3 本文的主要内容和结构安排

第2章 特征优先的微博突发事件检测

2.1 算法框架

2.2 特征检测

2.2.1 概率生成模型

2.2.2 指数平滑预测

2.2.3 频域分析

2.2.4 总结

2.3 事件生成

2.3.1 基于向量空间模型与文档聚类的事件生成

2.3.2 基于网络模型与社区检测的事件生成

2.3.3 总结

2.4 事件检测的评价标准

2.5 本章小结

第3章 面向带权动态网络的自适应社区检测算法

3.1 带权动态网络模型

3.1.1 模型定义及符号标记

3.1.2 权重强度

3.1.3 调整Modularity指标

3.2 QCA算法

3.2.1 符号标记及目标函数

3.2.2 算法流程

3.2.3 扩展至带权动态网络

3.3 自适应社区检测算法

3.3.1 基于作用力概念的推论及证明

3.3.2 算法流程

3.4 社区检测结果的评价方法

3.5 实验结果

3.5.1 实验集

3.5.2 自适应社区检测算法性能分析

3.5.3 自适应社区检测算法结果示例和分析

3.6 本章小结

第4章 微博突发事件在线检测系统实现

4.1 系统框架

4.2 模块实现

4.2.1 预处理

4.2.2 突发性估计

4.2.3 词图构建

4.2.4 事件生成

4.3 实验结果

4.3.1 实验集

4.3.2 事件发现性能分析

4.3.3 事件发现结果展示

4.4 本章小结

结论

致谢

参考文献

攻读硕士学位期间发表的论文及科研成果

展开▼

摘要

伴随着社交媒体的快速发展,微博类应用已经成为传统媒体以外的一个重要的信息来源。如何及时且准确地从微博数据流中发现突发事件信息,已成为数据挖掘领域近些年来的研究热点之一。为了从海量噪声数据中过滤出稀疏的事件信号,学术界提出了很多方案来描述和检测突发特征,并对这些特征进行聚类以得到完整的事件信息。然而,在实时更新的微博流场景中,需要以有限的时空开销来生成事件信息,所以传统的静态聚类方案不能满足需求。本文针对这一问题,提出用突发特征网络中的社区结构来描述事件,且以历史事件为基础生成最新事件的信息,旨在减少实时检测突发事件的时空开销,并提高事件发现的准确度。本文的主要内容和贡献如下:
  第一,提出了一个面向带权网络的自适应社区检测算法。该算法基于无权动态网络下的QCA社区检测算法,采用了模块度局部优化的思路。在带权网络出现动态变化的情况下,该算法能够对历史的社区结构进行自适应调整。基于作用力的概念,可以分析得知网络变化对于结点移动趋势的全局影响,从而避免了不必要的网络调整开销。在此基础上,再以模块度优化为目标,对不稳定的社区结构进行局部调整。
  第二,提出采用带权网络模型对突发单词的重要性和共现性建模,并以词图网络中的社区结构来描述事件信息。此外,本文基于带权网络提出了权重强度的概念,以描述网络中局部子图的重要性,并据此推导出带权网络下的模块度度量公式。
  第三,提出了一个微博突发事件在线检测系统的实现方案。该方案采用特征优先的策略,结合预处理和突发性估计的结果来构建带权词图模型,应用自适应社区检测算法来发现单词网络中的事件信息。通过实验可以证明,利用该系统方案能够快速且准确地发现突发事件。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号