首页> 中文学位 >微博话题检测与跟踪方法研究
【6h】

微博话题检测与跟踪方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究的背景及意义

1.2 研究的现状

1.3 论文的主要工作

1.4 论文的组织结构

2 基于近邻传播的大规模数据流聚类

2.1 方法概述

2.2 详细步骤说明

2.3 本章小结

3 基于APMStream的微博话题检测与跟踪

3.1 微博数据清洗

3.2 基于微博之间的关系的重要程度度量

3.3 综合内容相似度和属性相似度的微博距离计算

3.4 微博话题检测跟踪和排序

3.5 本章小结

4 APMStream方法在Apache Storm上的实现

4.1 APMStream方法实现

4.2 微博数据流模拟模块

4.3 微博清理和分词模块

4.4 微博距离计算模块

4.5 基于分布式流处理和动态阻尼系数的AP算法实现模块

4.6 本章小结

5 实验分析

5.1 实验环境与数据

5.2 AP2D算法实验分析

5.3 APMStream方法实验分析

5.4 微博话题检测跟踪和排序实验分析

5.5 本章小结

6 总结与展望

6.1 论文总结

6.2 未来展望

致谢

参考文献

展开▼

摘要

微博作为目前最流行的社交应用之一,成为人们信息获取和传播的主要途径。微博数据实际上是一个高速、海量和动态的信息流,更能表达出每时每刻的社会话题及其变化过程,从中进行话题检测及跟踪对舆论监督、民意调查有重大意思。在此背景下,本文提出了一个时效性高、能够处理大规模数据流的聚类算法,并将其用到微博话题检测与跟踪上去,取得了较好的效果。
  提出了一种基于近邻传播的大规模数据流聚类处理方法(Affinity Propagation in Massive Data Stream, APMStream),主要包括初始聚类、在线聚类、聚类调整和聚类维护四个部分。从分布式迭代和动态调整阻尼系数两个方面改进近邻传播(Affinity Propagation, AP)算法,使其适用于大规模数据的初始聚类。在线聚类能够实时在线处理每个元组,根据与已有聚类的距离将元组归并到聚类中或者创建一个新的聚类。聚类调整首先重新选取聚类中心,然后运用加权的AP算法对新的聚类中心进行聚类。聚类维护通过删除长时间没有更新的聚类和重要程度低的元组,维持系统的负载在合理的范围内。
  将APMStream方法用到话题检测与跟踪上去,主要包括微博重要程度的度量和微博之间距离的计算,其中微博重要程度是通过基于微博之间的关系计算得到的,作为AP算法的优先权参数,决定微博成为聚类中心的概率大小;微博之间的距离是通过基于公共词块方法计算得到的,用于构造AP算法的相似度矩阵。
  APMStream方法被设计成为分布式流处理框架Apache Storm的一个拓扑,数据的处理分布在这个拓扑的各个节点上。经过实验验证,APMStream可以快速处理大规模微博数据流,检测微博话题,并且反映微博话题随时间的演化过程。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号