微博话题检测与跟踪方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

微博作为目前最流行的社交应用之一，成为人们信息获取和传播的主要途径。微博数据实际上是一个高速、海量和动态的信息流，更能表达出每时每刻的社会话题及其变化过程，从中进行话题检测及跟踪对舆论监督、民意调查有重大意思。在此背景下，本文提出了一个时效性高、能够处理大规模数据流的聚类算法，并将其用到微博话题检测与跟踪上去，取得了较好的效果。
　　提出了一种基于近邻传播的大规模数据流聚类处理方法(Affinity Propagation in Massive Data Stream, APMStream)，主要包括初始聚类、在线聚类、聚类调整和聚类维护四个部分。从分布式迭代和动态调整阻尼系数两个方面改进近邻传播(Affinity Propagation, AP)算法，使其适用于大规模数据的初始聚类。在线聚类能够实时在线处理每个元组，根据与已有聚类的距离将元组归并到聚类中或者创建一个新的聚类。聚类调整首先重新选取聚类中心，然后运用加权的AP算法对新的聚类中心进行聚类。聚类维护通过删除长时间没有更新的聚类和重要程度低的元组，维持系统的负载在合理的范围内。
　　将APMStream方法用到话题检测与跟踪上去，主要包括微博重要程度的度量和微博之间距离的计算，其中微博重要程度是通过基于微博之间的关系计算得到的，作为AP算法的优先权参数，决定微博成为聚类中心的概率大小；微博之间的距离是通过基于公共词块方法计算得到的，用于构造AP算法的相似度矩阵。
　　APMStream方法被设计成为分布式流处理框架Apache Storm的一个拓扑，数据的处理分布在这个拓扑的各个节点上。经过实验验证，APMStream可以快速处理大规模微博数据流，检测微博话题，并且反映微博话题随时间的演化过程。

著录项

作者
刘均峰;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名潘鹏;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP311.131;
关键词
话题检测; 话题跟踪; 分布式流处理; 近邻传播算法; 微博数据;

相似文献

中文文献
外文文献
专利

1. 结合时序和语义的中文微博话题检测与跟踪方法 [J] . 陈铁明 ,王小号 ,庞卫巍 . 网络与信息安全学报 . 2016,第005期
2. 结合时序和语义的中文微博话题检测与跟踪方法 [J] . 陈铁明 ,王小号 ,庞卫巍 . 网络与信息安全学报 . 2016,第005期
3. 结合时序和语义的中文微博话题检测与跟踪方法 [J] . 陈铁明 ,王小号 ,庞卫巍 . 网络与信息安全学报 . 2016,第005期
4. 面向微博热点事件的话题检测及表述方法研究 [J] . 周炜翔 ,张仰森 ,张良 . 计算机应用研究 . 2019,第012期
5. 基于数据挖掘的微博话题检测方法研究进展 [J] . 孙国梓 ,黄斯琪 ,张禹森 . 金陵科技学院学报 . 2014,第001期
6. 基于时间序列分析的微博突发话题检测方法 [C] . HE Min ,贺敏 ,XU Jie . 2015中国计算机网络安全年会 . 2015
7. 中文微博话题检测跟踪方法研究和系统设计 [A] . 吴泽宾 . 2013

微博话题检测与跟踪方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅