基于语义分析和二次聚类的微博热点发现方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

微博已经成为表达用户观点的主要阵地之一，同时也是新闻消息的主要产生和传播途径之一。用户在微博平台发布和传播的内容即可以及时掌握用户的关注点，提高用户满意度，也可以帮助有关信息监督部门及时掌握突发事件。因此对微博热点发现的研究具有较高的社会意义和学术价值。针对传统的微博热点发现方法中存在的语义理解不足和聚类算法局限性的问题，本文从语义分析角度表示文本，使用信息增益和潜在语义分析方法构建词-文档矩阵；提出了二次聚类算法，改进的K-means算法及其增量聚类算法实现话题发现与更新，相似强度来选取最优话题，以解决传统的先确定聚类个数再发现话题的不准确性问题；最后构建微博话题热度评估计算模型。
　　本文主要研究的微博热点发现，其过程划分为三方面：（1）数据采集与清洗。经研究分析发现反映微博主题的因素主要有：标题、内容、转发次数、评论内容、作者和发表时间，采集结果中相同微博内容仅保留一个，清除内容中未处理的HTML标签，去除空值、广告等噪声，去停用词。（2）数据处理与文档表示。从语义分析角度表示文本。本文使用信息增益选取特征词，可以较多的保留低频词汇的隐含信息。通过向量空间模型构建的词-文档，该矩阵维度高且存在噪声，使用潜在语义分析可有效解决这些问题。（3）热点发现。本文使用二次聚类算法发现微博话题。通过相关门户网站分析和人工分类微博，确定了微博热点话题的数量区间作为K-means聚类算法的聚类个数区间。对于新加入的数据使用增量聚类算法，快速更新话题。聚类结果不唯一通过相似强度选取最优值，解决了传统的先确定话题个数再发现话题内容的不准确性问题。从实验结果来看，本文提出的话题发现方法具有较高的精确度。提出了微博话题热度评估模型和计算公式。
　　根据以上研究，本文还设计了博热点发现流程，使用JAVA实现了流程中的关键步骤。通过抓取新浪微博中的相关数据及实验，验证了本文提出的方法具有较好的效果。

著录项

作者
吴妮;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科管理科学与工程
授予学位硕士
导师姓名赵捧未;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类传播理论;文字信息处理;
关键词
语义分析; 二次聚类; 相似强度; 微博热点; 发现方法;

相似文献

中文文献
外文文献
专利

1. 基于混合聚类的微博热点话题发现方法 [J] . 张亚男 ,冯建文 . 杭州电子科技大学学报 . 2018,第001期
2. 基于MFIHC聚类和TOPSIS的微博热点发现方法 [J] . 魏德志 ,陈福集 ,林丽娜 . 计算机应用研究 . 2018,第004期
3. 基于有意义串聚类的微博热点话题发现方法 [J] . 贺敏 ,王丽宏 ,杜攀 . 通信学报 . 2013,第S1期
4. 基于语义分析的微博热点话题发现技术研究 [J] . 柏建普 ,田芳 . 内蒙古科技大学学报 . 2013,第003期
5. 面向微博热点话题发现的多标签传播聚类方法研究 [J] . 陈羽中 ,方明月 ,郭文忠 . 模式识别与人工智能 . 2015,第001期
6. 基于混合聚类的微博热点话题发现方法 [C] . Zhang Yanan ,张亚男 ,Feng Jianwen . 杭州电子科技大学第九届研究生IT创新学术论坛 . -1
7. 基于隐含语义分析的微博热点话题发现策略 [A] . 马雯雯 . 2013

基于语义分析和二次聚类的微博热点发现方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅