首页> 中文学位 >基于语义分析和二次聚类的微博热点发现方法
【6h】

基于语义分析和二次聚类的微博热点发现方法

代理获取

目录

封面

声明

中文摘要

英文摘要

插图索引

表格索引

符号对照表

缩略语对照表

目录

第一章 绪论

1.1研究背景及选题意义

1.2国内外研究现状

1.3本文研究内容

1.4本文结构安排

第二章 微博和热点发现的相关概述

2.1微博相关概述

2.2微博文本表示研究

2.3相似度计算

2.4微博热点发现方法概述

2.5小结

第三章 基于语义分析和二次聚类的微博热点发现

3.1基于语义分析和二次聚类的微博热点发现方法流程

3.2基于语义分析的微博文本表示模型

3.3基于二次聚类算法聚类微博话题

3.4微博话题热度评估

3.5小结

第四章 实验与分析

4.1实验

4.2评价标准

4.3评价结果及分析

4.4小结

第五章 结束语

5.1本文工作总结

5.2进一步研究展望

参考文献

致谢

作者简介

展开▼

摘要

微博已经成为表达用户观点的主要阵地之一,同时也是新闻消息的主要产生和传播途径之一。用户在微博平台发布和传播的内容即可以及时掌握用户的关注点,提高用户满意度,也可以帮助有关信息监督部门及时掌握突发事件。因此对微博热点发现的研究具有较高的社会意义和学术价值。针对传统的微博热点发现方法中存在的语义理解不足和聚类算法局限性的问题,本文从语义分析角度表示文本,使用信息增益和潜在语义分析方法构建词-文档矩阵;提出了二次聚类算法,改进的K-means算法及其增量聚类算法实现话题发现与更新,相似强度来选取最优话题,以解决传统的先确定聚类个数再发现话题的不准确性问题;最后构建微博话题热度评估计算模型。
  本文主要研究的微博热点发现,其过程划分为三方面:(1)数据采集与清洗。经研究分析发现反映微博主题的因素主要有:标题、内容、转发次数、评论内容、作者和发表时间,采集结果中相同微博内容仅保留一个,清除内容中未处理的HTML标签,去除空值、广告等噪声,去停用词。(2)数据处理与文档表示。从语义分析角度表示文本。本文使用信息增益选取特征词,可以较多的保留低频词汇的隐含信息。通过向量空间模型构建的词-文档,该矩阵维度高且存在噪声,使用潜在语义分析可有效解决这些问题。(3)热点发现。本文使用二次聚类算法发现微博话题。通过相关门户网站分析和人工分类微博,确定了微博热点话题的数量区间作为K-means聚类算法的聚类个数区间。对于新加入的数据使用增量聚类算法,快速更新话题。聚类结果不唯一通过相似强度选取最优值,解决了传统的先确定话题个数再发现话题内容的不准确性问题。从实验结果来看,本文提出的话题发现方法具有较高的精确度。提出了微博话题热度评估模型和计算公式。
  根据以上研究,本文还设计了博热点发现流程,使用JAVA实现了流程中的关键步骤。通过抓取新浪微博中的相关数据及实验,验证了本文提出的方法具有较好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号