首页> 中文学位 >基于分布式K--means算法在微博热点主题发现的研究

【6h】

基于分布式K--means算法在微博热点主题发现的研究

代理获取

页面导航

目录
著录项
相似文献
相关主题

目录

声明

1绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 话题检测与跟踪技术的研究现状

1.2.2 微博热点主题发现的研究现状

1.3 主要研究内容

1.4 内容结构

2相关技术概述

2.1 中文分词技术

2.1.1 基于字符串匹配的分词方法

2.1.2 基于理解的分词方法

2.1.3 基于统计的分词方法

2.2 文本表示模型

2.2.1 向量空间模型

2.2.2 布尔模型

2.2.3 概率模型

2.3 文本相似度的度量

2.4 常用的文本聚类方法

2.4.1 基于层次的聚类算法

2.4.2 基于密度的聚类算法

2.4.3 基于网格的聚类算法

2.4.4 基于模型的聚类算法

2.4.5 基于划分的聚类算法

2.5 HADOOP系统架构

2.5.1 HDFS

2.5.2 MapReduce分布式计算

2.5.3 HBase数据库

2.6 本章小结

3微博文本采集及预处理

3.1 微博热点主题发现

3.2 微博数据采集

3.3 文本预处理

3.3.1 中文分词

3.3.2 去停用词

3.4 文本向量化

3.5 本章小结

4微博热点主题发现的算法设计

4.1 聚类算法的提出

4.1.1 聚类算法的选择

4.1.2 本文算法的提出

4.2 混合的聚类算法

4.2.1 Canopy算法的基本思想

4.2.2 K-means算法的基本思想

4.2.3 改进的K-means算法

4.3 算法复杂度

4.4 话题热度计算

4.5 本章小结

5实验及结果分析

5.1 系统部署

5.1.1 硬件配置

5.1.2 软件配置

5.1.3 环境配置

5.2 实验结果分析

5.2.1 微博数据获取

5.2.2 微博数据预处理

5.2.3 微博热点主题发现及趋势分析

5.3 评价指标

5.4 本章小结

6 总结与展望

6.1 论文工作总结

6.2 研究展望

致谢

参考文献

攻读硕士学位期间主要研究成果

展开▼

著录项

作者
许郡蒙;
展开▼
作者单位

西安理工大学;

展开▼
授予单位西安理工大学;
学科电子与通信工程
授予学位硕士
导师姓名王林,马藏珍;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词

相似文献

中文文献
外文文献
专利

1. 基于多特征的微博热点主题发现算法的研究 [J] . 张申旭 ,黄震华 . 现代计算机（专业版） . 2017,第019期
2. 分布式K-means聚类在微博热点主题发现的应用 [J] . 王林 ,许郡蒙 . 计算机仿真 . 2020,第008期
3. 基于关键词共现和社区发现的微博热点主题识别研究 [J] . 丁晟春 ,王楠 ,吴靓婵媛 . 现代情报 . 2018,第003期
4. 基于LDA模型的Twitter中文微博热点主题词组发现 [J] . 孙世杰 ,濮建忠 . 洛阳师范学院学报 . 2012,第011期
5. 基于共词分析的国内政务微博热点主题研究的可视化分析 [J] . 方兴林1 . 湖北工程学院学报 . 2019,第001期
6. 基于多维决策属性的分布式双向信任链发现算法 [C] . 王海艳 ,王莹 . 2011年第五届中国可信计算与信息安全学术会议(CTCIS2011) . 2011
7. 基于并行K--MEANS聚类分析的社群发现算法研究 [A] . 于洋洋 . 2012

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号