首页> 中文学位 >基于分布式K--means算法在微博热点主题发现的研究
【6h】

基于分布式K--means算法在微博热点主题发现的研究

代理获取

目录

声明

1绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 话题检测与跟踪技术的研究现状

1.2.2 微博热点主题发现的研究现状

1.3 主要研究内容

1.4 内容结构

2相关技术概述

2.1 中文分词技术

2.1.1 基于字符串匹配的分词方法

2.1.2 基于理解的分词方法

2.1.3 基于统计的分词方法

2.2 文本表示模型

2.2.1 向量空间模型

2.2.2 布尔模型

2.2.3 概率模型

2.3 文本相似度的度量

2.4 常用的文本聚类方法

2.4.1 基于层次的聚类算法

2.4.2 基于密度的聚类算法

2.4.3 基于网格的聚类算法

2.4.4 基于模型的聚类算法

2.4.5 基于划分的聚类算法

2.5 HADOOP系统架构

2.5.1 HDFS

2.5.2 MapReduce分布式计算

2.5.3 HBase数据库

2.6 本章小结

3微博文本采集及预处理

3.1 微博热点主题发现

3.2 微博数据采集

3.3 文本预处理

3.3.1 中文分词

3.3.2 去停用词

3.4 文本向量化

3.5 本章小结

4微博热点主题发现的算法设计

4.1 聚类算法的提出

4.1.1 聚类算法的选择

4.1.2 本文算法的提出

4.2 混合的聚类算法

4.2.1 Canopy算法的基本思想

4.2.2 K-means算法的基本思想

4.2.3 改进的K-means算法

4.3 算法复杂度

4.4 话题热度计算

4.5 本章小结

5实验及结果分析

5.1 系统部署

5.1.1 硬件配置

5.1.2 软件配置

5.1.3 环境配置

5.2 实验结果分析

5.2.1 微博数据获取

5.2.2 微博数据预处理

5.2.3 微博热点主题发现及趋势分析

5.3 评价指标

5.4 本章小结

6 总结与展望

6.1 论文工作总结

6.2 研究展望

致谢

参考文献

攻读硕士学位期间主要研究成果

展开▼

著录项

  • 作者

    许郡蒙;

  • 作者单位

    西安理工大学;

  • 授予单位 西安理工大学;
  • 学科 电子与通信工程
  • 授予学位 硕士
  • 导师姓名 王林,马藏珍;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号