首页> 中文学位 >基于频繁词集和复杂网络的文本聚类
【6h】

基于频繁词集和复杂网络的文本聚类

代理获取

目录

1 绪论

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文的组织结构

1.5 本章小结

2 相关技术介绍

2.1 文本聚类通用流程

2.2 文本预处理

2.2.1 文本分词处理

2.2.2 过滤停用词

2.3 文本特征词提取

2.3.1 基于TF-IDF的特征词提取

2.3.2 基于TextRank的特征词提取

2.3.3 基于卡方检验的特征词提取

2.3.4 基于信息增益的特征词提取

2.3.5 基于互信息的特征词提取

2.4 文本表示模型

2.4.1 基于向量空间模型的文本表示

2.4.2 基于主题模型的文本表示

2.4.3 基于词嵌入与深度学习模型的文本表示

2.5 文本相似度计算方法

2.5.1 余弦相似度

2.5.2 欧氏距离

2.5.3 Jaccard距离

2.5.4 曼哈顿距离

2.6 传统的文本聚类方法

2.6.1 基于k-means的文本聚类

2.6.2 基于DBSCAN的文本聚类

2.6.3 基于LDA的文本聚类

2.7 基于频繁词集的文本聚类

2.7.1 频繁词集挖掘相关理论

2.7.2 频繁词集挖掘相关算法

2.7.3 基于频繁词集的文本聚类

2.8 传统的社区发现算法

2.8.1 GN算法

2.8.2 Newman快速算法

2.8.3 K-L(Kernighan-Lin)算法

2.9 聚类评价指标

2.10 本章小结

3 一种基于频繁词集和复杂网络的文本聚类算法

3.1 基于频繁词集和复杂网络的文本聚类流程

3.2 文本预处理及特征选取

① 文本分词及停用词处理

② 文本的特征词选取

3.3 基于频繁词集的文本表示模型

3.3.1 文本相似性计算

3.4 构建文本网络

3.5.1 文本网络中节点间距离的定义

3.5.2 基于k-means算法的社区发现

3.5.3 基于DPCA改进的k-means算法用于社区发现

3.6 本章小结

4 实验分析

4.1 实验数据集

4.2 聚类评价指标

4.3 实验结果与实验分析

4.4 实验中所涉及到的阈值

4.5 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

附录

A. 作者在攻读学位期间申请的专利与标准

B. 学位论文数据集

致谢

展开▼

摘要

当今社会,网络社交已经变成了主流。人们通过微博热点、微信、头条新闻等各种渠道可以获取各种文本资源。当网络上的文本越来越多的时候,文本挖掘技术也逐渐被需要和重视。  本文主要是研究文本聚类领域,传统的文本聚类方法一般都是基于向量空间模型的,而网络中的文本数量往往是数以百万,不计其数的。传统的向量空间模型会导致文本维度过高和稀疏。针对这一问题,本文通过引入数据挖掘领域的频繁词集概念来解决维度过高和文本稀疏问题,基于频繁词集的文本表示方法可以对原始的高维文本进行降维处理。经过频繁词集表示文本后,本文引入复杂网络概念,将原始文本集用文本网络的形式表达,在复杂网络中的文本不再是一对一的关系,而是多对多的关系。而现实情况下,各个文本之间也应该是存在多对多的联系的。因此,基于复杂网络模型的文本聚类比传统的文本聚类更能体现文本之间的相互联系,更加充分的体现了文本之间的相似性。对文本网络用社区发现算法进行社区划分,就可以将复杂的文本网络划分为一个个社区,而一个社区就代表着聚类过程中的一个类簇。传统的社区发现算法一般是基于图分割理论、基于模块度优化的算法模型。这些方法存在诸多的缺点,比如复杂度高,重复计算等。因此本文引入机器学习中的概率算法模型,本文提出一种基于DPCA改进的k-means算法来进行社区发现。结合DPCA算法思想来确定k-means算法中初始中心节点以及k值的选取。并且巧妙的将节点的度数来代替DPCA算法中数据点的密度。  最后,通过实验对比,本文所应用的算法对文本聚类的效果比传统的文本聚类方法更好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号