基于频繁词集和复杂网络的文本聚类

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当今社会，网络社交已经变成了主流。人们通过微博热点、微信、头条新闻等各种渠道可以获取各种文本资源。当网络上的文本越来越多的时候，文本挖掘技术也逐渐被需要和重视。　　本文主要是研究文本聚类领域，传统的文本聚类方法一般都是基于向量空间模型的，而网络中的文本数量往往是数以百万，不计其数的。传统的向量空间模型会导致文本维度过高和稀疏。针对这一问题，本文通过引入数据挖掘领域的频繁词集概念来解决维度过高和文本稀疏问题，基于频繁词集的文本表示方法可以对原始的高维文本进行降维处理。经过频繁词集表示文本后，本文引入复杂网络概念，将原始文本集用文本网络的形式表达，在复杂网络中的文本不再是一对一的关系，而是多对多的关系。而现实情况下，各个文本之间也应该是存在多对多的联系的。因此，基于复杂网络模型的文本聚类比传统的文本聚类更能体现文本之间的相互联系，更加充分的体现了文本之间的相似性。对文本网络用社区发现算法进行社区划分，就可以将复杂的文本网络划分为一个个社区，而一个社区就代表着聚类过程中的一个类簇。传统的社区发现算法一般是基于图分割理论、基于模块度优化的算法模型。这些方法存在诸多的缺点，比如复杂度高，重复计算等。因此本文引入机器学习中的概率算法模型，本文提出一种基于DPCA改进的k-means算法来进行社区发现。结合DPCA算法思想来确定k-means算法中初始中心节点以及k值的选取。并且巧妙的将节点的度数来代替DPCA算法中数据点的密度。　　最后，通过实验对比，本文所应用的算法对文本聚类的效果比传统的文本聚类方法更好。

著录项

作者
陈梦;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科工程(计算机技术)
授予学位硕士
导师姓名张玉芳;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
频繁词集,降维处理,文本网络,社区发现,文本聚类;

相似文献

中文文献
外文文献
专利

1. 一种基于频繁词集表示的新文本聚类方法 [J] . 张雪松 ,贾彩燕 . 计算机研究与发展 . 2018,第001期
2. 基于频繁词集和k-Means的Web文本聚类混合算法 [J] . 王乐 ,田李 ,贾焰 . 计算机工程与科学 . 2008,第008期
3. 一种基于频繁词集的短文本特征扩展方法 [J] . 袁满 ,欧阳元新 ,熊璋 . 东南大学学报（自然科学版） . 2014,第002期
4. 基于频繁词集聚类的海量短文分类方法 [J] . 王永恒 ,贾焰 ,杨树强 . 计算机工程与设计 . 2007,第008期
5. 基于句子级最大频繁单词集的Web文档聚类研究 [J] . 路松峰 ,陈云开 ,袁莉 . 计算机科学 . 2007,第007期
6. 一种基于频繁词集的文本分类算法 [C] . Yuan Man ,袁满 ,Ouyang Yuanxin . 2012年第三届中国计算机学会服务计算学术会议 . 2012
7. 基于频繁词集词共现网络的短文本聚类方法 [A] . 李伟 . 2016

基于频繁词集和复杂网络的文本聚类

目录

摘要

著录项

相似文献

相关主题

期刊订阅