基于2度频繁词序列的文本聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着信息技术的发展，以电子形式存在的文本信息已经成为人们主要的信息来源。文本挖掘成为人们发现资源和知识的重要工具，不需要预先定义类别信息的文本聚类成为文本挖掘一个新的研究热点。传统的聚类算法没有解决文本数据的高维度，聚类准确度低，没有为聚类结果提供一个合理的类描述等问题。基于频繁词集合的文本聚类算法采用频繁词进行聚类，解决了这些问题。基于频繁词集合的层次文本聚类算法提出了以簇为中心的思想，提供了一个便于浏览的主题层次结构，但是作为簇标签的频繁词集合有时不能很好的表示文本的语义信息。基于频繁词序列的文本聚类算法利用能够更好地反映文档的主题的频繁词序列进行聚类，提高了聚类的精确度，但是簇之间存在大量重叠。本文的主要工作如下： 1.针对基于频繁词序列的文本聚类算法利用频繁词序列构建初始聚类后没有设法将文本指派到合适的簇中，造成了大量的簇间重叠。本文通过在文本中对簇标签进行2度频繁词序列的验证将文本指定到合适的簇，弥补了基于频繁词序列文本聚类算法的不足，提高了聚类的精确度。 2.向量空间模型进行文本表示时忽略了特征词之间次序的语义信息。本文提出了2度频繁词序列的概念，用2度频繁词序列构建了一种新的文本表示模型，该模型保留了文档中的频繁词序列和序列中的词语，更好的表达了文本的语义。 3.在改进算法理论的基础上，通过实验与基于频繁词序列的文本聚类算法进行比较。实验结果表明：改进的算法在一定程度上解决了基于频繁词序列的文本聚类算法初始聚类簇间重叠过大的问题，算法无论在传统聚类的评估标准上，还是在聚类的精确度方面都有了一定程度的提高。

著录项

作者
马文超;
展开▼
作者单位

河南大学;

展开▼
授予单位河南大学;
学科应用数学
授予学位硕士
导师姓名姜保庆;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
2度频繁词序列; 文本聚类算法; 文本挖掘; 频繁词集合; 簇标签;

相似文献

中文文献
外文文献
专利

1. 基于频繁词序列的层次文本聚类算法研究 [J] . 马文超 ,张建国 ,胡冰 . 计算机时代 . 2009,第004期
2. 基于频繁序列挖掘的预取算法研究与实现 [J] . 王芳 ,王培群 ,朱春节 . 计算机研究与发展 . 2016,第002期
3. 基于频繁词义序列的检索结果聚类算法研究 [J] . 王晓博 ,李晓 ,马博 . 计算机工程与应用 . 2015,第001期
4. 基于频繁模式的长尾文本聚类算法 [J] . 宋中山 ,张广凯 ,尹帆 . 计算机系统应用 . 2019,第004期
5. 一种基于频繁词集表示的新文本聚类方法 [J] . 张雪松 ,贾彩燕 . 计算机研究与发展 . 2018,第001期
6. 挖掘频繁闭序列的并行算法研究 [C] . 李庆华 ,马传香 ,湖北大学数学与计算机科学学院 . 2005年中国模糊逻辑与计算智能联合学术会议 . 2005
7. 基于频繁词集词共现网络的短文本聚类方法 [A] . 李伟 . 2016

基于2度频繁词序列的文本聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅