首页> 中文学位 >基于2度频繁词序列的文本聚类算法研究
【6h】

基于2度频繁词序列的文本聚类算法研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1研究背景

1.2国内外研究现状

1.3本文研究内容

1.4研究意义

1.5本文的章节安排

第2章文本聚类相关理论

2.1文本聚类的定义

2.2文本聚类的过程

2.3文本预处理

2.4文本相似度的计算

2.5文本的表示模型

2.5.1向量空间模型

2.5.2布尔逻辑模型

2.5.3基于2度频繁词序列的模型

本章小结

第3章几种常用聚类算法的允析与比较

3.1聚类算法的分类

3.2基于频繁词的文本聚类算法

3.3基于频繁词集合的层次文本聚类算法FIHC

3.4基于频繁词序列的文本聚类算法

第4章基于2度频繁词序列的文本聚类算法

4.1文本聚类的要求

4.2基于频繁词的序列文本聚类算法存在的问题

4.3算法的相关定义

4.4本文核心算法

4.4.1频繁词序列挖掘

4.4.2初始聚类的构建

4.4.3关于2度频繁词序列的验证

4.4.4算法的流程图

4.4.5算法的过程描述

本章小结

第5章算法的实验评估

5.1实验数据集

5.2实验的评估标准

5.2.1传统文本聚类算法的评估标准

5.2.2聚类算法性能评估

5.3挖掘频繁词序列的实验评估

5.4 F-测度与纯度的分析

本章小结

总结与展望

参考文献

致谢

攻读硕士学位期间完成的论文及参加的科研项目

展开▼

摘要

随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。文本挖掘成为人们发现资源和知识的重要工具,不需要预先定义类别信息的文本聚类成为文本挖掘一个新的研究热点。 传统的聚类算法没有解决文本数据的高维度,聚类准确度低,没有为聚类结果提供一个合理的类描述等问题。基于频繁词集合的文本聚类算法采用频繁词进行聚类,解决了这些问题。基于频繁词集合的层次文本聚类算法提出了以簇为中心的思想,提供了一个便于浏览的主题层次结构,但是作为簇标签的频繁词集合有时不能很好的表示文本的语义信息。基于频繁词序列的文本聚类算法利用能够更好地反映文档的主题的频繁词序列进行聚类,提高了聚类的精确度,但是簇之间存在大量重叠。 本文的主要工作如下: 1.针对基于频繁词序列的文本聚类算法利用频繁词序列构建初始聚类后没有设法将文本指派到合适的簇中,造成了大量的簇间重叠。本文通过在文本中对簇标签进行2度频繁词序列的验证将文本指定到合适的簇,弥补了基于频繁词序列文本聚类算法的不足,提高了聚类的精确度。 2.向量空间模型进行文本表示时忽略了特征词之间次序的语义信息。本文提出了2度频繁词序列的概念,用2度频繁词序列构建了一种新的文本表示模型,该模型保留了文档中的频繁词序列和序列中的词语,更好的表达了文本的语义。 3.在改进算法理论的基础上,通过实验与基于频繁词序列的文本聚类算法进行比较。实验结果表明:改进的算法在一定程度上解决了基于频繁词序列的文本聚类算法初始聚类簇间重叠过大的问题,算法无论在传统聚类的评估标准上,还是在聚类的精确度方面都有了一定程度的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号