首页> 中文学位 >基于语义相似度的群智能文本聚类方法研究
【6h】

基于语义相似度的群智能文本聚类方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

CONTENTS

第1章 绪论

1.1 论文研究的背景和意义

1.2 文本聚类

1.3 群智能算法

1.4 本文的主要工作

1.5 本文的组织结构

第2章 文本聚类的关键技术和聚类算法

2.1 基本概念

2.2 文本预处理

2.3 聚类算法

2.4 本章小结

第3章 改进的文本语义相似度计算方法

3.1《知网》简介

3.2语义相似度计算方法

3.3 本文的语义相似度计算

3.4 基于语义相似度的K-均值算法

3.5 本章小结

第4章 群智能算法在文本聚类问题中的应用

4.1 蚁群算法

4.2 蚁群算法在聚类问题中的应用

4.3 模拟退火算法

4.4群智能文本聚类算法

4.5 本章小结

第5章 系统实现及实验结果分析

5.1 软硬件环境

5.2 功能模块设计

5.3 语料库

5.4 实验结果分析

5.5 本章小结

结论

参考文献

攻读学位期间发表的论文

致谢

展开▼

摘要

当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提供准确有用的信息,是一个需要迫切解决的问题。在这样的背景下,文本挖掘技术正受到越来越多的关注。文本聚类是文本挖掘的一个重要组成部分,它是聚类方法在文本处理领域的重要应用。
  文本聚类由于不需要类别的信息,能自动完成文本分组,已经得到广泛应用,如多文档自动文摘系统、搜索引擎、数字图书馆等。目前大部分聚类算法是基于向量空间模型的,这使得文本聚类面临高维性、高稀疏性和忽略语义信息的问题,影响了算法的性能和准确性。
  本文首先介绍了文本聚类中一些概念和方法,包括文本间距离计算、文本表示模型、文本预处理过程、聚类效果评价和常用的聚类算法等;接着介绍了《知网》的组织结构、相关概念和语义相似度的计算方法,同时也提出了一种改进的文本间相似度计算方法,将其和K-均值算法结合,通过实验数据,证明了该方法的正确性;最后介绍了本文的两种群智能算法,并提出了本文的基于语义相似度的群智能文本聚类算法。
  在文本预处理的特征提取阶段计算权重时,既考虑了词频和文档频率,也结合了词的词性和词在文本中的位置这两个因素;针对向量空间模型忽略了词的语义信息的问题,本文利用《知网》,通过词的语义信息,来计算文本相似度;针对前人研究的成果,提出了本文的算法,它是在文本相似度的基础上,融合了K-均值算法、蚁群算法和模拟退火算法,利用了它们各自的优点,避免了各自的缺点,通过实验数据,可以看出该算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号