首页> 中文学位 >基于知网语义相似度的中文文本聚类方法研究
【6h】

基于知网语义相似度的中文文本聚类方法研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景与意义

1.2文本聚类的发展和研究现状

1.3论文的主要研究内容

1.4论文结构和安排

第二章中文文本聚类的关键技术

2.1文本聚类

2.1.1文本聚类的形式化描述

2.1.2文本聚类过程

2.1.3文本聚类的应用领域

2.2中文文本聚类的关键技术

2.2.1文本自动分词技术

2.2.2特征选取

2.2.3文本表示

2.2.4文本间的距离和相似度度量

2.2.5聚类算法

2.3语义词典—知网

2.3.1知网基本概念

2.3.2基于知网的词语相似度计算

2.4小结

第三章基于知网语义相似度的文本聚类模型构建

3.1基于词性的文本预处理

3.2构建基于语义特征的文本表示模型

3.2.1文本特征提取

3.2.2建立文本表示模型

3.3文本相似度度量

3.3.1文本与文本之间的相似度度量

3.3.2簇特征提取

3.3.3文本与文本簇之间的相似度度量

3.4基于知网语义相似度的文本聚类算法设计

第四章实验及结果分析

4.1特征降维实验

4.2文本相似度计算实验

4.3文本聚类实验

4.4聚类效果比较

第五章总结和展望

5.1总结

5.2展望

致谢

参考文献

作者在攻读硕士期间的科研成果

展开▼

摘要

当前人们正处于一个“信息爆炸”的时代。在线信息日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等等,很大一部分信息属于非结构化或半结构化的。面对网上海量的半结构化或非结构的文本信息,如何快速高效的进行分类组织管理,为用户准确提供有用信息,是所有信息工作者和研究人员迫切希望解决的问题。如何在没有分类指导的情况下对自由文档进行分类并标识,为越来越多的研究人员所关注。
   本文在对中文文本聚类现状研究的基础上,对中文文本聚类的关键技术进行了归纳性总结,其中包括文本自动分词、特征选取、特征重构、文本表示、文本间的相似性度量及聚类算法。分析了几种用于文本聚类的特征选取方法及其对聚类性能的影响;介绍了几种中文文本表示模型及聚类方法并指出其不足,重点分析了聚类中最常用的算法,以及各种算法对聚类结果的影响。
   针对中文文本处理面临的模型表示及语义关联的难题,本文着重从语义上分析文本。首先采用了词性过滤进行文本预处理的方法,删减了大部分无用的或对分类贡献不大的特征,其次通过特征语义聚类使得文本特征集更能体现文本的语义内涵,再根据词语频率TF(term frequency)和词语倒排文档频率IDF(inversedocument frequency)选择文档的特征集,使得特征集更具有分类功能,经过以上三层处理之后,得到本文中高效低维的特征集,加快了聚类的速度并提高了聚类精度。建立了一种基于语义特征并体现特征分类强度的文本表示模型,将文档表示为一组特征词集合,利用特征词间的语义相似度计算文本间的相似度。这样真正从语义上具体分析文本之间的相似度,使结果更接近人的主观衡量,且能够将文本间的相似度量化,更利于计算机识别处理。基于这种文本表示模型,构建了基于知网语义相似度的聚类模型。最后用程序实现了该聚类算法,通过实验分析证明了本文提出的聚类方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号