首页> 中文学位 >基于语义距离的文本聚类算法研究
【6h】

基于语义距离的文本聚类算法研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景

1.2文本聚类算法综述

1.3本文主要工作

第二章文本聚类的关键技术

2.1聚类模型

2.2文档分词

2.3文档特征提取

2.4文档表示

2.5基于VSM的K-Means文本聚类方法

2.5.1基于VSM文本相似度计算方法

2.5.2 VSM+K-Means文本聚类算法

2.5.3小结

第三章基于语义距离的文本聚类算法

3.1语义距离

3.2《知网》简介

3.2.1《知网》结构

3.2.2《知网》的知识描述语言

3.3基于知网的语义距离计算

3.3.1义原间语义距离计算

3.3.2关键词语义距离计算

3.3.3文档间相似度计算

3.4基于语义距离文本聚类算法

3.4.1相关概念

3.4.2难点

3.4.3算法

3.4.4小结

第四章实验结果及评价

4.1文本预处理

4.2两种关键词相似度计算方法比较结果

4.3基于VsM的K.Means聚类算法实验结果

4.4基于语义距离的文本聚类算法实验结果

4.5性能比较

第五章结束语

参考文献

研究生期间个人成果

致谢

展开▼

摘要

网络技术迅速发展的今天,人们越来越感受到了信息的冲击,而文本是信息的重要载体,人们日常生活中所接触到的信息有80%左右以文本的形式存在。信息内容和格式的多样化、复杂化,使人们无法遍历所有感兴趣的内容,而且又不存在标准的文本分类准则,所以管理收集到的文本信息成为亟待解决的问题,对于文本聚类技术的研究更显重要。 现有的文本聚类方法大多采用基于VSM的关键词匹配来计算文本间相似度,这种方法的最大的缺点就是忽略了词之间的语义信息,忽略了各维度之间的联系,导至文本的相似度计算不够精确,所以本文从语义上具体分析文档,利用文本具体语义计算文本间的相似度,使得文本聚类结果更合理,主要工作及创新点有: 1、以《知网》作为语义的本体,利用语义距离计算文档间相似度,把文档间相似度计算具体转化为词语间语义距离、义原间语义距离。考虑到文本聚类具体应用,本文根据《知网》描述各个词的规律,改进现有词语相似度计算方法,更有利于发现词语的相关性,适应了文本聚类的要求。 2、文本聚类算法主要采用一次遍历聚类算法即最近邻聚类算法,并提出第二次聚类方法改进最近邻算法对输入次序敏感的问题。类中心方面,引入相似权重的概念,并根据权重优胜略汰候选类特征词,使得最后选择的类特征词能够代表类的主题,达到文本聚类的目的. 论文最后实验语料来源于中科院的中文自然语言处理开放平台(CNLP)网站,下载了100篇文档对所提出的算法进行了实验,并利用聚类精度和召回率对实验结果进行了评价,然后把评价结果与基于VSM的K-Means聚类算法进行了比较,结果证明本文所提出的基于语义距离文档聚类算法在聚类精度和召回率上都优于基于VSM的K-Means聚类算法,达到了算法改进的目的。另外基于语义距离的文档聚类结果显示它还能从语义上更加细分主题,为用户收集文本信息提供更好的导航。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号