首页> 中文学位 >中文短语相似度计算方法研究及应用
【6h】

中文短语相似度计算方法研究及应用

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景及意义

1.2中文文本相似度计算的现状

1.3存在的问题及解决方法

1.4本文组织结构

第二章中文文本相似度计算问题分析

2.1几种中文文本相似度计算方法

2.1.1基于向量空间模型的TF-IDF方法

2.1.2隐性语义索引法

2.1.3基于属性论的文本相似度计算方法

2.1.4基于汉明距离的文本相似度计算方法

2.1.5基于压缩稀疏矩阵矢量相乘的文本相似度计算方法

2.1.6基于语义理解的文本相似度计算方法

2.2中文文本相似度计算在文本聚类中的应用

2.2.1文本聚类中的相似性度量

2.2.2文本聚类相关算法

2.3本章小结

第三章一种新的中文短语相似度计算方法

3.1中文短语相似度满足的要求

3.2相关定义

3.3代码描述

3.4算法的合理性检验

3.5相似度计算方法在文本聚类中的效果比较

3.5.1实验数据及相关算法

3.5.2聚类评估指标

3.5.3结果及分析

3.6本章小结

第四章高校培养计划管理系统中中文短语相似度计算方法的应用

4.1高校培养计划管理系统介绍

4.2系统主要功能

4.3系统主要数据表及关系

4.4相似课程排查功能的实现

4.5中文短语相似度计算方法应用效果

4.6本章小结

总结

参考文献

致谢

附录(攻读硕士学位期间发表录用论文情况)

展开▼

摘要

文本相似度计算作为中文信息处理中的一项基础性技术,被广泛应用到文本分类、文本聚类、信息检索等多个领域,长期以来受到了众多学者的关注和研究。在信息大爆炸所带来的大量文本信息的数据堆积中,很大一部分是短文本数据或短语数据,因此,在短文本数据信息的处理问题上,短语的相似度计算变得越来越重要。本文就是针对中文短语信息的处理问题,提出了一种新的中文短语相似度计算方法。在算法的设计过程中,本文分析了短语间相匹配文字的位置、匹配位置的偏移值、匹配文字长度等多种因素,提出了中文短语间相似度的计算公式,并给出了该算法的实现代码。 围绕中文短语相似度计算问题,本文主要做了以下几方面工作: 首先,研究了多种文本相似度计算方法,并分析了文本相似度计算的现状和几种经典的文本相似度算法,对其适用领域和优缺点进行了剖析;分析了文本相似度计算在文本聚类中的应用和几种文本聚类方法。。 其次,在对现有文本相似度计算方法分析研究的基础上,针对短语级别文本的信息处理问题,提出了一种新的中文短语相似度计算方法,然后对该方法的合理性进行了检验,并通过将不同的文本相似度算法用于同一种聚类算法,对本文提出的方法的有效性进行了检验。 最后,将中文短语相似度计算方法用于高校培养计划管理系统中的相似课程排查模块,实现了相似课程的聚类,并对整个系统进行设计实现。 本课题的研究及其成果对于中文信息处理中的多个领域尤其是中文短语的处理问题,都有一定的参考价值和良好的应用前景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号