中文短语相似度计算方法研究及应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本相似度计算作为中文信息处理中的一项基础性技术，被广泛应用到文本分类、文本聚类、信息检索等多个领域，长期以来受到了众多学者的关注和研究。在信息大爆炸所带来的大量文本信息的数据堆积中，很大一部分是短文本数据或短语数据，因此，在短文本数据信息的处理问题上，短语的相似度计算变得越来越重要。本文就是针对中文短语信息的处理问题，提出了一种新的中文短语相似度计算方法。在算法的设计过程中，本文分析了短语间相匹配文字的位置、匹配位置的偏移值、匹配文字长度等多种因素，提出了中文短语间相似度的计算公式，并给出了该算法的实现代码。围绕中文短语相似度计算问题，本文主要做了以下几方面工作：首先，研究了多种文本相似度计算方法，并分析了文本相似度计算的现状和几种经典的文本相似度算法，对其适用领域和优缺点进行了剖析；分析了文本相似度计算在文本聚类中的应用和几种文本聚类方法。。其次，在对现有文本相似度计算方法分析研究的基础上，针对短语级别文本的信息处理问题，提出了一种新的中文短语相似度计算方法，然后对该方法的合理性进行了检验，并通过将不同的文本相似度算法用于同一种聚类算法，对本文提出的方法的有效性进行了检验。最后，将中文短语相似度计算方法用于高校培养计划管理系统中的相似课程排查模块，实现了相似课程的聚类，并对整个系统进行设计实现。本课题的研究及其成果对于中文信息处理中的多个领域尤其是中文短语的处理问题，都有一定的参考价值和良好的应用前景。

著录项

作者
王莹莹;
展开▼
作者单位

长沙理工大学;

展开▼
授予单位长沙理工大学;
学科计算机软件与理论
授予学位硕士
导师姓名龙鹏飞;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息处理; 文本聚类; 中文短语相似度; 匹配偏移; 相似课程排查;

相似文献

中文文献
外文文献
专利

1. 领域文本信息抽取中的短语相似度计算方法 [J] . 沈洁 ,彭敦陆 . 软件导刊 . 2017,第004期
2. 领域文本信息抽取中的短语相似度计算方法 [J] . 沈洁 ,彭敦陆 . 软件导刊 . 2017,第004期
3. 基于树状语料库的中文短语相似度计算 [J] . 费洪晓 ,莫天池 ,林青 . 计算机应用与软件 . 2013,第008期
4. 中文短语文本相似度计算新方法 [J] . 王莹莹 ,任贤 ,龙鹏飞 . 人天科学研究 . 2011,第001期
5. 中文短语文本相似度计算新方法 [J] . 王莹莹 ,任贤 ,龙鹏飞 . 软件导刊 . 2011,第001期
6. 基于伪LCS的中文专利句子相似度计算方法 [C] . 卢延科 ,尹宝生 ,张桂平 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 基于字形和字义的中文短文本语义相似度计算方法的研究 [A] . 张镤月 . 2020

中文短语相似度计算方法研究及应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅