基于切词和语义的中文相似度研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在自然语言处理中，相似度的问题是一个被广泛研究和讨论的具有重要价值的研究内容。中文相似度的研究是通过将语言学、统计学、社会学和计算机科学相结合，来达到计算各种结构类型的中文文本相似度。由于在中文没有自然的分割符，所以中文相似度研究的前提是中文自动切词。经过多年的研究探索，已有效果很好的中文切词系统，如本文使用的ICTCLAS系统。目前的各类相似度研究方法大致上有：基于统计模型的算法、基于规则的算法和基于知识网络系统的算法这三类。各类算法优缺点不一，然而由于前两类没有直接的考虑相似度中关键的语义相似这一因素而不如后一类效果良好，因此本文也采用基于知识网络系统的相似度算法来对词语和语句的相似度进行研究。
　　本文在研究总结前人的工作基础上，作了如下工作内容：
　　1、本文首先在对语义网络《知网》及义原相似度研究的基础上，针对目前基于《知网》的语义相似度算法的问题以及重新考虑了义原的属性后，提出了新的义原相似度的计算方法。在《知网》以及对目前的词语相似度算法的研究基础上提出了新的词语相似度算法。通过对词语的共现性的研究，认为词语间的共现性也是对词语相似度的一种反映，因此将词语的共现性引入词语相似度的计算中，对本文提出的词语相似度的计算公式做了修正。
　　2、针对《知网》无法解决的未登录词相似度计算问题，本文通过切词系统及最大匹配算法将其转化为《知网》中的登录词，进而提出了基于《知网》的未登录词相似度算法。
　　3、在词语相似度的研究基础上以及中文切词系统下，针对目前已有的语句相似度算法，提出了连续多个具有高相似度值的词语词序列对语句的相似度贡献大于其他词语的贡献，且这种连续性在语义上具有承接的作用这一观点，给出了语义串的概念以及其定义。在语义串概念的基础上，通过衡量语义串在语句相似度中的权值，给出了语句相似度计算公式。
　　4、在词语和语句相似度的基础上，本文使用基于空间向量模型的篇章相似度计算算法设计并实现了全文检索系统。

著录项

作者
裴运亮;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名顾小丰;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自然语言处理; 中文文本; 相似度; 计算方法;

相似文献

中文文献
外文文献
专利

1. 基于动态语义编码双向LSTM的中文语义相似度计算 [J] . 初雅莉 ,郑虹 ,侯秀萍 . 计算机应用与软件 . 2020,第006期
2. 基于《现代汉语词典》语义空间的中文文本语义相似度研究 [J] . 高俊芳 ,夏劲伟 . 情报探索 . 2018,第011期
3. 基于Logistic函数的《同义词词林》语义相似度计算 [J] . 杨泉 . 计算机与现代化 . 2021,第001期
4. 基于同义词词林的句子语义相似度方法及其在问答系统中的应用 [J] . 周艳平 ,李金鹏 ,蔡素 . 计算机应用与软件 . 2019,第008期
5. 基于EDA的中文语义相似度数据集增强方法 [J] . 张豪 ,张华熊 . 软件 . 2021,第005期
6. 基于词的话题分布相似度的无监督日文旅游意见词翻译 [C] . 郭瑛媚 ,史晓东 ,陈毅东 . 第七届全国机器翻译研讨会 . 2011
7. 基于语义相似度的中文文本相似度算法研究 [A] . 金希茜 . 2009

基于切词和语义的中文相似度研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅