汉语词语及句子相似度算法研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

词语和句子的相似度计算在信息检索、文本分类、问答系统以及基于实例的机器翻译等各领域中都有着广泛的应用。作为目前讨论的重点，本文主要从语义的角度出发对基于“知网”的词语及句子相似度计算方法进行了深入的研究。
　　基于“知网”的词语（句子）相似度计算通常是把义原（词语）之间的最优匹配对作为运算的基本单位，最终的整体相似度可由每一部分的相似度值通过适当的加权计算合成而来，这样的做法往往会造成一些匹配对内部信息的重复和结构的不合理。本论文正是针对该问题，在深入分析“知网”体系结构的基础上，对词语和句子的相似度计算以及词义消歧做了创新性和探索性的研究。主要内容为：
　　1．详细研究了当前基于“知网”的义原相似度计算方法。这类义原相似度计算机制往往是通过计算两个义原在上下位层次关系树中的路径距离来得到义原之间的相似度，没有或者很少考虑义原在层次树中的深度，本文综合考虑了义原间的路径距离以及义原层次树的深度，从义原所包含的信息结点数量出发，得到了一种新的义原相似度计算方法。
　　2．详细研究了目前常用的词语及句子相似度计算方法，并把讨论的重点放在了基于“知网”的词语及句子相似度计算上面。文章从信息论的角度出发，在上文所提出的义原相似度算法基础上，分别对两个义原集合之间的共有信息和差异信息进行统计，并据此得出两个义原集合之间的相似度，最终的词语（句子）相似度计算是以义原集合为计算单位的。
　　3．研究了目前常用的词义消歧算法的基本原理和具体方法。在“知网”提供的搭配实例以及上文中提出的句子相似度算法基础上，得到了一种简便快捷的词义消歧方法。
　　4．具体分析了自动问答系统构建的技术方法和模块架构，以基于常问问题集的问答系统模型为实例，体现了词语及句子相似度在具体应用领域中的重要性。

著录项

作者
刘青磊;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名顾小丰;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息检索; 汉语词语; 汉语句子; 相似度算法;

相似文献

中文文献
外文文献
专利

1. 基于语义角色标注的汉语句子相似度算法 [J] . 田堃 ,柯永红 ,穗志方 . 中文信息学报 . 2016,第006期
2. 基于动态规划的汉语句子相似度算法 [J] . 冯凯 ,王小华 ,谌志群 . 计算机工程 . 2013,第002期
3. 基于知网和知识图的汉语词语语义相似度算法 [J] . 张晓孪 ,王西锋 . 计算机与数字工程 . 2011,第010期
4. 应用与前瞻:《现代汉语新词语计量研究与应用》——新词语多维度研究的力作 [J] . 孙道功 . 辞书研究 . 2010,第002期
5. 高考汉语中"找出句子中不能删去的词语"一类题型的辅导方法 [J] . 崔莉利 . 新疆教育学院学报 . 2009,第003期
6. 基于语义角色标注的汉语句子相似度算法 [C] . Kun Tian ,田堃 ,Yonghong Ke . 第十五届全国计算语言学学术会议（CCL2016）暨第四届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD-2016） . -1
7. 基于HNC的汉语句子相似度算法的研究 [A] . 史燕 . 2009

汉语词语及句子相似度算法研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅