首页> 中文学位 >汉语词语及句子相似度算法研究与应用
【6h】

汉语词语及句子相似度算法研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 选题的背景及意义

1.2 国内外当前研究现状

1.3 本文的主要研究内容及组织结构

第二章 汉语词语间的相似度算法研究

2.1 中文分词及词性标注

2.2 常用的词语相似度算法分类

2.3 基于“知网”的词语相似度算法研究

2.4 实验结果及数据分析

2.5 本章小结

第三章 汉语句子间的相似度算法研究

3.1 句子相似度的概念与应用领域

3.2 常用的句子相似度算法简介

3.3 基于“知网”的句子相似度算法研究

3.4 中文词义消歧算法的研究

3.5 实验结果与数据分析

3.6 本章小结

第四章 词语及句子相似度算法在问答系统中的应用

4.1 问答系统

4.2 词语及句子相似度在问答系统中的应用

4.3 融入新方法后的系统评测

4.4 本章小结

第五章 结语及展望

致谢

参考文献

攻读硕士期间取得的研究成果

展开▼

摘要

词语和句子的相似度计算在信息检索、文本分类、问答系统以及基于实例的机器翻译等各领域中都有着广泛的应用。作为目前讨论的重点,本文主要从语义的角度出发对基于“知网”的词语及句子相似度计算方法进行了深入的研究。
  基于“知网”的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配对作为运算的基本单位,最终的整体相似度可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对内部信息的重复和结构的不合理。本论文正是针对该问题,在深入分析“知网”体系结构的基础上,对词语和句子的相似度计算以及词义消歧做了创新性和探索性的研究。主要内容为:
  1.详细研究了当前基于“知网”的义原相似度计算方法。这类义原相似度计算机制往往是通过计算两个义原在上下位层次关系树中的路径距离来得到义原之间的相似度,没有或者很少考虑义原在层次树中的深度,本文综合考虑了义原间的路径距离以及义原层次树的深度,从义原所包含的信息结点数量出发,得到了一种新的义原相似度计算方法。
  2.详细研究了目前常用的词语及句子相似度计算方法,并把讨论的重点放在了基于“知网”的词语及句子相似度计算上面。文章从信息论的角度出发,在上文所提出的义原相似度算法基础上,分别对两个义原集合之间的共有信息和差异信息进行统计,并据此得出两个义原集合之间的相似度,最终的词语(句子)相似度计算是以义原集合为计算单位的。
  3.研究了目前常用的词义消歧算法的基本原理和具体方法。在“知网”提供的搭配实例以及上文中提出的句子相似度算法基础上,得到了一种简便快捷的词义消歧方法。
  4.具体分析了自动问答系统构建的技术方法和模块架构,以基于常问问题集的问答系统模型为实例,体现了词语及句子相似度在具体应用领域中的重要性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号