首页> 中文学位 >基于同义词词林和知网的词语相似度优化算法
【6h】

基于同义词词林和知网的词语相似度优化算法

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究意义和研究背景

1.2 国内外研究现状

1.3 本文的研究内容

1.4 论文的组织结构

第二章 词语相似度研究方法综述

2.1 词语相似度的含义

2.2 词语相似度的度量

2.3 基于大型语料库的词语相似度算法

2.4 基于语义资源的词语相似度算法

2.5 基于混合技术的词语相似度算法

2.6 语义资源

2.6.1 WordNet

2.6.2 同义词词林

2.6.3 知网

2.6.4 维基百科

2.7 本章小结

第三章 基于同义词词林和知网的相似度经典算法与改进算法

3.1 基于同义词词林的词语相似度算法介绍

3.1.1 同义词林的结构分析

3.1.2 基于同义词词林的算法思想

3.1.3 基于同义词词林词语相似度的相关算法

3.2 基于知网的词语相似度算法介绍

3.2.1 知网的结构分析

3.2.2 知网的知识描述语言

3.2.3 算法流程

3.2.4 词语相似度的算法

3.2.5 义原相似度的算法

3.2.6 概念相似度的算法

3.2.7 集合的相似度计算

3.3 基于同义词词林和知网的混合技术的改进算法

3.3.1 词林和知网的综合加权算法

3.3.2 词林的信息量应用在知网上的算法

3.3.3 基于词林的义原相似度算法

3.3.4 基于词林和知网的词语相似度传递性算法

3.4 本章小结

第四章 实验及分析

4.1 实验环境

4.2 经典算法与改进算法实验分析

4.3 本章小结

第五章 总结与展望

5.1 全文总结

5.2 展望未来

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

词语是自然语言处理的最小单位,词语相似度研究在自然语言处理的各个领域占有非常重要的地位,同时作为人工智能领域中一项重要应用,并被广泛应用于信息检索、词义消歧、机器翻译、语音自动摘要、分类和聚类等方面。特别是在云时代的来临,大数据越来越受人们关注,人们逐渐习惯于利用计算机进行数字化处理数据,因此词语相似度研究前景越来越广阔。
  本文主要分析基于语义资源的词语相似度算法,就现有的语义资源中,只有同义词词林和知网比较规范,内容完备,结构合理,更容易用于科学研究。同义词词林是一种具有编码的层次结构树可以通过语义距离,信息量,或者利用层次深度,区域密度来计算两个词语的相似度。知网主要使用概念与义原的结构进行词语相似度计算,通过化整为零的方式,将概念分解为多个义原来进行计算。通过对经典算法具体分析,发现其中存在一定局限性,本文作者针对四个问题分别提出优化算法:第一,提出词林和知网的综合加权算法(CWA)解决在这两个语义资源中词语相似度算法太过于依赖专家权威,过于主观性的问题;第二,提出词林的信息量应用在知网上的算法(AIA)解决知网中的相同的义原结构的词语,相似度区分偏差的问题;第三,提出基于词林的义原相似度算法(CS)解决具有不同第一基本义原的词语在知网上的相似度区分不够准确的问题;第四,提出词林和知网的词语相似度传递性算法(TA)解决不在同一棵编码树上的词语在词林中没有进行区分相似度的问题。
  通过分析具体实验数据:CWA算法可以有效稳定词语相似度,可以在一定程度修复主观性问题;AIA算法可以将明显不具有相同词语相似度的同义原结构的词语分辨出来;CS算法可以有效区分一个词语对于多个不具有相同第一基本义原的词语的相似度;TA算法对不在同一棵编码书上的词语相似度给出了准确相似度,有效地做出了区分。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号