基于同义词词林和知网的词语相似度优化算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

词语是自然语言处理的最小单位，词语相似度研究在自然语言处理的各个领域占有非常重要的地位，同时作为人工智能领域中一项重要应用，并被广泛应用于信息检索、词义消歧、机器翻译、语音自动摘要、分类和聚类等方面。特别是在云时代的来临，大数据越来越受人们关注，人们逐渐习惯于利用计算机进行数字化处理数据，因此词语相似度研究前景越来越广阔。
　　本文主要分析基于语义资源的词语相似度算法，就现有的语义资源中，只有同义词词林和知网比较规范，内容完备，结构合理，更容易用于科学研究。同义词词林是一种具有编码的层次结构树可以通过语义距离，信息量，或者利用层次深度，区域密度来计算两个词语的相似度。知网主要使用概念与义原的结构进行词语相似度计算，通过化整为零的方式，将概念分解为多个义原来进行计算。通过对经典算法具体分析，发现其中存在一定局限性，本文作者针对四个问题分别提出优化算法:第一，提出词林和知网的综合加权算法(CWA)解决在这两个语义资源中词语相似度算法太过于依赖专家权威，过于主观性的问题;第二，提出词林的信息量应用在知网上的算法(AIA)解决知网中的相同的义原结构的词语，相似度区分偏差的问题;第三，提出基于词林的义原相似度算法(CS)解决具有不同第一基本义原的词语在知网上的相似度区分不够准确的问题;第四，提出词林和知网的词语相似度传递性算法(TA)解决不在同一棵编码树上的词语在词林中没有进行区分相似度的问题。
　　通过分析具体实验数据:CWA算法可以有效稳定词语相似度，可以在一定程度修复主观性问题;AIA算法可以将明显不具有相同词语相似度的同义原结构的词语分辨出来;CS算法可以有效区分一个词语对于多个不具有相同第一基本义原的词语的相似度;TA算法对不在同一棵编码书上的词语相似度给出了准确相似度，有效地做出了区分。

著录项

作者
蔡辉虎;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机科学与技术
授予学位硕士
导师姓名张东站;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
自然语言处理; 词语相似度; 语义资源;
入库时间 2022-08-17 10:23:59

相似文献

中文文献
外文文献
专利

1. 基于路径与深度的同义词词林词语相似度计算 [J] . 陈宏朝 ,李飞 ,朱新华 . 中文信息学报 . 2016,第005期
2. 基于同义词词林的词语相似度计算方法 [J] . 田久乐 ,赵蔚 . 吉林大学学报（信息科学版） . 2010,第006期
3. 基于同义词词林和《知网》的短语主题提取 [J] . 曾聪 ,张东站 . 厦门大学学报（自然科学版） . 2015,第002期
4. 基于知网和同义词词林的词汇语义倾向计算 [J] . 黄硕 ,周延泉 . 软件 . 2013,第002期
5. 知网与同义词词林的信息融合研究 [J] . 梅立军 ,周强 ,臧路 . 中文信息学报 . 2005,第001期
6. 基于同义词词林的词汇褒贬计算 [C] . 路斌 ,万小军 ,杨建武 . 第七届中文信息处理国际会议 . 2007
7. 基于同义词词林和《知网》的短语主题抽取与语义分类 [A] . 曾聪 . 2015

基于同义词词林和知网的词语相似度优化算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅