基于组合策略的中文词语相似度计算研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对当前词语相似度计算方法存在的局限性：基于语义词典的词语相似度计算方法依赖字典进行相似度计算，因此无法对字典未登录词语进行计算；基于语料库的词语相似度计算方法在计算低频词语的相似度时，由于低频词语上下文信息量太少，使得词向量不能较好地表示词语语义，导致其相似度计算无效。本文进行了如下的研究：
　　首先，本文利用大规模的真实语料对中文词语的分布规律进行了研究，掌握了中文词语的分布规律，并且建立了一个基于真实语料的实验数据集。该部分工作为后文有针对性地设计相似度算法和客观地评估相似度计算性能做好了充分而必要的准备。
　　其次，本文提出一种利用背景语料和词典的未登录词语相似度计算方法，该方法利用未登录词语的背景语料确定未登录词语在语料库中的最佳概念表达，然后为其最佳概念表达构造语境，通过比较未登录词语的最佳概念表达的语境和其本身的语境之间的差异来判断该最佳概念表达能否表达未登录词语的涵义，最后利用字典进行相似度计算。该方法有效地解决了传统的采用切分方法的未登录词语相似度计算方法中存在的错误切分和滥切分的问题。实验证明该方法是有效的。
　　最后，在上文研究的基础上，本文提出了一种中文词语的相似度计算的框架。该框架采用组合策略，利用背景语料、语义词典和基于Internet的构造语料进行词语相似度计算，它包括四个步骤：(1)若待处理词语a、b均为语义字典的登录词语，则直接利用语义字典进行相似度计算；(2)若a、b中存在为语义字典的未登录词语，但未登录词语均可切分为语义字典的登录词语的组合，且其概念可由其登录词语的概念组合来表示，则将词语a、b的相似度转化为其概念组合的相似度来进行计算；(3)否则，分别以词语a，词语b，词语a和b作为查询，利用它们在Internet中的搜索结果为词语a和b构造一个上下文语料，然后采用基于词语上下文的方法进行相似度计算。为保证三种异源相似度计算结果具有可比性，文中提出了一种利用同义词阈值对异源相似度计算结果进行整合的方法。实验结果表明该方法能较好的解决中文词语的相似度计算问题。

著录项

作者
陈现麟;
展开▼
作者单位

重庆邮电大学;

展开▼
授予单位重庆邮电大学;
学科计算机应用技术
授予学位硕士
导师姓名樊兴华;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类形式语言理论;
关键词
中文词语; 词语相似度; 构造语料; 组合策略;

相似文献

中文文献
外文文献
专利

1. 基于Word2Vec的WordNet词语相似度计算研究 [J] . 陈丹华 ,王艳娜 ,周子力 . 计算机工程与应用 . 2022,第3期
2. 基于概念基元的词语相似度计算研究 [J] . 池哲洁 ,张全 . 电子与信息学报 . 2017,第001期
3. 基于《知网》的词语相似度计算研究 [J] . 袁晓峰 . 成都大学学报（自然科学版） . 2011,第004期
4. 基于知网的中文词语相似度计算 [J] . 李国佳 . 智能计算机与应用 . 2015,第003期
5. 基于知网的中文词语相似度计算 [J] . 李国佳 . 智能计算机与应用 . 2015,第003期
6. 一种基于语境的词语相似度计算方法 [C] . 白宇 ,于水 ,叶娜 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 基于Web文本的词语相似度计算研究及交通术语自动生成 [A] . 王子凡 . 2017

基于组合策略的中文词语相似度计算研究

摘要

著录项

相似文献

相关主题

期刊订阅