一种基于搭配的中文词汇语义相似度计算方法

王石; 曹存根; 裴亚军; 夏飞

首页> 中文期刊>中文信息学报 >一种基于搭配的中文词汇语义相似度计算方法

一种基于搭配的中文词汇语义相似度计算方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

The word similarity measure plays a basic role in many NLP related applications. In this paper, we propose a novel and practical method for this purpose with acceptable precision. Guided by the classic distribution hypothesis that "similar words occur in similar contexts", we suggest the collocations in two-word noun phrases can serve as better contexts than the adjacent words because the former are more semantic related. By using automatic built large-scale noun phrases, we firstly construct tf-idf weighted words vectors containing direct and indirect collocations, and then take their cosine distances as desired semantic similarities. In order to compare with related approaches, we manually design a benchmark test set. On the benchmark test set, the proposed method achieves the correlation coefficients of 0. 703, 0. 509, and 0. 700 on nouns, verbs, and adjectives, respectively, at a coverage 100%.%词汇间的语义相似度计算在自然语言处理相关的许多应用中有基础作用.该文提出了一种新的计算方法,具有高效实用、准确率较高的特点.该方法从传统的分布相似度假设“相似的词汇出现在相似的上下文中”出发,提出不再采用词汇在句子中的邻接词,而是采用词汇在二词名词短语中的搭配词作为其上下文,将更能体现词汇的语义特征,可取得更好的计算结果.在自动构建大规模二词名词短语的基础上,首先基于tf-idf构造直接和间接搭配词向量,然后通过计算搭配词向量间的余弦距离得到词汇间的语义相似度.为了便于与相关方法比较,构建了基于人工评分的中文词汇语义相似度基准测试集,在该测试集中的名、动、形容词中,方法分别得到了0.703、0.509、0.700的相关系数,及100％的覆盖率.

著录项

来源
《中文信息学报》|2013年第1期|7-14|共8页
作者
王石; 曹存根; 裴亚军; 夏飞;
展开▼
作者单位

中国科学院计算技术研究所智能信息处理重点实验室,北京100190;

中国科学院计算技术研究所智能信息处理重点实验室,北京100190;

全国科学技术名词审定委员会,北京100717;

中国科学院计算技术研究所智能信息处理重点实验室,北京100190;

中国科学院大学,北京100049;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
语义相似度; 词汇搭配; 相似度基准测试集;
入库时间 2023-07-25 19:42:55

相似文献

中文文献
外文文献
专利

1. 一种基于知网的词汇语义相似度改进计算方法 [J] . 蒋溢 ,丁优 ,熊安萍 . 重庆邮电大学学报（自然科学版） . 2009,第004期
2. 基于WV-CNN的中文文本语义相似度计算方法 [J] . 张春英1 ,李春虎1 ,付其峰2 . 华北理工大学学报：自然科学版 . 2019,第001期
3. 基于WV-CNN的中文文本语义相似度计算方法 [J] . . 河北联合大学学报（自然科学版） . 2019,第001期
4. 基于问题语义表征的中文问答系统相似度计算方法1） [J] . 魏楚元 ,湛强 ,张大奎 . 情报学报 . 2014,第010期
5. 基于问句语义表征的中文问句相似度计算方法 [J] . 陈康 ,樊孝忠 ,刘杰 . 北京理工大学学报 . 2007,第12期
6. 基于伪LCS的中文专利句子相似度计算方法 [C] . 卢延科 ,尹宝生 ,张桂平 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 一种基于语义网络的中文文本相似度计算方法 [A] . 邹能清 . 2015

一种基于搭配的中文词汇语义相似度计算方法

摘要

著录项

相似文献

相关主题

期刊订阅