基于word2vec的大中华区词对齐库的构建

王明文; 徐雄飞; 徐凡; 李茂西

首页> 中文期刊>中文信息学报 >基于word2vec的大中华区词对齐库的构建

基于word2vec的大中华区词对齐库的构建

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析.首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95％以上的10 000组大中华区平行词对齐语料库.同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术.实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型.此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66％的大中华区词语三元组.

著录项

来源
《中文信息学报》|2015年第5期|76-83|共8页
作者
王明文; 徐雄飞; 徐凡; 李茂西;
展开▼
作者单位

江西师范大学计算机信息工程学院,江西南昌330022;

江西师范大学计算机信息工程学院,江西南昌330022;

江西师范大学计算机信息工程学院,江西南昌330022;

江西师范大学计算机信息工程学院,江西南昌330022;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
大中华区; 词对齐; 最长公共子序列; word2vec;

相似文献

中文文献
外文文献
专利

1. 基于语料库的最小求交词对齐 [J] . 吴宏林 ,吕学强 ,任飞亮 . 小型微型计算机系统 . 2004,第007期
2. 颜色词隐喻的流失与补救——基于开发区网站汉英平行语料库的研究 [J] . 赵颖 ,赵冉 . 宜宾学院学报 . 2012,第007期
3. 基于词向量的藏文语义相似词知识库构建 [J] . 龙从军 ,周毛克 ,刘汇丹 . 中文信息学报 . 2020,第010期
4. 基于语料库的英语空间词原型范畴构建与扩展——以Up和Down为例 [J] . 蒋丽平 . 广西民族师范学院学报 . 2018,第001期
5. 基于"词—词性"匹配模式获取的古汉语树库快速构建方法 [J] . 何静 ,宋天宝 ,彭炜明 . 中文信息学报 . 2017,第004期
6. 基于word2vec的大中华区词对齐库的构建 [C] . Wang Mingwen ,王明文 ,Xu Xiongfei . 中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） . 2015
7. 大中华区词对齐自动抽取研究 [A] . 徐雄飞 . 2016

基于word2vec的大中华区词对齐库的构建

摘要

著录项

相似文献

相关主题

期刊订阅