基于字词对齐的中文字词向量表示方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

词语是构成文本的最小语义单元，很多自然语言处理任务都会涉及词语表示的问题。词语表示的方法最常见的是独热表示.然而此方法存在稀疏问题，且不能捕捉词语间的语义联系。以表示学习为基础的词语表示旨在用稠密的低维向量来表示词语的语义信息，其中分布式语义表示是表示学习中最常见的词语表示方法。这种方法得到的词向量在很多自然语言处理问题上取得了成功。借鉴于英文的词向量表示方法，一些学者对中文词向量的表示进行了研究。最近的一些研究表明，中文词语内部的汉字也具有丰富的语义信息，基于字词联合学习的模型在一些中文自然语言处理任务上取得了一定的成功。然而现有的处理方法均没有考虑词语内部汉字对词语语义贡献的差异性，使得学习的词向量在一些任务上的表现不尽如人意。本文基于此问题，提出了一种计算组成词语的汉字对词语的语义贡献的方法，这种方法利用了其他语言的语义信息。我们使用了这种基于相似度的方法来联合学习字词向量。并且通过实验，这种方法对汉字消歧和识别非语义可组合词也有很好的效果。
　　本文具体工作如下:
　　(1)本文根据中文的特点，提出了一种基于字词相似度的字词向量学习模型。该方法在词语训练过程中，计算了不同内部汉字对词语的语义贡献，更好地对中文的词语进行建模，使汉字对学习到的词向量起到很好的平滑效果，并且通过字的关联使词的上下文信息更加丰富。
　　(2)与传统的基于上下文聚类的汉字消歧方法不同，本文创新地融入了英文这种富信息语言的优势，提出了一种新的方法来对汉字进行消歧。这种方法利用了外部资源，使用了类似K-means的方式进行了分类。
　　(3)并非所有的词都是语义可组合的。例如命名实体，舶来词等等。本文在现有工作的基础上，提出了一种辨别非语义可组合词的方法。
　　(4)在实验部分，通过在多个不同数据集上，不同维度的比较，验证了本文提出算法的有效性。

著录项

作者
徐健;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科计算机应用技术
授予学位硕士
导师姓名陈欢欢;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
字词对齐; 向量表示; 类似K-means方式; 语义信息;

相似文献

中文文献
外文文献
专利

1. 基于词向量和概念上下文信息的本体对齐方法 [J] . 康世泽 ,吉立新 ,张建朋 . 信息工程大学学报 . 2020,第005期
2. 基于HowNet义原和Word2vec词向量表示的多特征融合消歧方法 [J] . 王伟 ,赵尔平 ,崔志远 . 计算机应用 . 2021,第008期
3. 一种基于Hownet的词向量表示方法 [J] . 陈洋 ,罗智勇 . 北京大学学报：自然科学版 . 2019,第1期
4. 一种基于多义词向量表示的词义消歧方法 [J] . 李国佳 ,赵莹地 ,郭鸿奇 . 智能计算机与应用 . 2018,第004期
5. 一种基于多义词向量表示的词义消歧方法 [J] . 李国佳1 ,赵莹地1 ,郭鸿奇2 . 智能计算机与应用 . 2018,第4)期
6. 基于知网义原词向量表示的无监督词义消歧方法 [C] . TANG Gongbo ,唐共波 ,YU Dong . 中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） . 2015
7. 基于跨语言词向量的句子对齐方法研究 [A] . 路琦 . 2020

基于字词对齐的中文字词向量表示方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅