首页> 中文学位 >汉维辅助翻译系统中结合词向量的句子相似度计算方法研究
【6h】

汉维辅助翻译系统中结合词向量的句子相似度计算方法研究

代理获取

目录

第一章绪论

1.1研究目的与意义

1.2研究现状

1.3本文组织结构

第二章相关技术介绍

2.1句子相似度计算方法

2.2辅助翻译技术

2.3本章小结

第三章基于词向量的句子相似度计算方法

3.1词向量

3.2基于词向量的句子相似度计算方法设计

3.3词向量模型训练

3.4实验步骤

3.5对比实验

3.6人工评测

3.7方法实现及应用

3.8本章小结

第四章混合策略的汉维辅助翻译系统的设计与实现

4.1系统模块

4.2系统流程

4.3系统功能

4.4系统数据库设计

4.5系统展示

4.6实验结果

4.7本章小结

第五章总结与展望

5.1总结

5.2展望

参考文献

攻读学位期间的科研成果

致谢

声明

展开▼

摘要

新疆维吾尔自治区作为丝绸之路经济带核心区,随着“丝绸之路经济带”战略构想的逐步实施,解决不同民族之间的语言畅通成为当务之急。国外机器翻译技术从二十世纪八十年代开始蓬勃发展。随着改革开放以来各项良好宽松的政策国内机器翻译技术也取得显著成就。然而,到目前为止,少数民族语的机器翻译仍处于初期发展阶段,为了进一步提高少数民族语言机器翻译技术的水平,实现各民族群众之间的友好交流与社会的和谐发展,新疆多语种信息技术重点实验室与中科院计算所合作开发的Tilmach辅助翻译系统是具有开创性的少数民族语言的计算机辅助翻译系统,该系统终于面向社会发布并免费使用,并已得到社会各界的认可,对新疆少数民族群众的生活学习提供切实的帮助。
  辅助翻译系统中主要存在的问题是,相似度计算方法存在很大的局限性,并精度较低。尤其在实际的工程应用上,以往的采用基于词汇的相似度计算方法进行计算的,这在一定程度上限制了翻译记忆库能够发挥的作用。本文将词向量技术引入到句子的相似度计算中,因为词向量的语境相似度在很大程度上增加了句子相似度计算的深度和广度,并且其优秀的语义相关性也可以将同、近义词的使用纳入到相似度考虑的范畴。本文的主要工作包括以下几个部分。一是使用新疆多语种信息技术重点实验室搜集的汉维双语语料库,采用谷歌公司的Word2vec在不同规模语料库、模型、策略、词向量维度、窗口大小分别训练词向量构建汉语和维语词典。二是在基于语义词典的句子相似度计算方法的基础上引入词向量的概念,提出了基于词向量的维吾尔语句子相似度计算方法,汉语句子相似度计算方法则是借鉴维吾尔语的思路;使用上述词典采用两种测试标准进行实验,又与传统句子相似度计算方法进行对比实验,均验证了该方法的有效性,最后接口的形式将句子相似度计算方法封装到Tilmach系统。三是对于本文的句子相似度计算方法进行人工评测,评测结果显示本文的方法与人工评测比较接近。四是混合策略的辅助翻译技术可以扬长避短,协调不同翻译策略,融合多种翻译方法,从而进一步提升翻译准确率。下一步的工作是考虑进一步扩展汉语和维语的训练语料,或者改用卷积神经网络等深度神经网络训练词向量,系统的翻译技术结合神经网络技术提高翻译准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号