基于半监督学习的统计机器翻译研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的飞速发展所产生的越来越多的双语数据,使得基于统计的机器翻译( SMT)成为了机器翻译领域的主流方法。然而相比已标注数据(双语句对,词对齐结果等),可用于统计机器翻译的未标注数据(单语的句子,未标注对齐的双语句对等)更容易获得,其数量也远远大于已标注的数据。如何利用未标注数据提高统计机器翻译的质量成为一个热门的研究方向。半监督的学习方法,能够利用未标注数据参与模型的训练和优化,提高统计模型的性能,在SMT中的应用也越来越受到重视。本篇博士论文将深入地研究如何将半监督的学习方法(包括自学习、互学习和基于图的学习)应用于统计机器翻译的各个阶段(包括词汇对齐、规则抽取,特征权重训练、翻译重排序和解码),提高统计机器翻译的质量。论文组织如下:
　　1.针对基于反向转换文法词汇对齐中的1-1对齐约束,本文通过引入短语对和层次短语对提出了增强的反向转换文法,并使用半监督训练方法来训练对数线性模型中的特征值和特征权重,以提高基于反向转换文法的词汇对齐的性能,从而可以抽取更为准确的翻译规则,提高SMT的性能。
　　2.针对基于句法的SMT(SSMT)的规则抽取中词汇对齐和句法分析不一致的问题,本文提出了基于边界集的目标化自学习方法和基于强制对齐的重训练方法,来利用词对齐信息修正句法分析结果中的错误,从而改善了翻译规则的质量,提高了SSMT的性能。
　　3.针对特征权重训练中的领域适应问题,本文提出了基于最小贝叶斯风险的自学习和互学习方法。为解决自学习和互学习训练过程中的不稳定现象,本文使用了基于最小贝叶斯风险的句子级系统融合方法来选择合适的翻译候选参与自学习和互学习的训练,显著地提高了目标领域上的翻译性能。
　　4.针对翻译结果的一致性问题(即相似的输入句子应该得到相似的翻译结果),本文使用了基于图的半监督方法,将SMT看做结构学习问题,并针对该问题提出了结构化的标记传播算法。本文进一步地将结构化标记传播算法获得的一致置信度作为特征,应用于常用的对数线性模型中,将该模型应用于SMT的重排序和解码,提高了SMT的性能。

著录项

作者
刘树杰;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机应用技术
授予学位博士
导师姓名周明;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类翻译机;
关键词
统计机器翻译; 半监督学习; 特征权重自适应; 句法分析;

相似文献

中文文献
外文文献
专利

1. 基于领域自适应方法的统计机器翻译模型的优化研究 [J] . 杨玲 . 科学技术创新 . 2021,第005期
2. 基于领域自适应方法的统计机器翻译模型的优化研究 [J] . 杨玲 . 黑龙江科技信息 . 2021,第005期
3. 基于汉语主题词表的统计机器翻译训练数据筛选方法及实验研究 [J] . 丁亮 ,李颖 ,何彦青 . 情报学报 . 2016,第008期
4. 基于层次短语的汉蒙统计机器翻译研究 [J] . 王春荣 ,王斯日古楞 ,阿荣 . 内蒙古师范大学学报（自然科学汉文版） . 2013,第003期
5. 基于统计机器翻译的汉维词对齐研究 [J] . 刘建明 ,吐尔根·依不拉音 ,艾山·吾买尔 . 计算机应用与软件 . 2011,第004期
6. 基于短语的汉维(维汉)统计机器翻译研究 [C] . 董兴华 ,周俊林 ,郭树盛 . 第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会 . 2010
7. 基于中轴语的统计机器翻译研究 [A] . 朱晓宁 . 2019

基于半监督学习的统计机器翻译研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅