面向旅游领域的汉英统计机器翻译关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

机器翻译一直是自然语言处理领域的研究热点，随着统计机器翻译研究的逐步深入，机器翻译在理论和实践方面都取得了很大的进步。但是由于统计机器翻译方法依赖于训练语料，一些特定领域由于缺乏平行训练语料而导致其译文质量相当不理想。随着全球化的不断深入，跨境旅游已经成为人们日常消遣的一部分，面向旅游领域的机器翻译系统拥有很大的市场前景和研究意义。由于旅游平行训练语料的缺乏，使用通用机器翻译系统得到的旅游文本译文比较糟糕，因此，本文对旅游文本篇章特性进行研究以提高系统翻译质量，主要工作包括:
　　(1)篇章预处理研究，我们提出了一种结合规则方法与机器学习方法并融合集成学习和半监督学习策略的汉语旅游文本非信息句识别模型。为了构造初始化种子标注集，我们首先根据非信息句的特点构造规则模板，采用规则的方法进行标注，然后我们将非信息句识别看成是一个二元分类问题并使用机器学习方法进行分类识别。由于规则方法所构造的训练集数量小且存在数据不平衡的特点，我们引入了基于Self-Training的半监督学习策略和集成学习的策略。实验结果表明，该模型具有较好的非信息句识别效果。
　　(2)汉语成语翻译方法研究，与一般文本相比旅游文本中成语出现更为频繁，针对成语翻译问题，我们提出了基于复述技术的汉语成语翻译方法。首先我们实现并改进了三种复述获取方法以获取成语复述，从而构建了成语复述库;然后我们根据成语类别提出了成语复述替换的择优方法;接着我们通过在测试集和训练集中分别替换成语复述来实现对成语的改进翻译。实验结果表明，我们的方法可以解决成语在训练语料中未登录而无法翻译的问题并能减小由于训练语料中成语的稀疏性而导致的词对齐和概率估计错误问题，从而有效地提高了翻译系统的成语翻译能力，并在一定程度上改善了统计机器翻译系统的翻译效果。
　　最后我们将上面两个研究工作结合开源工具Moses中的基于短语的统计机器翻译模型，构建了面向旅游领域的汉英统计机器翻译系统，翻译示例显示我们的系统在旅游文本上能有更好的翻译效果。

著录项

作者
罗凌;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科人工智能基础
授予学位硕士
导师姓名陈毅东;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类机器翻译;翻译;
关键词
统计机器翻译; 旅游文本; 汉英成语翻译; 篇章预处理; 非信息句识别;

相似文献

中文文献
外文文献
专利

1. 面向专利领域的汉英机器翻译融合系统 [J] . 李洪政 ,赵凯 ,胡韧奋 . 情报工程 . 2017,第003期
2. 面向专利领域的汉英机器翻译融合系统 [J] . 李洪政1 ,赵凯2 ,胡韧奋1 . 情报工程 . 2017,第003期
3. 面向多领域资源的汉英双语语料库构建的研究 [J] . 李晓光 ,王鹏 ,张威 . 计算机应用 . 2008,第001期
4. 面向会面领域的汉英口语翻译系统 [J] . 王艳春 . 长春光学精密机械学院学报 . 1999,第003期
5. 面向烟草领域的科研知识图谱服务平台关键技术研究 [J] . 王卫军 ,李娜 ,郑新章 . 中国烟草学报 . 2021,第004期
6. 面向受限领域的汉英口语翻译 [C] . 王海峰 . 全国第四届计算机语言学联合学术会议 . 1997
7. 面向受限领域的汉蒙统计机器翻译方法研究 [A] . 杨振新 . 2017

面向旅游领域的汉英统计机器翻译关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅