【24h】

単語対応を利用した欠落語の投射による機械翻訳向きオラクル入力文の生成

机译:通过使用单词对应关系投影丢失的单词来生成适用于机器翻译的Oracle输入语句

获取原文
获取原文并翻译 | 示例
           

摘要

ある言語対の翻訳を考えたとき目的言語側で単語対応がつかない語というものが存在する.露英翻訳のおける英語の冠詞や日英翻訳における欠落主語の問題など,このような語は機械翻訳を取り扱う上で問題となる.これらの語は,明示的な手がかり無しに予測を行う必要がある.本論において,我々はこのような欠落語の同定手法および目的言語の文から原言語に投射を行う手法について提案を行う.手法は言語対に依存せずコーパスから動的に決定される.この手法により,これまで先行研究で行われてきた空範噂や冠詞生成のデータセットが作成可能になる.またこのデータセットの作成により,これら欠落語の翻訳における影響度を予め推測することができる.本論では,IWSLT 2005 の日英翻訳タスクにおいて提案手法を適応したところ欠落語の予測による改善の見込みが非常に大きいことが判明した.欠落語が投射されたオラクル原言語文を入力に用いることで,BLEU においてフレーズベース統計的機械翻訳システムで 30.9 から 37.3,ニューラル機械翻訳システムにおいては 18.0 から 28.3 の改善が見られた.
机译:当考虑某种语言对的翻译时,在目标语言方面,有些单词不能与单词相对应。这样的单词,例如俄语-英语翻译中的英语首字母缩写问题和日语-英语翻译中的主题丢失,在处理机器翻译时会带来问题。这些单词需要在没有明显线索的情况下进行预测。在本文中,我们提出了一种识别此类遗漏单词的方法,以及一种从目标语言中的句子投射到原始语言的方法。该方法与语言对无关,并且是从语料库动态确定的。这种方法使得创建空的谣言和首字母缩略词生成的数据集成为可能。另外,通过创建该数据集,可以预先估计对这些遗漏单词的翻译的影响程度。在本文中,将所提出的方法应用于IWSLT 2005的日语-英语翻译任务时,发现通过预测遗漏单词来进行改进的可能性非常大。通过使用预计有缺失词作为输入的Oracle原始语言句子,BLEU在基于短语的统计机器翻译系统中从30.9改善到37.3,在神经机器翻译系统中从18.0改善到28.3。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号