首页> 外文期刊>電子情報通信学会技術研究報告 >統計的前編集のための対訳コーパスからの学習データの自動生成
【24h】

統計的前編集のための対訳コーパスからの学習データの自動生成

机译:自动从双语语料库生成学习数据以进行统计预编辑

获取原文
获取原文并翻译 | 示例
       

摘要

Most of MT systems do not work well for natural and fluent texts. On the other hand, for easily machine translatable texts, MT systems work well. Therefore, for an improvement of translation quality, rewriting a fluent text to a machine translatable text before translation is promising. Based on the background, in this paper, we study a statistical pre-editing method. Specifically, first, we show an automatic generation of training data for statistical models from Japanese to English (J-E) parallel corpus, and then, describe a pre-editing method based on a statistical translation framework.%機械翻訳システムを用いて自然性が高いテキストを翻訳すると,適当な結果が得られないことがある.逆に,自然性の低いテキストを機械翻訳システムに入力した方が好ましい翻訳ができることがある.このことから,自然な原文を機械翻訳しやすい文に前編集することで翻訳品質の向上が期待できる.そのため,本研究では,対訳コーパスを用いて統計的前編集モデルの自動学習を行う.具体的には,ある文とその対訳文を機械翻訳して得られる文のペアから,自然な文を翻訳しやすい文に変換するための学習データを自動作成し,自然性の低いテキスト,例えば直訳調の文に対してはうまく翻訳できることがある.統計的機械翻訳の枠組みに基づいて自動変換を行う方法について述べる.
机译:大多数MT系统不适用于自然和流利的文本,另一方面,对于易于机器翻译的文本而言,MT系统也能很好地工作,为了提高翻译质量,请在翻译前将流利的文本重写为机器可翻译的文本在此背景下,本文研究了一种统计预编辑方法,具体而言,首先显示了自动生成用于日语到英语(JE)并行语料库的统计模型的训练数据,然后描述使用机器翻译系统翻译自然程度较高的文本时,可能无法获得适当的结果。相反,可以通过将自然度低的文本输入到机器翻译系统中来执行优选的翻译。据此,期望通过将自然源文本预编辑为易于机器翻译的文本来提高翻译质量。因此,在这项研究中,我们使用双语语料库来自动学习统计预编辑模型。具体地,例如,通过对句子及其双语句子进行机器翻译而获得的一对句子以及自然度较低的文本自动创建用于将自然句子转换为易于翻译的句子的学习数据。对于文字翻译句子,它可能能够很好地翻译。本节介绍了一种基于统计机器翻译框架的自动转换方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号