首页> 外文会议>9th International conference on language resources and evaluation >Quality Estimation for Synthetic Parallel Data Generation
【24h】

Quality Estimation for Synthetic Parallel Data Generation

机译:综合并行数据生成的质量估计

获取原文

摘要

This paper presents a novel approach for parallel data generation using machine translation and quality estimation. Our study focuses on pivot-based machine translation from English to Croatian through Slovene. We generate an English-Croatian version of the Europarl parallel corpus based on the English-Slovene Europarl corpus and the Apertium rule-based translation system for Slovene-Croatian. These experiments are to be considered as a first step towards the generation of reliable synthetic parallel data for under-resourced languages. We first collect small amounts of aligned parallel data for the Slovene-Croatian language pair in order to build a quality estimation system for sentence-level Translation Edit Rate (TER) estimation. We then infer TER scores on automatically translated Slovene to Croatian sentences and use the best translations to build an English-Croatian statistical MT system. We show significant improvement in terms of automatic metrics obtained on two test sets using our approach compared to a random selection of synthetic parallel data.
机译:本文提出了一种使用机器翻译和质量估计的并行数据生成的新方法。我们的研究重点在于通过Slovene从英语到克罗地亚语的基于轴心的机器翻译。我们根据英语-斯洛文尼亚语Europarl语料库和基于Apertium规则的斯洛文尼亚-克罗地亚语翻译系统,生成了英语-克罗地亚语版本的Europarl并行语料库。这些实验被认为是为资源不足的语言生成可靠的合成并行数据的第一步。我们首先为斯洛文尼亚语-克罗地亚语对收集少量对齐的并行数据,以建立用于句子级翻译编辑率(TER)估计的质量估计系统。然后,我们根据自动翻译的斯洛文尼亚语推断出克罗地亚语句子的TER分数,并使用最佳翻译来构建英语-克罗地亚语统计MT系统。与随机选择合成并行数据相比,我们显示了使用我们的方法在两个测试集上获得的自动度量方面的显着改进。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号