首页> 外文会议>Conference on machine translation >NICT's Corpus Filtering Systems for the WMT18 Parallel Corpus Filtering Task

【24h】

NICT's Corpus Filtering Systems for the WMT18 Parallel Corpus Filtering Task

机译：NICT用于WMT18并行语料库筛选任务的语料库筛选系统

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper presents the NICT's participation in the WMT18 shared parallel corpus filtering task. The organizers provided 1 billion words German-English corpus crawled from the web as part of the Paracrawl project. This corpus is too noisy to build an acceptable neural machine translation (NMT) system. Using the clean data of the WMT18 shared news translation task, we designed several features and trained a classifier to score each sentence pairs in the noisy data. Finally, we sampled 100 million and 10 million words and built corresponding NMT systems. Empirical results show that our NMT systems trained on sampled data achieve promising performance.

机译：本文介绍了NICT在WMT18共享并行语料库过滤任务中的参与情况。作为Paracrawl项目的一部分，组织者提供了10亿个德语-英语语料从网络上爬取的功能。该语料库太嘈杂，无法构建可接受的神经机器翻译（NMT）系统。使用WMT18共享新闻翻译任务的干净数据，我们设计了几个功能并训练了分类器，以对嘈杂数据中的每个句子对进行评分。最后，我们采样了1亿个和1000万个单词，并构建了相应的NMT系统。实证结果表明，我们的NMT系统在采样数据上得到了训练，其性能令人鼓舞。

著录项

来源
《Conference on machine translation》|2018年|963-967|共5页
会议地点
作者
Rui Wang; Benjamin Marie; Masao Utiyama; Eiichiro Sumita;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Filtered Pseudo-parallel Corpus Improves Low-resource Neural Machine Translation [J] . Imankulova Aizhan, Sato Takayuki, Komachi Mamoru ACM transactions on Asian and low-resource language information processing . 2020,第2期

机译：过滤伪并行语料库可提高低资源神经电机翻译
2. Pseudotext Injection and Advance Filtering of Low-Resource Corpus for Neural Machine Translation [J] . Michael Adjeisah, Guohua Liu, Douglas Omwenga Nyabuga, Computational intelligence and neuroscience . 2021,第a期

机译：神经电机翻译低资源语料的假义注射和预先滤波
3. The NoisyOffice Database: A Corpus To Train Supervised Machine Learning Filters For Image Processing [J] . M.J.CASTRO-BLEDA, S.ESPANA-BOQUERA, J.PASTOR-PELLICER, The Computer journal . 2020,第11期

机译：noisyoffice数据库：用于培训监督机器学习过滤器的语料库，用于图像处理
4. NICT's Corpus Filtering Systems for the WMT18 Parallel Corpus Filtering Task [C] . Rui Wang, Benjamin Marie, Masao Utiyama, Conference on machine translation . 2018

机译：关于WMT18并行语料库过滤任务的Nict的语料库过滤系统
5. Power consumption in FPGA based bit-serial and bit-parallel digital filter systems. [D] . Rahim, Saad Ashequr. 2007

机译：基于FPGA的位串行和位并行数字滤波器系统的功耗。
6. Pseudotext Injection and Advance Filtering of Low-Resource Corpus for Neural Machine Translation [O] . Michael Adjeisah, Guohua Liu, Douglas Omwenga Nyabuga, 2021

机译：神经电机翻译低资源语料的假义注射和预先滤波
7. NICT’s Corpus Filtering Systems for the WMT18 Parallel Corpus Filtering Task [O] . Rui Wang, Benjamin Marie, Masao Utiyama, 2018

机译：关于WMT18并行语料库过滤任务的Nict的语料库过滤系统

NICT's Corpus Filtering Systems for the WMT18 Parallel Corpus Filtering Task

摘要

著录项

相似文献

相关主题

期刊订阅