首页> 外文会议>International Workshop on Statistical Techniques in Pattern Recognition >Bilingual Data Selection Using a Continuous Vector-Space Representation
【24h】

Bilingual Data Selection Using a Continuous Vector-Space Representation

机译:使用连续向量空间表示的双语数据选择

获取原文

摘要

Data selection aims to select the best data subset from an available pool of sentences with which to train a pattern recognition system. In this article, we present a bilingual data selection method that leverages a continuous vector-space representation of word sequences for selecting the best subset of a bilingual corpus, for the application of training a machine translation system. We compared our proposal with a state-of-the-art data selection technique (cross-entropy) obtaining very promising results, which were coherent across different language pairs.
机译:数据选择旨在从可用于训练模式识别系统的可用句子中选择最佳数据子集。在本文中,我们介绍了一种双语数据选择方法,其利用单词序列的连续矢量空间表示来选择双语语料库的最佳子集,用于培训机器翻译系统。我们将我们的提案与最先进的数据选择技术(交叉熵)进行了比较了获得非常有前途的结果,这在不同的语言对中是连贯的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号