Bilingual Data Selection Using a Continuous Vector-Space Representation

机译：使用连续向量空间表示法进行双语数据选择

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Data selection aims to select the best data subset from an available pool of sentences with which to train a pattern recognition system. In this article, we present a bilingual data selection method that leverages a continuous vector-space representation of word sequences for selecting the best subset of a bilingual corpus, for the application of training a machine translation system. We compared our proposal with a state-of-the-art data selection technique (cross-entropy) obtaining very promising results, which were coherent across different language pairs.

机译：数据选择旨在从可用的句子库中选择最佳数据子集，以训练模式识别系统。在本文中，我们提出了一种双语数据选择方法，该方法利用单词序列的连续向量空间表示来选择双语语料库的最佳子集，以用于训练机器翻译系统。我们将我们的建议与最先进的数据选择技术（交叉熵）进行了比较，获得了非常有希望的结果，这些结果在不同语言对之间是一致的。

著录项

来源
《IAPR international workshops on structural and syntactic pattern recognition;IAPR international workshops on statistical techniques in pattern recognition》|2016年|95-106|共12页
会议地点
作者
Mara Chinea-Rios; German Sanchis-Trilles; Francisco Casacuberta;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Vector space representation; Data selection; Bilingual corpora;

机译：向量空间表示;数据选择;双语语料库;

相似文献

外文文献
中文文献
专利

1. Bilingual Distributed Word Representations from Document-Aligned Comparable Data [J] . Moens Marie-Francine, Vuli#263, Ivan The Journal of Artificial Intelligence Research . 2016,第10期

机译：与文档对齐的可比数据的双语分布式单词表示形式
2. Bilingual Distributed Word Representations from Document-Aligned Comparable Data [J] . Vulic Ivan, Moens Marie-Francine The Journal of Artificial Intelligence Research . 2016,第Null期

机译：与文档对齐的可比数据的双语分布式单词表示形式
3. Bilingual recursive neural network based data selection for statistical machine translation [J] . Wong Derek F., Lu Yi, Chao Lidia S. Knowledge-Based Systems . 2016,第sepa15期

机译：基于双语递归神经网络的统计机器翻译数据选择
4. Bilingual Data Selection Using a Continuous Vector-Space Representation [C] . Mara Chinea-Rios, German Sanchis-Trilles, Francisco Casacuberta International Workshop on Statistical Techniques in Pattern Recognition . 2016

机译：使用连续向量空间表示的双语数据选择
5. A continuous model for salient shape selection and representation. [D] . Pao, Hsing-Kuo Kenneth. 2001

机译：用于显着形状选择和表示的连续模型。
6. Learning continuous and data-driven molecular descriptors by translating equivalent chemical representations [O] . Robin Winter, Floriane Montanari, Frank Noé, 2019

机译：通过翻译等效的化学表示来学习连续的和数据驱动的分子描述符
7. A Vector-Space Representation Of Motion Data For Example-Based Motion Synthesis [O] . Ik Soo Lim, Daniel Thalmann 2001

机译：基于实例的运动合成的运动数据的向量空间表示

Bilingual Data Selection Using a Continuous Vector-Space Representation

摘要

著录项

相似文献

相关主题

期刊订阅