Bilingual Data Selection Using a Continuous Vector-Space Representation

机译：使用连续向量空间表示的双语数据选择

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Data selection aims to select the best data subset from an available pool of sentences with which to train a pattern recognition system. In this article, we present a bilingual data selection method that leverages a continuous vector-space representation of word sequences for selecting the best subset of a bilingual corpus, for the application of training a machine translation system. We compared our proposal with a state-of-the-art data selection technique (cross-entropy) obtaining very promising results, which were coherent across different language pairs.

机译：数据选择旨在从可用于训练模式识别系统的可用句子中选择最佳数据子集。在本文中，我们介绍了一种双语数据选择方法，其利用单词序列的连续矢量空间表示来选择双语语料库的最佳子集，用于培训机器翻译系统。我们将我们的提案与最先进的数据选择技术（交叉熵）进行了比较了获得非常有前途的结果，这在不同的语言对中是连贯的。

著录项

来源
《International Workshop on Statistical Techniques in Pattern Recognition》|2016年|588p|共12页
会议地点
作者
Mara Chinea-Rios; German Sanchis-Trilles; Francisco Casacuberta;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP391.4-53;
关键词
Vector space representation; Data selection; Bilingual corpora;

机译：矢量空间表示;数据选择;双语语言;

相似文献

外文文献
中文文献
专利

1. Bilingual Distributed Word Representations from Document-Aligned Comparable Data [J] . Moens Marie-Francine, Vuli#263, Ivan The Journal of Artificial Intelligence Research . 2016,第10期

机译：与文档对齐的可比数据的双语分布式单词表示形式
2. Bilingual Distributed Word Representations from Document-Aligned Comparable Data [J] . Vulic Ivan, Moens Marie-Francine The Journal of Artificial Intelligence Research . 2016,第Null期

机译：与文档对齐的可比数据的双语分布式单词表示形式
3. Bilingual recursive neural network based data selection for statistical machine translation [J] . Wong Derek F., Lu Yi, Chao Lidia S. Knowledge-Based Systems . 2016,第sepa15期

机译：基于双语递归神经网络的统计机器翻译数据选择
4. Bilingual Data Selection Using a Continuous Vector-Space Representation [C] . Mara Chinea-Rios, German Sanchis-Trilles, Francisco Casacuberta IAPR international workshops on structural and syntactic pattern recognition;IAPR international workshops on statistical techniques in pattern recognition . 2016

机译：使用连续向量空间表示法进行双语数据选择
5. A continuous model for salient shape selection and representation. [D] . Pao, Hsing-Kuo Kenneth. 2001

机译：用于显着形状选择和表示的连续模型。
6. Learning continuous and data-driven molecular descriptors by translating equivalent chemical representations [O] . Robin Winter, Floriane Montanari, Frank Noé, 2019

机译：通过翻译等效的化学表示来学习连续的和数据驱动的分子描述符
7. A Vector-Space Representation Of Motion Data For Example-Based Motion Synthesis [O] . Ik Soo Lim, Daniel Thalmann 2001

机译：基于实例的运动合成的运动数据的向量空间表示

Bilingual Data Selection Using a Continuous Vector-Space Representation

摘要

著录项

相似文献

相关主题

期刊订阅