首页> 外文期刊>Computing and informatics >A LARGE SPANISH-CATALAN PARALLEL CORPUS RELEASE FOR MACHINE TRANSLATION
【24h】

A LARGE SPANISH-CATALAN PARALLEL CORPUS RELEASE FOR MACHINE TRANSLATION

机译:大型西班牙语-加泰罗尼亚语并行语料库,用于机器翻译

获取原文
获取原文并翻译 | 示例
           

摘要

We present a large Spanish-Catalan parallel corpus extracted from ten years of the paper edition of a bilingual Catalan newspaper. The produced corpus of 7.5 M parallel sentences (around 180 M words per language) is useful for many natural language applications. We report excellent results when building a statistical machine translation system trained on this parallel corpus. The Spanish-Catalan corpus is partially available via ELDA (Evaluations and Language Resources Distribution Agency) in catalog number ELRA-W0053.
机译:我们提供一个大型的西班牙语-加泰罗尼亚语平行语料库,该语料库摘自双语加泰罗尼亚语报纸的十年版。产生的7.5 M个并行句子的语料库(每种语言大约1.8亿个单词)可用于许多自然语言应用程序。当构建在此并行语料库上训练的统计机器翻译系统时,我们报告了出色的结果。可通过ELDA(评估和语言资源分配机构)以目录号ELRA-W0053部分获得西班牙语-加泰罗尼亚语语料库。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号