【24h】

Processing Comparable Corpora With Bilingual Suffix Trees

机译:用双语后缀树处理可比语料库

获取原文
获取原文并翻译 | 示例

摘要

We introduce Bilingual Suffix Trees (BST), a data structure that is suitable for exploiting comparable corpora. We discuss algorithms that use BSTs in order to create parallel corpora and learn translations of unseen words from comparable corpora. Starting with a small bilingual dictionary that was derived automatically from a corpus of 5.000 parallel sentences, we have automatically extracted a corpus of 33.926 parallel phrases of size greater than 3, and learned 9 new word translations from a comparable corpus of 1.3M words (100.000 sentences).
机译:我们介绍了双语后缀树(BST),这是一种适合利用可比语料库的数据结构。我们讨论了使用BST来创建并行语料库的算法,并从可比较的语料库学习看不见的单词的翻译。从一个小型的双语词典开始,该词典是从5.000个并行句子的语料库中自动得出的,我们自动提取了一个33.926个并行短语的语料库,其大小大于3,并从130万个单词的可比语料库中学习了9个新单词的翻译(100.000句子)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号