首页> 外文会议>Text, speech and dialogue >Bootstrapping Bilingual Lexicons from Comparable Corpora for Closely Related Languages
【24h】

Bootstrapping Bilingual Lexicons from Comparable Corpora for Closely Related Languages

机译:从可比较的语料库中引导双语词汇表以获取紧密相关的语言

获取原文
获取原文并翻译 | 示例

摘要

In this paper we present an approach to bootstrap a Croatian-Slovene bilingual lexicon from comparable news corpora from scratch, without relying on any external bilingual knowledge resource. Instead of using a dictionary to translate context vectors, we build a seed lexicon from identical words in both languages and extend it with context-based cognates and translation candidates of the most frequent words. By enlarging the seed dictionary for only 7% we were able to improve the baseline precision from 0.597 to 0.731 on the mean reciprocal rank for the ten top-ranking translation candidates with a 50.4% recall on the gold standard of 500 entries.
机译:在本文中,我们提出了一种从零开始从可比较的新闻语料库中引导克罗地亚语-斯洛文尼亚语双语词典的方法,而无需依赖任何外部双语知识资源。我们没有使用字典来翻译上下文向量,而是从两种语言中的相同单词构建了一个种子词典,并使用基于上下文的认知和最常见单词的翻译候选者对其进行了扩展。通过仅将种子字典扩大7%,我们就能够将10个排名最高的翻译候选者的平均倒数排名的基线精度从0.597提高到0.731,在500个条目的金本位上召回率达到50.4%。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号