首页> 外文OA文献 >Identifying word translations from comparable corpora using latent topic models
【2h】

Identifying word translations from comparable corpora using latent topic models

机译:使用潜在主题模型从可比语料库中识别单词翻译

摘要

A topic model outputs a set of multinomial distributions over words for each topic. In this paper, we investigate the value of bilingual topic models, i.e., a bilingual Latent Dirichlet Allocation model for finding translations of terms in comparable corpora without using any linguistic resources. Experiments on a document-aligned English-ItalianWikipedia corpus confirm that the developed methods which only use knowledge from word-topic distributions outperform methodsbased on similarity measures in the original word-document space. The best results, obtained by combining knowledge from word-topic distributions with similarity measures in the original space, are also reported.
机译:主题模型为每个主题在单词上输出一组多项式分布。在本文中,我们研究了双语主题模型的价值,即双语Latent Dirichlet分配模型,可用于在不使用任何语言资源的情况下在可比较的语料库中查找术语的翻译。对文档对齐的English-ItalianWikipedia语料库进行的实验证实,仅使用单词主题分布知识的已开发方法优于基于原始单词文档空间中相似性度量的方法。还报告了通过结合词-主题分布的知识和原始空间中的相似性度量获得的最佳结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号