【24h】

Cross-lingual document similarity

机译:交叉文档相似度

获取原文

摘要

In this paper we investigated how to compute similarities between documents written in different languages based on a weekly aligned multi-lingual collection of documents. Computing the cross-lingual similarities is based on an aligned set of basis vectors obtained by either latent semantic indexing or the k-means algorithm on an aligned multi-lingual corpus. We evaluated the methods on two data sets: Wikipedia and European Parliament Proceedings Parallel Corpus.
机译:在本文中,我们调查了如何根据每周对齐的多语言集合来计算以不同语言编写的文档之间的相似之处。计算交叉语言相似度基于通过潜在语义索引或k-means算法在对齐的多语言语料库上获得的对齐的基载载量集。我们评估了两种数据集的方法:维基百科和欧洲议会程序并行语料库。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号