【24h】

Automatic Linking of Similar Texts Across Languages

机译:自动跨语言链接相似的文本

获取原文
获取原文并翻译 | 示例

摘要

Cross-lingual Document Similarity calculation (CLDS) is useful for the navigation of large multilingual document collections and for clustering and classifying documents together independently of their language. We achieve CLDS by mapping documents onto the multilingual EUROVOC thesaurus, which will soon exist in 21 languages, and by representing each document in this multilingual vector space so that the similarity of texts written in different languages can be calculated. An evaluation showed that the system successfully identifies document translations in a large text collection. To adapt the method to the analysis of large multilingual news collections, we combined the mapping with cluster analysis and named entity recognition.
机译:跨语言文档相似度计算(CLDS)对于大型多语言文档集的导航以及独立于其语言的文档聚类和分类很有用。我们通过将文档映射到即将以21种语言存在的多语言EUROVOC同义词库,并通过在此多语言向量空间中表示每个文档来实现CLDS,从而可以计算以不同语言编写的文本的相似性。评估显示,该系统成功识别了大型文本集中的文档翻译。为了使该方法适用于大型多语言新闻集的分析​​,我们将映射与聚类分析和命名实体识别相结合。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号