首页> 外文会议>European conference on IR research >Using Section Headings to Compute Cross-Lingual Similarity of Wikipedia Articles
【24h】

Using Section Headings to Compute Cross-Lingual Similarity of Wikipedia Articles

机译:使用章节标题计算维基百科文章的跨语言相似度

获取原文

摘要

Measuring the similarity of interlanguage-linked Wikipedia articles often requires the use of suitable language resources (e.g., dictionaries and MT systems) which can be problematic for languages with limited or poor translation resources. The size of Wikipedia can also present computational demands when computing similarity. This paper presents a 'lightweight' approach to measure cross-lingual similarity in Wikipedia using section headings rather than the entire Wikipedia article, and language resources derived from Wikipedia and Wiktionary to perform translation. Using an existing dataset we evaluate the approach for 7 language pairs. Results show that the performance using section headings is comparable to using all article content, dictionaries derived from Wikipedia and Wiktionary are sufficient to compute cross-lingual similarity and combinations of features can further improve results.
机译:测量与中介语链接的Wikipedia文章的相似性通常需要使用合适的语言资源(例如,词典和MT系统),这对于翻译资源有限或贫乏的语言可能会造成问题。 Wikipedia的大小也可以在计算相似性时提出计算要求。本文提出了一种“轻量级”的方法,该方法使用部分标题而不是整个Wikipedia文章,以及从Wikipedia和Wiktionary派生的语言资源来执行翻译,来测量Wikipedia中的跨语言相似性。使用现有的数据集,我们评估了7种语言对的方法。结果表明,使用节标题的效果可与使用所有文章内容相媲美,从Wikipedia和Wiktionary派生的词典足以计算跨语言相似度,并且功能组合可以进一步改善结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号