首页> 外文会议>European conference on IR research >Using Section Headings to Compute Cross-Lingual Similarity of Wikipedia Articles

【24h】

Using Section Headings to Compute Cross-Lingual Similarity of Wikipedia Articles

机译：使用章节标题计算维基百科文章的跨语言相似度

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Measuring the similarity of interlanguage-linked Wikipedia articles often requires the use of suitable language resources (e.g., dictionaries and MT systems) which can be problematic for languages with limited or poor translation resources. The size of Wikipedia can also present computational demands when computing similarity. This paper presents a 'lightweight' approach to measure cross-lingual similarity in Wikipedia using section headings rather than the entire Wikipedia article, and language resources derived from Wikipedia and Wiktionary to perform translation. Using an existing dataset we evaluate the approach for 7 language pairs. Results show that the performance using section headings is comparable to using all article content, dictionaries derived from Wikipedia and Wiktionary are sufficient to compute cross-lingual similarity and combinations of features can further improve results.

机译：测量与中介语链接的Wikipedia文章的相似性通常需要使用合适的语言资源（例如，词典和MT系统），这对于翻译资源有限或贫乏的语言可能会造成问题。 Wikipedia的大小也可以在计算相似性时提出计算要求。本文提出了一种“轻量级”的方法，该方法使用部分标题而不是整个Wikipedia文章，以及从Wikipedia和Wiktionary派生的语言资源来执行翻译，来测量Wikipedia中的跨语言相似性。使用现有的数据集，我们评估了7种语言对的方法。结果表明，使用节标题的效果可与使用所有文章内容相媲美，从Wikipedia和Wiktionary派生的词典足以计算跨语言相似度，并且功能组合可以进一步改善结果。

著录项

来源
《European conference on IR research》|2017年|633-639|共7页
会议地点
作者
Monica Lestari Paramita; Paul Clough; Robert Gaizauskas;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Wikipedia similarity; Cross-language similarity;

机译：维基百科的相似性;跨语言相似度;

相似文献

外文文献
中文文献
专利

1. Improving the visibility of library resources via mapping library subject headings to Wikipedia articles [J] . Joorabchi Arash, Mahdi Abdulhussain E. Library hi tech . 2018,第1期

机译：通过将图书馆主题标题映射到维基百科文章来提高图书馆资源的可见性
2. Experimental data for computing semantic similarity between concepts using multiple inheritances in Wikipedia category graph [J] . Muhammad Jawad Hussain, Shahbaz Hassan Wasti, Guangjian Huang, Data in Brief . 2020,第2期

机译：使用Wikipedia类别图中的多重继承计算概念之间的语义相似性的实验数据
3. Computing semantic similarity based on novel models of semantic representation using Wikipedia [J] . Qu Rong, Fang Yongyi, Bai Wen, Information Processing & Management . 2018,第6期

机译：使用Wikipedia基于新颖的语义表示模型计算语义相似度
4. Using Section Headings to Compute Cross-Lingual Similarity of Wikipedia Articles [C] . Monica Lestari Paramita, Paul Clough, Robert Gaizauskas European Conference on Information Retrieval Research . 2017

机译：使用部分标题来计算维基百科文章的交叉语言相似性
5. How Wikipedia Editors Collaborate on Article 'Talk' Pages [D] . Magnuson, Victor. 2018

机译：Wikipedia编辑如何在文章“对话”页面上进行协作
6. Experimental data for computing semantic similarity between concepts using multiple inheritances in Wikipedia category graph [O] . Muhammad Jawad Hussain, Shahbaz Hassan Wasti, Guangjian Huang, 2020

机译：用于在Wikipedia类别图中使用多个继承来计算概念之间的语义相似性的实验数据
7. Using Section Headings to Compute Cross-Lingual Similarity of Wikipedia Articles [O] . Paramita M.L., Clough P., Gaizauskas R. 2017

机译：使用章节标题来计算维基百科文章的跨语言相似性

Using Section Headings to Compute Cross-Lingual Similarity of Wikipedia Articles

摘要

著录项

相似文献

相关主题

期刊订阅