首页> 外文会议>Annual International Conference on Computational Linguistics and Intelligent Text Processing >The Influence of Collocation Segmentation and Top 10 Items to Keyword Assignment Performance
【24h】

The Influence of Collocation Segmentation and Top 10 Items to Keyword Assignment Performance

机译:搭配分段和前10项的影响到关键字分配性能

获取原文

摘要

Automatic document annotation from a controlled conceptual thesaurus is useful for establishing precise links between similar documents. This study presents a language independent document annotation system based on features derived from a novel collocation segmentation method. Using the multilingual conceptual thesaurus EuroVoc, we evaluate filtered and unfiltered version of the method, comparing it against other language independent methods based on single words and bigrams. Testing our new method against the manually tagged multilingual corpus Acquis Communautaire 3.0 (AC) using all descriptors found there, we attain improvements in keyword assignment precision from 18 to 29 percent and in F-measure from 17.2 to 27.6 for 5 keywords assigned to a document. The further filtering out of the top 10 frequent items improves precision by 4 percent and collocation segmentation improves precision by 9 percent on the average, over 21 languages tested.
机译:来自受控概念同义词库的自动文档注释对于在类似文档之间建立精确的链接非常有用。本研究介绍了一种基于从新型搭配分段方法派生的功能的语言独立文档注释系统。使用多语言概念蛋白库欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲欧洲经济困境,比较了该方法的过滤器和未过滤版本,将其与基于单词和Bigrams的其他语言独立方法进行比较。测试我们的新方法对手动标记的多语言语料库ACCommAutaire 3.0(AC)使用在那里找到的所有描述符,从18〜29%的关键字分配精度和F-Measge中的改进从17.2到27.6到分配给文档的5个关键字。在前10个频繁的物品中的进一步过滤提高了4%的精度,并且搭配分割在平均值上提高了9%的精度,超过了21种语言测试。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号