【24h】

Part-of-speech labeling for Reuters database

机译:路透社数据库的兼词标签

获取原文

摘要

Even if the Vector Space Model used for document representation in information retrieval systems integrates a small quantity of knowledge it continues to be used due to its computational cost, speed execution and simplicity. We try to improve this document representation by adding some syntactic information such as the parts of speech. In this paper, we have evaluated three different tagging algorithms in order to select the most suitable tagger for using it to tag the Reuters dataset. In this work, we have evaluated the taggers using only five different parts of speech: noun, verb, adverb, adjective and others. We considered these particular tags being the most representative for describing the documents into these parts of speech space.
机译:即使用于信息检索系统中的文档表示的矢量空间模型,也集成了少量知识,由于其计算成本,速度执行和简单,因此继续使用。我们尝试通过添加一些语言信息,例如语音的句法信息来改进此文档表示。在本文中,我们已经评估了三种不同的标记算法,以便选择最合适的标记器,以便使用它标记路透社数据集。在这项工作中,我们使用的是仅使用五个不同的语音(动词,副词,形容词和其他不同部分)评估了标记器。我们考虑了这些特定标签,是将文档描述为语音空间的这些部分的最具代表性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号