首页> 中文期刊> 《情报学报》 >海量数据集上基于特征组合的关键词自动抽取

海量数据集上基于特征组合的关键词自动抽取

         

摘要

关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号