首页> 中文期刊> 《数据分析与知识发现》 >面向中文学术文本的单文档关键短语抽取

面向中文学术文本的单文档关键短语抽取

         

摘要

【目的】自动抽取中文学术文本中的关键短语,为学术文本挖掘提供短语级别的概念表达。【方法】引入内部凝聚度和边界自由度两个指标,分别度量短语内部的紧密程度和短语边界的自由组配能力,实现中文双词短语的权威度计算,并与位置加权关键词抽取结果进行融合排序,在此基础上选取TopN个元素生成关键短语。【结果】在构建的中文学术论文数据集上,关键短语抽取算法PhraseRank在准确率、召回率和考虑排序位置的R-MAP评价指标方面,均大幅度优于传统的关键词抽取算法WordRank,其中,R-MAP值相对提升超过了128%。【局限】未识别三个及以上词语构成的关键短语。【结论】相比于关键词,PhraseRank抽取得到的关键短语,与人工标记结果的一致性更高,更能体现中文学术文本的概念表达特点。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号