首页> 中文期刊> 《计算机应用》 >基于词频统计的文本关键词提取方法

基于词频统计的文本关键词提取方法

         

摘要

针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法.首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TF-IDF算法.采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低.实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间.

著录项

  • 来源
    《计算机应用》 |2016年第3期|718-725|共8页
  • 作者单位

    河北师范大学数学与信息科学学院;

    石家庄050024;

    河北师范大学河北省计算数学与应用重点实验室;

    石家庄050024;

    河北师范大学移动物联网研究院;

    石家庄050024;

    河北师范大学数学与信息科学学院;

    石家庄050024;

    河北师范大学河北省计算数学与应用重点实验室;

    石家庄050024;

    河北师范大学移动物联网研究院;

    石家庄050024;

    河北师范大学数学与信息科学学院;

    石家庄050024;

    河北师范大学河北省计算数学与应用重点实验室;

    石家庄050024;

    河北师范大学移动物联网研究院;

    石家庄050024;

    河北师范大学数学与信息科学学院;

    石家庄050024;

    河北师范大学河北省计算数学与应用重点实验室;

    石家庄050024;

    河北师范大学移动物联网研究院;

    石家庄050024;

    河北师范大学数学与信息科学学院;

    石家庄050024;

    河北师范大学河北省计算数学与应用重点实验室;

    石家庄050024;

    河北师范大学移动物联网研究院;

    石家庄050024;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    词频统计; 齐普夫定律; 同频词; 关键词提取; TF-IDF算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号