首页> 中文期刊> 《信息技术与网络安全》 >改进的TF-IDF算法在文本分类中的研究

改进的TF-IDF算法在文本分类中的研究

         

摘要

企业数字化建设过程中,对大量日常经营活动文本的数字化处理通常是多任务的,需要对文本数据同时完成信息抽取和文本分类任。在此应用场景下,为了实现更加精准的分类效果,提出一种改进的TF-IDF算法,将文本信息抽取结果也作为文本重要类别区分特征。通过引入信息增益方法得到改进的权重计算公式,进而得到改进的文本特征向量空间表示,再构建文本分类模型。实验以石油行业中文文本为例,选取测试文本2006条进行文本分类对比实验,实验结果表明改进的TF-IDF算法精确率P达到99.3%,召回率R达到98.7%,相比于传统TF-IDF算法文本分类效果得到显著提高。

著录项

  • 来源
    《信息技术与网络安全》 |2021年第7期|P.72-7683|共6页
  • 作者单位

    中国石油工程技术研究院有限公司北京石油机械有限公司 北京102206中国人民大学信息学院 北京100872;

    中国石油工程技术研究院有限公司北京石油机械有限公司 北京102206;

    中国石油工程技术研究院有限公司北京石油机械有限公司 北京102206;

    中国石油工程技术研究院有限公司北京石油机械有限公司 北京102206;

    中国石油工程技术研究院有限公司北京石油机械有限公司 北京102206;

    中国石油工程技术研究院有限公司北京石油机械有限公司 北京102206;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    文本分类; VSM; TF-IDF; 石油; 支持向量机;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号