首页> 中文期刊> 《模式识别与人工智能》 >基于最小词频阈值的文档特征选择

基于最小词频阈值的文档特征选择

         

摘要

为降低内容无关的特征词对文本分类系统的影响,在对与文本内容无关的特征词进行分析后发现:不相关特征词的词频普遍较低,利用最小词频阈值滤除低频特征可以明显降低无关特征的数量。为此,提出基于最小词频阈值的文档频评估函数。利用该函数选择特征可以有效减少与内容无关的噪声特征,改善分类质量。实验结果显示,几种基于最小词频阈值的文档频评估函数比基于普通文档频的评估函数的分类准确性有不同程度的改进,其中对互信息的改进最为显著,宏平均F1值比词频方法提高40%,比普通文档频方法提高15%~30%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号