首页> 中文期刊>安庆师范学院学报(自然科学版) >基于对数似然比的中文文本分类特征选择研究

基于对数似然比的中文文本分类特征选择研究

     

摘要

在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献.针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法.与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确.算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响.采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号