首页> 中文期刊> 《计算机工程与科学》 >基于改进CHI和PCA的文本特征选择

基于改进CHI和PCA的文本特征选择

     

摘要

针对文本数据中含有大量噪声和冗余特征,为获取更有代表性的特征集合,提出了一种结合改进卡方统计(ICHI)和主成分分析(PCA)的特征选择算法(ICHIPCA).首先针对CHI算法忽略词频、文档长度、类别分布及负相关特性等问题,引入相应的调整因子来完善CHI计算模型;然后利用改进后的CHI计算模型对特征进行评价,选取靠前特征作为初选特征集合;最后通过PCA算法在基本保留原始信息的情况下提取主要成分,实现降维.通过在KNN分类器上验证,与传统特征选择算法IG、CHI等同类型算法相比,ICHIPCA算法在多种特征维度及多个类别下,实现了分类性能的提升.

著录项

  • 来源
    《计算机工程与科学》 |2021年第9期|1645-1652|共8页
  • 作者单位

    重庆邮电大学通信与信息工程学院 重庆400065;

    重庆邮电大学通信新技术应用研究中心 重庆400065;

    重庆信科设计有限公司 重庆401121;

    重庆邮电大学通信与信息工程学院 重庆400065;

    重庆邮电大学通信新技术应用研究中心 重庆400065;

    重庆邮电大学通信与信息工程学院 重庆400065;

    重庆邮电大学通信新技术应用研究中心 重庆400065;

    重庆邮电大学通信与信息工程学院 重庆400065;

    重庆邮电大学通信新技术应用研究中心 重庆400065;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    文本分类; PCA; CHI; 降维; 特征选择;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号