首页> 中文期刊>中文信息学报 >基于类别特征域的文本分类特征选择方法

基于类别特征域的文本分类特征选择方法

     

摘要

特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.本文介绍了一种基于类别特征域的特征选择方法.该方法首先利用"组合特征抽取"[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征.这里,"组合特征抽取"是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征.接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题.实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号