首页> 中文期刊> 《计算机技术与发展》 >样本大小对稀有类分类的影响

样本大小对稀有类分类的影响

         

摘要

The classification of rarely occurring cases is widely used in many real life applications. Most classifiers, which assume a relatively balanced distribution, lose efficacy. Discuss the factors that influence the modeling of a capable classifier in identifying rare events,especially for the factor of sample size. The experiment study using rotation forest carried on 3 datasets from UCI machine learning repository based on weak shows that,in particular imbalance ratio, increases the size of training set using unsupervised resample the large error rate caused by the imbalanced class distribution decreases. The common classification algorithm can reach good effect.%分类稀有类在现实生活中的很多领域都有广泛的应用,但普通的分类算法在分类稀有类时往往失效.探讨了影响稀有类分类的各个因素,针对影响稀有类中的一个因素,样本大小对稀有类的影响进行了研究.对于UCI学习库中的三个数据集,在weka平台上使用Roration Forest进行实验,对于相同的类比率,使用unsupervised resample数据预处理方法使样本由小变大.结果表明在特定的类比率下,使样本变大,由数据的不平衡分布造成的分类错误下降,普通的分类算法在分类稀有类时往往也可以取得很好的分类结果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号