首页> 中文学位 >基于非平衡数据的适应性采样集成分类器的研究
【6h】

基于非平衡数据的适应性采样集成分类器的研究

代理获取

摘要

现在每天都有大量数据需要提取和分析,数据挖掘技术在许多实际应用中获得巨大成功,分类模型已经在许多应用场合得到广泛应用,如原油泄漏检测、信用卡检测、医疗检测等等。由于这个课题的重要性,许多研究者开展了许多卓有成效的工作。
   本论文的研究总体目标是探讨一种分类方法用于提高非平衡数据集结构的分类器的准确率。非平衡数据集指的是某一类别的样本数多于其他类别的样本数。传统机器学习对这些类型的数据比较敏感,往往倾向于重视占主导地位的高频样本而忽视低频样本。为极少类样本的数据集生成的模型仅得到对这些类别样本较低的分类准确率。然而,在许多情形下,这个类别可能是人们最感兴趣的。
   例如:信用卡诈骗的误判可能导致银行声誉的毁灭,业务的流失以及客户的不满意。然而,一个欺诈交易的错误分类往往只需要一个呼叫客户端。同样,在原油泄漏检测中,一个未被发现的裂口将导致几千美元的损失。训练数据集的分类的改变,可以改变多数类和少数类的错误分布。这个非平衡问题是一个相对问题,依赖于:类的不平衡度,数据所表示的复杂性以及集合和类的总体规模。为了处理这个问题,已经提出了许多方法。这些方法被分为数据层和分析层。
   数据层对少数类进行处理,最常见的方法是过采样和欠采样。欠采样将导致少数类的信息的丢失,而且是在进行分类时不允许删除一些样本。随机的过采样使研究者选择的范围更小更专业,因此可能过度拟合。
   对于可选择的过采样,Chawla et al提出一种叫做Smote的方法来合成少数类的样本。Smote的优点在于它使研究者的选择范围更小更专业。Chawla et al提出了一种更先进的SmoteBoost方法,给出一系列的迭代T环,每一个迭代T环,Dt是时时更新的。因此少数类的过采样样本是通过合成少数类的样本得到的。Datalboost-IM是由Guo和Viktor提出的Adaboost.M2的修改版,它鉴别原有的本并为多数类和少数类合成样本。
   算法层面上的这些方法操纵的是算法,而不是数据集。最常见的集成算法是Bagging算法和Adaboost算法,它们提高了分类性能,它们是综合了其它方法的例子,对模型进行整合的方法,Bagging是由Leo Breiman在1994年提出的,通过将随机生成的训练数据集的分类整合起来Boosting是训练“弱”学习者的一种机制,通过综合由“弱”学习者的假设得到总体假设,它有很高的正确率。Adaboost是由Freund和Schapire提高了随机分类样本的权重,降低了均衡分类的比例,在不考虑非平衡数据集的情况下,传统的Boosting方法不能很好的适用于少数类的情况。
   根据Sun et al的成本敏感分类方法,考虑到不同类型的分类会需要不同的成本。一个分类的成本矩阵编码反映了这个分类方法的好坏。为了处理非平衡数据集问题,正面样本的识别重要性比负面的要高。因此,非平衡分类中,正面样本的成本要比负面样本的成本更加重要。
   为了处理这个问题,文中提出一种集成算法,该算法建立了包含所有少数类和欠采样多数类的新平衡训练集。在每轮迭代中,算法确认在多数类上的原来样本并为下一次迭代生成合成样本。实验中为每个训练集设置弱学习器作为基分类器。最后的预测结果通过多数投票方法获得。
   E-AdSampling适合用来处理不平衡数据集,因为:首先,平衡每一个要训练的数据,然后,处理多数类的欠采样的信息丢失,通过寻找原有的样本并且为这些样本创建新的合成样本,最后,通过汇总所有的分类,创建一种集成算法。
   E-AdSampling是从UCI数据集中选取六个数据集进行评测的,并分别与其他已知算法进行了比较,评价指标有F度量、G平均值、总体准确率、AUC等。
   和一种传统的机器学习算法相比,我们介绍两种合成算法和两种成本敏感算法。
   Weka.3.6.0中的C4.5树被用来作基分类器,AdatabostM1,Bagging,Adacost,CSB2,和E-AdSampling分别集成了10种迭代法。除了Adult和Monk2,它们不但提供测试数据集,而且运用10倍的交叉验证。
   在衡量TP率方面,对比无成本损失算法,E-AdSampling算法在少数类预测中减少了错误。例如Hepatitis数据集,C4.5和E-AdSampling的差别表明,13个错误的归类(归类于少数类)是错误的,它们不能归类于少数类。
   根据少数类的F度量指标,与成本敏感算法和非成本敏感算法相比,E-Adsampling算法的进步是很明显的。
   G平均值被认为是处理不平衡数据集的最重要评价指标,E-AdSampling方法,在几乎所有的数据集中,能得到最高的G平均值;除了Adult和Ozone方法,一些成本敏感算法能得到更好的结果。
   E-AdSampling算法在处理少数类时,计算TP率和F度量上能得到好的结果,能够保持恒定或有轻微的上升,并且能够保证整体正确率。
   然而,有一些成本敏感算法在计算TP率时能得到更好的结果,在处理多数类和少数类时,E-AdSampling算法通过得到好的F度量指标从而得到得到更好的结果,在任何情况下都能保证正确率。
   每一个数据集的ROC曲线图形化地表明了E-AdSampling的结果。
   ● F-Measure方法在任何数据集上处理少数类时最好的
   ● F-measure在处理多数类时,4个到6个数据集时是最好的
   ● G平均值方法在处理4个到6个数据集时是最好的
   ● AUC在处理4个到6个数据集时是最好的
   ●整体正确率在处理到6个数据集时能得到最好的值
   这些结果证明了之前提到的算法的有效性。
   为了提高E-AdSampling方法,自动地集合邻近数据用来合成样本是很有必要的,并且合成样本的百分比是根据数据集得到的,运用E-AdSampling方法来提高数据集的不平衡(达到1:10000或者更多)是不是一个很好的方法?使用更多的类实施这种方法是否有必要?为了提高计算速率,为多数类采用另外一种欠采样技术会不会更好?这些问题都是未来需进一步要探讨的问题,在测量准确率方面,用成本曲线将是一种很好的办法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号