首页> 中文学位 >不平衡数据集下二元分类方法及其应用研究
【6h】

不平衡数据集下二元分类方法及其应用研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着数据时代的到来,机器学习成为一门数据驱动的科学。机器学习的基本任务是拟合数据的分布,主要包含监督学习,无监督学习和半监督学习方法等。在二元分类问题中,当用于分类的负样本数远高于正样本数量时,会导致不均衡数据问题,即分类算法会减少对负样本的关注,倾向于将正样本判定为负样本,导致数据的整体准确率较高,但是正样本的准确率较低。在数据挖掘和机器学习领域,这样的问题经常出现,如信用卡伪造检测,工业产品合格检测等。在不均衡数据集下,传统的分类算法通常难以奏效。从不平衡的数据集中学习数据的分布,也成为了机器学习领域中经久不衰的问题。 已有的解决不平衡数据下分类问题的方法主要可以从三个角度来阐释:从数据层面,采用上采样或者下采样的方法使得数据趋近于平衡;从算法角度,调整算法的决策阈值或者调整类的权重;从对数据的利用层面,舍弃原有数据的标签,使用异常检测的方法。最后,使用ROC曲线而不是准确度来正确评估算法的性能。已有的不均衡数据下二元分类方法较为单一,没有形成系统的理论架构,无法根据场景来自动的选择算法。本文系统了地研究了不平衡数据集下的二元分类方法,针对两种不同的场景,提出了两种不平衡数据下的二元分类方法,并将其应用在实际问题中。 当数据量较小,正负样本比例为1:10到1:20时,本文提出了一种基于异常检测的不平衡数据下的二元分类方法—ADUBC,该方法在训练阶段舍弃了样本的标签信息,使用异常检测的方法即无监督学习的方法来建立二分类模型,并使用交叉验证和网格搜索进行模型的选择和调参,最后使用了正类的查准率、查全率、F1 值和 AUC 值来进行模型的评估。本文将ADUBC方法应用到企业破产预测模型上,通过实验确认了使用 ADUBC 方法建立企业破产预测模型的可行性和有效性,并通过实验证明通过ADUBC方法建立的预测模型比有监督学习方法性能更好。 当数据量较大,正负样本极其不平衡时,本文提出了基于一种基于集成学习的不平衡数据下的二元分类方法—EMUBC,EMUBC 方法使用下采样来改善样本的不均衡性,使用Stacking集成方法来提高了算法的泛化能力,同时使用查准率、查全率、F1 值和 AUC 来评价算法的性能。本文用EMUBC方法来建立交易反欺诈模型。在建立交易反欺诈模型的项目中,本文使用hadoop对交易记录进行二次排序,并计算衍生变量,使用皮尔逊系数进行特征检验。实验首先建立了单机版本的分类模型作为基分类器的候选模型,其次使用了单机版本的随机森林和分布式版本的随机森林来建立分类模型,最后通过EMUBC方法来建立了交易反欺诈模型。实验表明,通过EMUBC方法建立交易反欺诈模型最好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号