首页> 中文期刊>计算机工程与设计 >面向机器学习的训练数据集均衡化方法

面向机器学习的训练数据集均衡化方法

     

摘要

为提高机器学习算法对于不均衡数据的建模效果, 提出一种均衡化预处理方法.采用iForest形成每个样本在样本空间中的分布特征评估值, 基于负类 (多数类) 样本的分布特征评估值定义概率分布;根据样本的概率分布, 通过轮盘转算法选取负类样本;通过K-means方法形成若干负类样本聚类中心, 以聚类中心为最终负类选取样本, 实现正负类样本的均衡化.整个过程构成均衡化方法iForest-RM.iForest-RM与其它采样方法在Adaboost模型上的实验对比结果表明, iForest-RM具有更好的均衡化能力, 更好获取样本空间分布特性, 可有效应用于地震相识别.%To improve the modeling effects of machine learning algorithm for unbalanced data, a balanced preprocessing method was proposed.The statistic value of each sample was estimated to express sample feature in the sample space with iForest, and the probability description was formed by the sample estimation.By the probability description, the turn roulette algorithm was adopted to select negative samples (i.e.numerous-label samples).All negative samples were clustered using K-means to a limited amount of clusters, and the each center of cluster was selected as a negative sample to implement the balance between positive and negative samples.All steps were called iForest-RM.With Adaboost as classifier, the comparison of iForest-RM to other sampling methods by the experiments indicates that iForest-RM has better balanced performance than others, implying that iForest-RM maintains the sample space feature.iForest-RM is successfully applied in the recognition of seismic phrase lithology.

著录项

  • 来源
    《计算机工程与设计》|2019年第3期|812-818|共7页
  • 作者单位

    中国石油大学(北京) 石油数据挖掘北京市重点实验室,北京 102249;

    中国石油大学(北京) 地球物理与信息工程学院,北京 102249;

    北京兆信信息技术股份有限公司 石大兆信数字身份管理与物联网技术研究院,北京 102249;

    中国石油大学(北京) 石油数据挖掘北京市重点实验室,北京 102249;

    中国石油大学(北京) 地球物理与信息工程学院,北京 102249;

    中国石油大学(北京) 石油数据挖掘北京市重点实验室,北京 102249;

    中国石油大学(北京) 地球物理与信息工程学院,北京 102249;

    北京兆信信息技术股份有限公司 石大兆信数字身份管理与物联网技术研究院,北京 102249;

    北京兆信信息技术股份有限公司 石大兆信数字身份管理与物联网技术研究院,北京 102249;

    北京兆信信息技术股份有限公司 石大兆信数字身份管理与物联网技术研究院,北京 102249;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 算法理论;
  • 关键词

    数据预处理; 不均衡数据; 隔离森林; 均值聚类; 轮盘转算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号