首页> 中文学位 >非平衡数据集分类方法研究及其在电信行业中的应用
【6h】

非平衡数据集分类方法研究及其在电信行业中的应用

代理获取

摘要

近年来,非平衡数据集分类问题一直是数据挖掘和机器学习领域的研究难点。所谓非平衡数据集分类问题,是指训练样本数量存在类分布不平衡的模式分类问题。在许多实际问题中,数据集是非平衡的,即某些类的样本量比其他类少得多。当使用传统的机器学习算法来解决该问题时,往往会出现少数类的预测准确率大大低于多数类的情况,从而导致分类器性能大幅度下降。本论文针对非平衡数据集分类困难的问题,尤其是少数类识别困难问题,提出一种新的算法——AdaBoost-SVM-OBMS,该算法结合集成算法和采用错分样本点生成新样本点的过抽样技术。同时,在研究电信数据集特点和非平衡数据集分类方法的基础上,针对电信数据挖掘的常用主题——欠费挖掘,对电信欠费预测做了深入的研究和探讨。论文的主要研究工作如下:
   1.针对非平衡数据集分类问题,本文提出一种新的算法——AdaBoost-SVM-OBMS。该算法结合boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻样本间随机产生一定数量与错分样本点同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别率。在AUC,F-value和G-mean等3个不同价格的评价指标下,针对8个benchmark数据集上对AdaBoost-SVM-OBMS算法进行了实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的对少数类和多数类具有较高的预测准确率。
   2.针对电信欠费数据挖掘本身的特点,结合电信行业专家经验,提出一种处理电信欠费数据集的分类策略,并应用于实际电信数据,取得了一些有价值的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号