经典集成学习算法的有效性解释及算法改进研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

如何有效地对未知类别的新样例进行分类是数据挖掘领域中一项非常重要的研究课题。集成学习作为解决这一问题的一种强有力的技术自提出以来受到了广泛的关注和研究，并在实际应用中取得了极大的成功。集成学习已发展成数据挖掘领域中的一个重要研究分支。目前学者们已经提出了一些经典的集成学习算法，如Bagging、AdaBoost、DECORATE等，并取得了一些重要的研究成果。然而，对于这些集成学习算法的有效性，还不存在一种对其进行充分解释的较为通用的理论工具；此外，在特定训练环境下某些集成学习算法的性能还不够理想。本文致力于解决这些问题，具体的，可将本文的主要贡献总结如下。
　　（1）由于不同的集成学习算法是学者们从不同角度提出的，自然的它们具有不同的工作机理。因此，若能从理论上对现有的经典集成学习算法的有效性进行分析，可使人们对这些算法产生更深刻的理解，更重要的是有助于发现一种能对集成学习算法有效性进行解释的较为通用的理论工具，从而为设计新的有效集成学习算法提供一定的理论指导。受margin理论所启发，本文尝试使用该理论对Bagging、AdaBoost和 DECORATE这三种最有代表性的经典集成学习算法的有效性进行实证分析和比较。实验结果表明，对于探讨的每种集成学习算法，它在训练集上生成的margin分布越好，则其取得的测试精度就越高。也就是说，margin理论能够很好地解释这些算法的有效性。因此可得出结论：margin理论是对集成学习算法的有效性进行解释的一种较为通用的理论工具。基于这一发现，本文建议将margin分布作为设计新的集成学习算法时的优化目标。
　　（2）为了得到理想的泛化性能，集成学习算法通常生成大量的基分类器来构成集成系统。然而在得到的集成系统中，可能存在一些精度较低或者相似的分类器，这不仅会增加集成系统的存储和计算开销而且会降低它的分类效率和泛化性能。为解决这一问题，本文提出了一种基于平均margin排序的基分类器选择方法，以便从初始集成系统中选择一个近似最优的分类器子集。该方法使用平均margin作为性能评价度量来对初始集成中个体分类器的性能进行评估。另外，本文还将平均margin与accuracy和diversity这两种常用的性能评价度量进行了全面比较。实验结果表明，本文的基分类器选择方法能有效地提高初始集成系统的分类效率和泛化性能，并且平均margin是一种比accuracy和diversity更好的性能评价度量。这对改善数据挖掘中分类任务的性能具有重要的理论和实践意义。
　　（3）在一些多分类问题中，训练集有时会包含很多类标签被错误标记的噪声样例。集成学习算法AdaBoost对这些误标记噪声样例非常敏感并且容易产生过度拟合，从而对误标记噪声样例不具有鲁棒性。针对这一问题，本文提出了一种鲁棒的误标记噪声数据多分类方法Rob_MulAda。在 Rob_MulAda中，形式地设计了一种基于噪声检测的多分类损失函数，并通过证明一个命题求解了其最小化问题；另外，给出了一种新的权值更新方式来克服误标记噪声样例的影响。在不同的噪声水平下将Rob_MulAda与其它几种相关方法进行了详细的实验比较，实验结果表明Rob_MulAda能够很好地改善AdaBoost在多分类问题中对误标记噪声样例的鲁棒性。
　　（4）很多实际应用中收集的训练集往往具有不平衡的类分布。由于大多数基分类器学习算法被提出时都基于这一假设：训练集应该具有大体平衡的类分布，因此它们在类不平衡训练集上生成的分类器通常具有较差的泛化性能，尤其是对少数类样例不能有效地进行分类。鉴于集成学习在提高个体分类器性能方面的优势，本文尝试利用集成学习来提高分类器在类不平衡训练环境下的泛化性能，提出了一种基于进化欠抽样的Bagging集成方法EUS-Bag。在EUS-Bag中，为了使进化欠抽样EUS更加适合Bagging框架、以生成一些具有良好性能且多样化的个体分类器，本文设计了一种考虑了三个因素的新适应度函数，从而更好地将EUS和Bagging的优势进行结合。在类不平衡数据集上进行的比较实验表明，EUS-Bag能够有效地提高分类器对类不平衡数据的分类性能。

著录项

作者
孙博;
展开▼
作者单位

南京航空航天大学;

展开▼
授予单位南京航空航天大学;
学科计算机科学与技术
授予学位博士
导师姓名王建东;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
集成学习算法; 样例分类; 分类器; margin理论; 集成剪枝; 鲁棒性;

相似文献

中文文献
外文文献
专利

1. 集成学习在粒子群优化算法改进中的应用 [J] . 施彦 . 计算机应用 . 2009,第003期
2. 基于集成学习算法的带钢表面缺陷分类算法研究 [J] . 宗德祥 ,蒋渝 ,何永辉 . 宝钢技术 . 2021,第003期
3. 集成学习有效性研究 [J] . 周济 ,文志强 ,林海龙 . 软件导刊 . 2014,第006期
4. 集成学习有效性研究 [J] . 周济 ,文志强 ,林海龙 . 软件导刊 . 2014,第006期
5. 实事求是:一种中国经典解释学模式——评崔发展的《乾嘉汉学的解释学模式研究》 [J] . 郭萍 . 国际儒学论丛 . 2019,第002期
6. DSD算法改进及有效性分析 [C] . 杨金民 ,张大方 . '98全国计算机测试与诊断学术会议 . 1998
7. 关联规则经典算法改进及其在商业智能上的应用研究 [A] . 任厦 . 2006

经典集成学习算法的有效性解释及算法改进研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅