首页> 外文OA文献 >New definitions of margin for multi-class Boosting algorithms
【2h】

New definitions of margin for multi-class Boosting algorithms

机译:多类Boosting算法的边距的新定义

摘要

La familia de algoritmos de Boosting son un tipo de técnicas de clasificación y regresión que han demostrado ser muy eficaces en problemas de Visión Computacional. Tal es el caso de los problemas de detección, de seguimiento o bien de reconocimiento de caras, personas, objetos deformables y acciones. El primer y más popular algoritmo de Boosting, AdaBoost, fue concebido para problemas binarios. Desde entonces, muchas han sido las propuestas que han aparecido con objeto de trasladarlo a otros dominios más generales: multiclase, multilabel, con costes, etc. Nuestro interés se centra en extender AdaBoost al terreno de la clasificación multiclase, considerándolo como un primer paso para posteriores ampliaciones. En la presente tesis proponemos dos algoritmos de Boosting para problemas multiclase basados en nuevas derivaciones del concepto margen. El primero de ellos, PIBoost, está concebido para abordar el problema descomponiéndolo en subproblemas binarios. Por un lado, usamos una codificación vectorial para representar etiquetas y, por otro, utilizamos la función de pérdida exponencial multiclase para evaluar las respuestas. Esta codificación produce un conjunto de valores margen que conllevan un rango de penalizaciones en caso de fallo y recompensas en caso de acierto. La optimización iterativa del modelo genera un proceso de Boosting asimétrico cuyos costes dependen del número de etiquetas separadas por cada clasificador débil. De este modo nuestro algoritmo de Boosting tiene en cuenta el desbalanceo debido a las clases a la hora de construir el clasificador. El resultado es un método bien fundamentado que extiende de manera canónica al AdaBoost original. El segundo algoritmo propuesto, BAdaCost, está concebido para problemas multiclase dotados de una matriz de costes. Motivados por los escasos trabajos dedicados a generalizar AdaBoost al terreno multiclase con costes, hemos propuesto un nuevo concepto de margen que, a su vez, permite derivar una función de pérdida adecuada para evaluar costes. Consideramos nuestro algoritmo como la extensión más canónica de AdaBoost para este tipo de problemas, ya que generaliza a los algoritmos SAMME, Cost-Sensitive AdaBoost y PIBoost. Por otro lado, sugerimos un simple procedimiento para calcular matrices de coste adecuadas para mejorar el rendimiento de Boosting a la hora de abordar problemas estándar y problemas con datos desbalanceados. Una serie de experimentos nos sirven para demostrar la efectividad de ambos métodos frente a otros conocidos algoritmos de Boosting multiclase en sus respectivas áreas. En dichos experimentos se usan bases de datos de referencia en el área de Machine Learning, en primer lugar para minimizar errores y en segundo lugar para minimizar costes. Además, hemos podido aplicar BAdaCost con éxito a un proceso de segmentación, un caso particular de problema con datos desbalanceados. Concluimos justificando el horizonte de futuro que encierra el marco de trabajo que presentamos, tanto por su aplicabilidad como por su flexibilidad teórica. Abstract The family of Boosting algorithms represents a type of classification and regression approach that has shown to be very effective in Computer Vision problems. Such is the case of detection, tracking and recognition of faces, people, deformable objects and actions. The first and most popular algorithm, AdaBoost, was introduced in the context of binary classification. Since then, many works have been proposed to extend it to the more general multi-class, multi-label, costsensitive, etc... domains. Our interest is centered in extending AdaBoost to two problems in the multi-class field, considering it a first step for upcoming generalizations. In this dissertation we propose two Boosting algorithms for multi-class classification based on new generalizations of the concept of margin. The first of them, PIBoost, is conceived to tackle the multi-class problem by solving many binary sub-problems. We use a vectorial codification to represent class labels and a multi-class exponential loss function to evaluate classifier responses. This representation produces a set of margin values that provide a range of penalties for failures and rewards for successes. The stagewise optimization of this model introduces an asymmetric Boosting procedure whose costs depend on the number of classes separated by each weak-learner. In this way the Boosting procedure takes into account class imbalances when building the ensemble. The resulting algorithm is a well grounded method that canonically extends the original AdaBoost. The second algorithm proposed, BAdaCost, is conceived for multi-class problems endowed with a cost matrix. Motivated by the few cost-sensitive extensions of AdaBoost to the multi-class field, we propose a new margin that, in turn, yields a new loss function appropriate for evaluating costs. Since BAdaCost generalizes SAMME, Cost-Sensitive AdaBoost and PIBoost algorithms, we consider our algorithm as a canonical extension of AdaBoost to this kind of problems. We additionally suggest a simple procedure to compute cost matrices that improve the performance of Boosting in standard and unbalanced problems. A set of experiments is carried out to demonstrate the effectiveness of both methods against other relevant Boosting algorithms in their respective areas. In the experiments we resort to benchmark data sets used in the Machine Learning community, firstly for minimizing classification errors and secondly for minimizing costs. In addition, we successfully applied BAdaCost to a segmentation task, a particular problem in presence of imbalanced data. We conclude the thesis justifying the horizon of future improvements encompassed in our framework, due to its applicability and theoretical flexibility.
机译:Boosting系列算法是一种分类和回归技术,已被证明对计算视觉问题非常有效。在检测,跟踪或识别面部,人物,可变形物体和动作等问题时就是这种情况。第一个也是最受欢迎的Boosting算法AdaBoost是针对二进制问题而设计的。从那时起,出现了许多提议,以将其转移到其他更通用的领域:多类,多标签,带有成本等。我们的兴趣集中在将AdaBoost扩展到多类分类的领域,将其作为后续扩展的第一步。本文基于保证金概念的新推导,提出了两种针对多类问题的Boosting算法。其中第一个是PIBoost,旨在通过将问题分解为二进制子问题来解决该问题。一方面,我们使用矢量编码来表示标签,另一方面,我们使用多类指数损失函数来评估响应。这种编码产生了一组保证金值,这些保证金值包含一系列的失败惩罚和打击奖励。迭代模型优化会生成一个不对称的Boosting过程,其成本取决于每个弱分类器分隔的标签数量。这样,我们的Boosting算法在构建分类器时会考虑由于类引起的不平衡。结果是一种有充分根据的方法,可以规范地扩展原始的AdaBoost。提出的第二种算法BAdaCost用于具有成本矩阵的多类问题。受少数致力于将AdaBoost推广到具有成本的多类地形的工作的启发,我们提出了一种新的保证金概念,该概念又使我们能够得出足够的损失函数来评估成本。我们认为我们的算法是针对此类问题的最典型的AdaBoost扩展,因为它可以概括为SAMME,成本敏感型AdaBoost和PIBoost算法。另一方面,当解决标准问题和数据不平衡问题时,我们建议一个简单的过程来计算合适的成本矩阵,以提高Boosting性能。一系列实验帮助我们证明了这两种方法相对于各自领域中其他著名的多类Boosting算法的有效性。在这些实验中,参考数据库用于机器学习领域,首先是为了最大程度地减少错误,其次是为了最小化成本。此外,我们已经能够成功地将BAdaCost应用于细分过程,这是不平衡数据问题的特殊情况。最后,通过论证当前框架的适用性和理论灵活性来证明其合理性。摘要Boosting算法家族代表了一种分类和回归方法,已证明在计算机视觉问题中非常有效。检测,跟踪和识别面部,人物,可变形物体和动作的情况就是这种情况。在二进制分类的背景下,引入了第一个也是最受欢迎的算法AdaBoost。从那时起,已经提出了许多工作来将其扩展到更通用的多类,多标签,成本敏感等领域。我们的兴趣集中在将AdaBoost扩展到多类领域中的两个问题上,这是即将到来的概括的第一步。本文基于对边际概念的新概括,提出了两种用于多类分类的Boosting算法。他们中的第一个是PIBoost,旨在通过解决许多二进制子问题来解决多类问题。我们使用矢量编码来表示类标签,并使用多类指数损失函数来评估分类器响应。这种表示产生了一组保证金值,这些保证金值提供了一系列针对失败的惩罚和针对成功的奖励。该模型的阶段性优化引入了非对称的Boosting过程,其成本取决于每个弱学习者分离的类的数量。这样,Boosting过程会在构建合奏时考虑类的不平衡。生成的算法是一种有基础的方法,可以规范地扩展原始AdaBoost。提出的第二种算法BAdaCost用于具有成本矩阵的多类问题。受AdaBoost对多类别字段的一些对成本敏感的扩展的推动,我们提出了一个新的保证金,从而产生了适合评估成本的新损失函数。由于BAdaCost概括了SAMME,因此成本敏感型AdaBoost和PIBoost算法,我们认为我们的算法是AdaBoost对此类问题的规范扩展。我们另外建议一个简单的过程来计算成本矩阵,以提高标准问题和不平衡问题中Boosting的性能。进行了一组实验,以证明这两种方法在各自领域相对于其他相关Boosting算法的有效性。在实验中,我们诉诸于机器学习社区中使用的基准数据集,首先是为了最小化分类错误,其次是为了最小化成本。此外,我们成功地将BAdaCost应用于细分任务,这是存在不平衡数据时的一个特殊问题。我们得出结论,由于其适用性和理论灵活性,本文为我们框架中包含的未来改进的前景辩护。

著录项

  • 作者

    Fernández Baldera Antonio;

  • 作者单位
  • 年度 2015
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号