首页> 中文学位 >基于关联规则的不平衡数据分类方法研究
【6h】

基于关联规则的不平衡数据分类方法研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 关联分类研究现状

1.2.2 不平衡数据分类研究现状

1.3 研究思路

2 关联分类基本方法概述

2.1 关联分类的定义

2.2 关联分类方法流程

2.3 本章小结

3 针对不平衡数据关联分类兴趣度量的行为分析及选择

3.1 稳定强关联度量挖掘

3.1.1 基本原理

3.1.2 方法设计

3.2 兴趣度量选择

3.2.1 基本原理

3.2.2 方法设计

3.3 数值实验

3.3.1 实验数据

3.3.2 实验结果及分析

3.4 本章小结

4 基于关键值抽样和规则验证的不平衡数据关联分类方法

4.1 关键值抽样法

4.1.1 基本原理

4.1.2 方法设计

4.2 规则验证法

4.2.1 基本原理

4.2.2 方法设计

4.3 数值实验

4.3.1 实验数据

4.3.2 实验结果及分析

4.4 本章小结

结论

参考文献

附录

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

基于关联规则的分类方法即关联分类算法,是数据挖掘中非常重要的一个领域,因解释说明性强,分类精度高等特点已经成为智能决策领域的研究热点。然而,不平衡数据的出现给关联分类算法带来了挑战。在现实生活中存在很多不平衡数据集的应用,比如入侵检测、森林火灾、信用欺诈等等。在这些应用中,人们关心的更多是对少数类的分类精度,因为它的错误分类产生的代价是非常大的。因此,在实际应用中非常有必要提高不平衡数据的分类精度,尤其是少数类的分类精度。
  对于关联分类算法不能很好地处理不平衡数据,主要有两方面的原因:一是关联分类使用的兴趣度量往往是基于“置信度-支持度”架构的,对于不平衡数据集,无论将其设置得或高或低,都会产生极少与少数类有关的规则或大量无用的规则。兴趣度量起着至关重要的作用,它参与了规则的生成、剪枝和排序的过程,所以选择合适的兴趣度量对提高关联分类算法处理不平衡数据的性能非常有必要。二是因为类分布不均的不平衡数据会导致分类算法往往倾向于多数类,容易忽略少数类起到的作用,使得生成的规则质量较差。针对以上原因本文主要从以下两个方面展开研究:
  (1)从兴趣度量角度着手,旨在找到合适的兴趣度量,从而提高关联分类方法处理不平衡数据的性能。一方面本文提出了稳定强关联度量挖掘(Stable Strongly CorrelatedMeasures Mining)方法找到在不平衡数据下普遍存在强关联关系的度量集,进而分析其行为。另一方面,为了选出所有优秀的度量,本文基于分类精度实现了对所有兴趣度量在不同类分布下的排序,经过筛选和行为分析得到了具有不同特点的两组相对优秀的度量集。
  (2)从数据和规则层次着手,旨在保证规则的质量,从而提高关联分类对不平衡数据集的分类精度。首先在数据层次,本文提出关键值抽样(Key Value Sampling)法对原始训练集进行抽样,通过增加与少数类相关性强的数据,减少与多数类相关性弱的数据来达到数据类分布平衡。其次在规则层次,本文充分利用了关联分类产生的分类器能够实现修改个别规则而不影响其它规则的特点,对初步生成的分类器进行了规则验证(RuleValidation),并对分类效果不好的规则进行修改,从而提高整个分类器的性能。
  综上分析,本文分别从优秀度量的选择和算法的改进两方面对提高关联分类处理不平衡数据精度展开研究,两方面的工作均能在一定程度上提高关联分类处理不平衡数据的性能,并通过数值实验说明了实验结果的有效性和结论的可靠性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号