基于关联规则的不平衡数据分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

基于关联规则的分类方法即关联分类算法，是数据挖掘中非常重要的一个领域，因解释说明性强，分类精度高等特点已经成为智能决策领域的研究热点。然而，不平衡数据的出现给关联分类算法带来了挑战。在现实生活中存在很多不平衡数据集的应用，比如入侵检测、森林火灾、信用欺诈等等。在这些应用中，人们关心的更多是对少数类的分类精度，因为它的错误分类产生的代价是非常大的。因此，在实际应用中非常有必要提高不平衡数据的分类精度，尤其是少数类的分类精度。
　　对于关联分类算法不能很好地处理不平衡数据，主要有两方面的原因:一是关联分类使用的兴趣度量往往是基于“置信度-支持度”架构的，对于不平衡数据集，无论将其设置得或高或低，都会产生极少与少数类有关的规则或大量无用的规则。兴趣度量起着至关重要的作用，它参与了规则的生成、剪枝和排序的过程，所以选择合适的兴趣度量对提高关联分类算法处理不平衡数据的性能非常有必要。二是因为类分布不均的不平衡数据会导致分类算法往往倾向于多数类，容易忽略少数类起到的作用，使得生成的规则质量较差。针对以上原因本文主要从以下两个方面展开研究:
　　(1)从兴趣度量角度着手，旨在找到合适的兴趣度量，从而提高关联分类方法处理不平衡数据的性能。一方面本文提出了稳定强关联度量挖掘(Stable Strongly CorrelatedMeasures Mining)方法找到在不平衡数据下普遍存在强关联关系的度量集，进而分析其行为。另一方面，为了选出所有优秀的度量，本文基于分类精度实现了对所有兴趣度量在不同类分布下的排序，经过筛选和行为分析得到了具有不同特点的两组相对优秀的度量集。
　　(2)从数据和规则层次着手，旨在保证规则的质量，从而提高关联分类对不平衡数据集的分类精度。首先在数据层次，本文提出关键值抽样(Key Value Sampling)法对原始训练集进行抽样，通过增加与少数类相关性强的数据，减少与多数类相关性弱的数据来达到数据类分布平衡。其次在规则层次，本文充分利用了关联分类产生的分类器能够实现修改个别规则而不影响其它规则的特点，对初步生成的分类器进行了规则验证(RuleValidation)，并对分类效果不好的规则进行修改，从而提高整个分类器的性能。
　　综上分析，本文分别从优秀度量的选择和算法的改进两方面对提高关联分类处理不平衡数据精度展开研究，两方面的工作均能在一定程度上提高关联分类处理不平衡数据的性能，并通过数值实验说明了实验结果的有效性和结论的可靠性。

著录项

作者
崔雪娇;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科管理科学与工程
授予学位硕士
导师姓名杨光飞;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
不平衡数据; 关联分类; 关联度量挖掘; 关键值抽样; 规则验证;

相似文献

中文文献
外文文献
专利

1. 一种基于代价敏感集成决策树的不平衡数据分类方法研究 [J] . 张珏 ,田建学 ,董婷 . 榆林学院学报 . 2021,第002期
2. 一种基于SVM的不平衡数据分类方法研究 [J] . 张剑飞 ,王真 ,崔文升 . 东北师大学报：自然科学版 . 2020,第3期
3. 基于支持向量机的不平衡数据集分类方法研究 [J] . 杨智明 ,彭宇 ,彭喜元 . 仪器仪表学报 . 2009,第5期
4. 基于关联规则的学生分类方法研究 [J] . 李璐 . 中国科教创新导刊 . 2013,第031期
5. 面向不平衡数据的隐式篇章关系分类方法研究 [J] . 朱珊珊 ,洪宇 ,丁思远 . 中文信息学报 . 2015,第006期
6. 基于支持度-显著度的关联规则分类方法研究 [C] . 叶强 ,李一军 . 第八届全国青年管理科学与系统科学学术会议 . 2005
7. 基于深度学习的不平衡数据集分类的方法研究 [A] . 彭晓婷 . 2021

基于关联规则的不平衡数据分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅