基于极值抽样的关联规则新算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据挖掘与知识发现(Data Mining and Knowledge Discovery简称为KDD)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘任务一般可以分为两类：描述和预测。其中，描述性挖掘任务主要把握数据库中数据的一般特性或者根据数据的相似性把数据分组；预测性挖掘任务在当前数据上进行推断，以进行预测。关联规则挖掘是数据挖掘领域一个非常重要的技术，它由R.Agrawal等人首先提出以解决事务数据库分析等问题。物质或对象之间普遍存在空间位置和时间序列之间关联。关联规则挖掘就是从大量数据中项集之间发现有趣的关联或相关，从而达到认识事物客观规律的技术方法。随着大量数据不停地收集与存储数据库中挖掘关联规则显得越来越重要。本文在对已有的关联规则挖掘的经典算法进行分析，发现原有算法需要扫描多次数据库，而且必须先给定最小支持度，当最小支持度改变的时候，将会导致重新计算关联规则。因此针对搜索速度方面，本文给出基于分类搜索的快速关联规则算法，该算法通过对事务数据进行逻辑分类处理，直接产生满足最小支持度的候选集和频繁集，使数据库的搜索次数不随数据项集数的增大而增大，控制数据库的搜索次数最多为3次，并杜绝“假项”产生，极大地提高了算法的效率。在针对最小支持度的问题上，本文提出一种新算法。新的算法首先从抽样角度入手，创新的给出关联规则极值抽样理论。该理论预先估计出所有支持度为极值的项目集。然后，以所有极值项目集为样本，结合最小二乘支持向量机回归(leastsquares support vector machine，LSSVR)算法，计算出所有项目集的支持度。同时针对事务集在线更新的问题，在LSSVR算法的基础上结合增量学习和逆学习的算法，提出支持事务集在线更新的回归算法RIO SVR。在算法试验阶段，本文用新算法针对相应数据进行测试，并用关联规则的传统算法对同一批数据进行测试，试验结果表明：基于极值抽样的关联规则新算法可以较好实现关联规则项目集支持度的回归。

著录项

作者
黄志炜;
展开▼
作者单位

华南理工大学;

展开▼
授予单位华南理工大学;
学科应用数学
授予学位硕士
导师姓名廖芹;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类专家系统、知识工程;
关键词
抽样; 关联规则算法; 事务数据库; 最小支持度; 项目集; 数据挖掘; 规则挖掘; support vector machine; Knowledge Discovery; 在线更新; 搜索次数; 支持向量机回归; 预测性挖掘; 事务集; 描述性挖掘; 最小二乘; 重新计算; 知识发现; 增量学习; 预先估计;

相似文献

中文文献
外文文献
专利

1. 基于抽样的分布式约束性关联规则挖掘算法研究 [J] . 李宏 ,陈松乔 ,杜剑峰 . 计算机科学 . 2006,第007期
2. 一种新的基于SCBF的流抽样测量算法研究 [J] . 刘渊 ,刘元珍 ,李小航 . 计算机工程与应用 . 2007,第029期
3. 一种新的关联规则抽样算法 [J] . 秦如新 ,陈静 ,冯一宁 . 中国农业大学学报 . 2007,第003期
4. 一种新的关联规则挖掘算法研究 [J] . 韦玉科 ,汪仁煌 ,李江平 . 计算机应用研究 . 2008,第010期
5. 一种新的增量更新多层关联规则算法研究 [J] . 彭佳文 ,彭佳红 . 微电子学与计算机 . 2007,第5期
6. 挖掘关联规则的新抽样算法 [C] . 张兆功 ,李建中 . 第十六届全国数据库学术会议 . 1999
7. 基于数据仓库的关联规则抽样算法研究 [A] . 丁虎 . 2006

基于极值抽样的关联规则新算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅