提高数据仓库位图索引的效率

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前,在频繁项目集挖掘处理上已经发展的比较成熟,并在常规数据库中得到了应用。然而这种仅对频繁集的挖掘并没有多大的指导意义,因为这种挖掘只反映了数据库中包含该项目集交易数量,它不能真实的反映那些能衡量成本效益或者其他的用户偏好的项目集中。同时频繁项目集往往只贡献了总利润的小部分,而非频繁项集则占了大部分的利润比例。
　　通常数据集里蕴含着不同价值的数据信息,一个零售企业的兴趣更多的集中在一些最有价值的客户(企业主要利润来源的客户)身上。因此频率不能充分的回答那个项目集是高利润的项目集而那个项目集是具有重要影响的项目集这一问题。在大量重要的数据挖掘任务中,如关联规则挖掘和长模式,新兴的模式和依赖规则挖掘等。从负项集中发现高利用价值项无论是在理论还是实践中都起着至关重要的作用。效用挖掘的目标是利用负项集找出实用价值高的项目集,这些项目集占了总效用的很大一部分。本研究的目的是通过效用挖掘以识别出高利用价值的数据集。在先前的一些应用中,数据集的价值都是来自具有正相关效用的数据集,然而数据集可能具有负相关的价值。从负相关的数据集中发现具有高价值的数据项,对于兴趣挖掘模式来说是一个重要的处理过程,像利用关联规则从大规模数据库中的挖掘。同时实现从负相关的数据项中挖掘实用价值高的数据集是一件有利的、意义重大的研究,我们的贡献是能利用很少的计算资源有效的挖掘出高价值的数据集。通过这种方法,利用负相关项能有效的挖掘出高价值数据集,且仅需要很少的内存空间。
　　本文的目标是提出一个利用负项相关集挖掘出高利用价值数据集的高效算法,我们的算法HUIWNIV-Mine将聚焦在通过使用不带负值交易的项目集,减少候选项目集和CPU的I/O上来加快响应时间,本质上就是在一个大型交易数据库中消除负项值。
　　为了理解HUIWNIV(High Utility Itemsets With Negative Item Values)的思想,我们通过例子来说明。例如：许多超市可能举行一些购买特殊商品获赠其他商品的促销活动,以吸引顾客,而那些免费赠送的商品对于超市来说就是负项集(也就是没有利润获得反而亏损的商品)。然而,超市可能从其他交叉促销商品项中获得更高的利润。这种做法很常见。例如,如果一个消费者买了4项A,他将同时获得免费赠送的一个B。假设超市买出一个A获得4美元的利润,赠送一个B损失3美元。尽管赠送一个B导致超市损失了3美元,但是能从交叉促销商品A中赚16美元。最终超市从本次促销中获得了13美元的利润。
　　我们可以定义数据项目集X的效用为u(X),它代表包含X的所有交易的总和。效用挖掘的目标是要找出高实用性的项目集,这些项目集占了总效用的很大一部分。传统的关联规则挖掘模型假设每项的效用总为1并且销售量为0或1,因此这只是效用挖掘中一种特殊情况。而在真正的效用挖掘中的每个项的效用和销售量可以为任意值。如果u(X)比指定的效用门限好,X则为高效用项目集;否则为低效用项目集。
　　 HUIWNIV-Mine算法在数据库中利用一个阈值来处理产生的交易权重效用值。该算法能舍弃一些低价值数据集,但是不会遗漏任何的高价值的数据集,数据集中的每个负相关的数据项将不会是高价值数据集。在产生的数据集中至少有一个数据项是有正价值的,或者需要的数据集不必去扫描数据库,因此,HUIWNIV-Mine算法通过一些数据项能输出真正的具有高交易权重效用的候选数据集。
　　 HUIWNIV-Mine算法的新颖性在于它能有效的通过负相关集挖掘出高利用价值的数据集,同时只需要少量的处理利用率,像在大规模数据库中挖掘出高价值的数据集,且能减少执行时间。HUIWNIV-Mine在含有负相关项的大规模数据库中挖掘出高价值的数据集中有很好的应用前景。

著录项

作者
KOUASSI KOUADIO SERGE OLIVIER;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科 COMPUTER SCIENCE
授予学位硕士
导师姓名李智勇;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
数据挖掘; 关联规则; 位图索引; HUIWNIV-Mine算法;

相似文献

中文文献
外文文献
专利

1. 位图索引在数据仓库性能优化中的应用 [J] . 汪辉 ,魏书堤 ,梁小满 . 电脑知识与技术 . 2013,第002期
2. 基于层次位图连接索引的数据仓库查询优化 [J] . 周彦 ,陈梅 ,王翰虎 . 计算机技术与发展 . 2011,第003期
3. 数据仓库中位图连接索引的自动选择 [J] . 赵厚宝 ,苏勇 . 江南大学学报（自然科学版） . 2007,第006期
4. 位图索引及其在数据仓库中的应用研究 [J] . 万怀宇 ,黄厚宽 . 铁路计算机应用 . 2006,第012期
5. 数据仓库中一种基于维层次编码的位图索引方法 [J] . 胡孔法 ,董逸生 ,陈崚 . 东南大学学报（自然科学版） . 2005,第002期
6. 构筑更有效率的数据仓库--数据仓库索引技术一览 [C] . 李亚坤 ,赵志刚 . 河北省人工智能学会、计算机学会、自动化学会、电子学会等2005年联合学术年会 . 2005
7. 列存储数据仓库的位图索引研究与实现 [A] . 李清炳 . 2013

提高数据仓库位图索引的效率

目录

摘要

著录项

相似文献

相关主题

期刊订阅