首页> 中国专利> 一种基于改进Apriori算法的数据库关联规则挖掘方法

一种基于改进Apriori算法的数据库关联规则挖掘方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出了一种基于改进Apriori算法的数据库关联规则挖掘方法。本方法将事务数据库转化为关系矩阵，转化后的关系矩阵为稀疏矩阵，并使用正交链表存储关系矩阵。频繁项目集的产生过程转化为对应关系矩阵中项目所对应单链表节点集合的运算过程。本方法只需扫描数据库一遍，克服了Apriori及其相关算法产生大量候选集和需多次扫描数据库的缺点，减少了频繁进行I/O操作的时间；其次，生成和发现频繁2-项集时只需要进行节点集合的交运算，耗费时间较少，并且对生成的频繁k-项集构造单链表进行记录，简化了频繁k+1项集的生成过程，避免了Apriori算法复杂的剪枝过程。

著录项

公开/公告号CN105320756A

专利类型发明专利
公开/公告日2016-02-10

原文格式PDF
申请/专利权人江苏省邮电规划设计院有限责任公司;
展开▼

申请/专利号CN201510666724.4
发明设计人赵学健;袁源;孙知信;乔爱锋;
展开▼

申请日2015-10-15
分类号G06F17/30(20060101);
代理机构32237 江苏圣典律师事务所;
代理人胡建华
地址 210000 江苏省南京市建邺区楠溪江东街58号
入库时间 2023-12-18 14:21:19

法律信息

法律状态公告日

法律状态信息

法律状态
2018-07-10

授权

授权
2018-06-01

著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20151015

著录事项变更
2016-03-09

实质审查的生效 IPC(主分类):G06F17/30 申请日:20151015

实质审查的生效
2016-02-10

公开

公开

说明书

技术领域

本发明公开了一种基于改进Apriori算法的数据库关联规则挖掘方法，重点涉及在用正交链表存储矩阵表示事务数据库的基础上，对Apriori算法的频繁项目集生成过程进行改造优化，属于计算机数据挖掘及信息处理技术领域。

背景技术

在大数据技术发展如火如荼的今天，人们逐渐意识到数据即是财富，尤其是对商业数据的分析更具有巨大的实用价值。关联规则分析作为数据挖掘的主要手段之一，是数据挖掘技术中不可或缺的一个重要组成部分，主要用于发现大型事务数据库中隐含的有价值的令人感兴趣的联系及规则。因此，对关联规则算法的研究具有非常重要的意义。

早在1993年，IBM的计算机科学家R.Agrawal等人在顾客交易数据库中发现了顾客在购买商品时的购买规律，提出了事务之间的相关性模式，即最初的关联规则。关联规则通常是一种不复杂但实用性却很高的规则。通过关联规则分析，我们可以将事务项集与项集之间的关系挖掘出来。关联规则分析最典型的应用是购物篮数据分析，比如经典的{啤酒}→{尿布}规则。除了可以应用于购物篮数据之外，关联规则分析在其它领域的应用也十分广泛，如电子商务个性化推荐，金融服务，广告策划，生物信息学及科学数据分析等。比如说在电子商务个性化推荐中，关联规则可以帮助电子商务网站向具有相似消费行为的顾客进行一些他们可能感兴趣的商品推荐，这样有助于电子商务网站提升用户体验，增加盈利等。

关联规则分析算法较多，其中最经典实用性最好的是Apriori算法及其改进算法。 Apriori算法[1]是由Agrawal和Swami于1994年提出的第一个关联规则算法，应用广泛，该算法通过重复循环执行连接、剪枝生成频繁项目集，从而建立关联规则。基于 Apriori算法，Yang等人提出了Apriori-TFP算法[2]，该算法在关联规则挖掘过程中，将原始数据进行预处理并存储在局部支持树中，最后生成关联规则。该算法通过有效的预处理，降低了关联规则挖掘的时间，但是需要扫描数据库的次数仍然较多。Zhang 等人提出了GP-Apriori算法[3]，GP-Apriori算法采用图形处理器(GraphicalProcessing Unit，GPU)进行并行化的支持度计数，并将垂直交易列存储为线性有序阵列。GPU 通过遍历该有序阵列，并执行按位交叉实现支持度计算，并将结果复制回内存。与传统CPU上运行的Apriori算法相比，GP-Apriori算法由于采用了先进的GPU提高了运行速率，但是复杂性反而有所增长。Delighta等人也提出了Apriori的改进算法(Apriori MendAlgorithm)[4]。该算法使用哈希函数生成项目集，用户必须指定最小支持度以删除不需要的项集。该算法具有比传统Apriori算法更好的效率，但是执行时间有所增加。Ning等基于MapReduce框架实现了乐Apriori算法的并行化[5]。该算法在处理海量数据集时具有良好的可扩展性和效率，但是该算起需要强大的计算和存储能力支撑，通常运行在集群环境中。Sulianta等人在文献[6]中尝试将Apriori算法应用于多维数据分析，探讨了在多维数据中建立关联规则更加具体有效的方法。Sheila等人在文献[7] 中对Apriori算法进行了改进，引入了事务尺寸和事务规模的概念以消除非重要项目的影响。Feng等人在文献[8]中提出了一种基于矩阵的Apriori算法，该算法通过矩阵有效的表示数据库的各种操作，并用基于矩阵的AND操作得到最大的频繁项目集。Hu 等人在文献[9]中应用关系理论思想，引入了项目可辨识向量及其“与”运算，设计了一种快速挖掘算法-SLIG(Single-levelLargeItemsetsGeneration)算法，将频繁项目集的产生过程转化为项目集的关系矩阵中向量运算过程。该算法克服了Apriori及其相关算法产生大量候选集和需多次扫描数据库的缺点，但是需要的存储空间较大。

文献引用

[1]R.Agrawal,R.Srikantetal..Fastalgorithmsforminingassociationrules(挖掘关联规则的快速算法),Proc.20thInt.Conf.VeryLargeDataBases,VLDB,vol.1215,pp.487-499, September1994.

[2]Z.Yang,W.Tang,A.Shintemirov,andQ.Wu.Associationrulemining-baseddissolved gasanalysisforfaultdiagnosisofpowertransformers(基于关联规则挖掘的电力变压器故障诊断溶解气体分析),Systems,Man,andCybernetics,PartC:Applicationsand Reviews,IEEETransactionson,vol.39,no.6,pp.597-610,2009.

[3]F.Zhang,Y.Zhang,andJ.D.Bakos.Gpapriori:Gpu-acceleratedfrequent itemsetmining(基于图形处理器加速的频繁项集挖掘),inCLUSTER.IEEE,2011,pp. 590-594.

[4]I.S.P.J.D.MagdaleneDelightaAngeline.AssociationrulegenerationusingApriorimend algorithmforstudent'splacement(基于改进Apriori算法的关联规则生成算法),vol.2,no. 1,2012,pp.78-86.

[5]N.Li,L.Zeng,Q.He,andZ.Shi.Parallelimplementationofapriorialgorithmbasedon MapReduce(基于MapReduce的Apriori算法的并行实现),inSoftwareEngineering, ArtificialIntelligence,NetworkingandParallelDistributedComputing(SNPD),201213th ACISInternationalConferenceon,2012,pp.236-241.

[6]F.Sulianta,T.H.Liong,andI.Atastina.Miningfoodindustry'smultidimensionaldatato produceassociationrulesusingApriorialgorithmasabasisofbusinessstrategy(基于 Apriori算法的面向食品工业多维数据的企业战略关联规则挖掘算法),inInformation andCommunicationTechnology(ICoICT),2013InternationalConferenceof,2013, pp.176-181.

[7]S.A.Abaya.AssociationruleminingbasedonApriorialgorithminminimizingcandidate generation(基于Apriori算法的最小生成候选关联规则挖掘算法),InternationalJournalof ScientificandEngineeringResearch,vol.3,no.7,pp.1-4,July2012.

[8]WangFeng,LiYong-hua.AnImprovedAprioriAlgorithmBasedontheMatrix(一种基于矩阵的改进Apriori算法),fbie,pp.152-155,2008InternationalSeminaronFuture BioMedicalInformationEngineering,2008.

[9]胡慧蓉,王周敬.一种基于关系矩阵的关联规则快速挖掘算法,计算机应用,2005, 25(7):1577-1579.

发明内容

本发明提出了一种基于改进Apriori算法的数据库关联规则挖掘方法，包括基于正交链表事务存储矩阵的改进Apriori算法-OLA(OrthogonalListApriori)算法。

本发明包括以下步骤：

步骤1，扫描事务数据库D，得到关系矩阵M_a；

步骤2，在计算机内部使用正交链表存储步骤1所述关系矩阵M_a，该正交链表包含三种类型的节点，分别为M节点、H节点和E节点，M节点为正交链表的表头节点； H节点为行/列表头节点，是正交链表中行链表或者列链表的表头节点；E节点为关系矩阵中非零元素对应的节点；三种节点均包含四个域，Tag域、Element域、Right域和 Down域。Tag域为标志域，用以区分三种不同类型的节点。Element域为元素域，对正交链表表头节点来说，元素域中的二元组存储的是对应稀疏关系矩阵的行数和列数，即事务数据库D包含的事务数和项目数；对行表头节点来说，元素域中的二元组表示第几行和该行中包含的非零元素个数；对列表头节点来说，元素域中的二元组表示项目或项目集及该列中的非零元素个数；对非零元素节点来说，元素域中的二元组表示项目或项目集及包含该项目或项目集的事务编号。Right域为指针域，对正交链表表头节点来说其指向第一个列表头节点；对行表头节点来说，其指向该行第一个非零元素节点；对列表头节点来说，其指向下一个列表头节点；对非零元素节点来说，其指向该行下一个非零元素节点。Down域也为指针域，对正交链表表头节点来说其指向第一个行表头节点；对行表头节点来说，其指向下一个列表头节点；对列表头节点来说，其指向该列第一个非零元素节点；对非零元素节点来说，其指向该列下一个非零元素节点；

步骤3，根据步骤2的正交链表计算得到频繁1项集集合L₁以及频繁1项集集合 L₁对应的正交链表；

步骤4，将频繁k-1项集集合L_k-1与自身连接产生候选频繁k项集集合C_k，k为区间[2，∞)内的自然数；

步骤5，利用Apriori性质(频繁项集的所有非空子集也必须是频繁的，如果某个候选的非空子集不是频繁的，那么该候选肯定不是频繁的)对候选频繁项集集合C_k进行剪枝；

步骤6，遍历频繁k-1项集集合及频繁1项集集合对应的正交链表，得到包含项集的事务集合并计算候选频繁k项集集合C_k中成员的支持度，其中i₁为区间[1，N_k]内的自然数，N_k表示候选频繁k项集集合C_k所包含的成员数目；

步骤7，将候选频繁k项集集合C_k中成员的支持度与最小支持度min_support 进行比较，删除支持度小于最小支持度min_support的成员，得到频繁k项集集合L_k，并根据步骤6中所得事务集合构造频繁k项集集合L_k对应的正交链表；

步骤8，重复执行步骤4～步骤7，直到不能发现更大的频繁项目集为止；

步骤9，根据OLA算法最终获得的频繁项集集合为F，则可产生关联规则：

R＝{A->B}，A为频繁项集集合F中任意成员的非空子集，B为A的补集，即∈F，i₂为区间[1,N_f]内的自然数，N_f表示频繁项集集合F所包含的成员数目。

步骤1中，所述关系矩阵M_a如下：

并有：

其中，I＝{I₁，I₂，…，I_|I|}是事务数据库D所包含的项目集合，|I|为数据库D所包含的项目数，|D|为事务数据库包含的事务数，d_ij表示矩阵的元素，i为区间[1,|D|]内的自然数，j为区间[1,|I|]内的自然数。

步骤3中，所述计算过程如下：遍历步骤2得到的正交链表的列表头节点，得到项目集合I＝{I₁，I₂，…，I_|I|}中各项目成员在所有事务中出现的次数，分别为N₁，N₂，…， N_|I|，包含项目集合I_j的事务集合为T({I_j})，根据以下公式计算得到各项目支持度 sup(I_j)：

sup(I_j)＝N_j/|D|,j∈[1,|I|]，

将各项目支持度与所设置最小支持度min_support进行比较，并删除支持度小于最小支持度的项目成员，得到频繁1项集集合L₁，基于频繁1项集集合L₁中各元素对应的事务集合T({I_j})，得到频繁1项集集合L₁对应的正交链表。

步骤4中，参考背景技术中引用文献1，连接过程如下：设m₁和m₂是频繁k-1 项集集合L_k-1的任意两个成员，成员中的项目按字典次序排序，即对于成员有其中表示成员中的第i₄个项目，其中i₃∈{0,1}， i₄∈{1,2,…,k-1}，如果成员m₁和m₂中前k-2个项目均相同，成员m₁的第k-2个项目小于成员m₂的第k-2个项目，即 (m₁[1]＝m₂[1])&&(m₁[2]＝m₂[2])&&…&&(m₁[k-2]＝m₂[k-2])&&(m₁[k-1]<m₂[k-1])，则判定 m₁和m₂是可连接的，连接m₁和m₂产生的结果是{m₁[1],m₁[2],……,m₁[k-1],m₂[k-1]}。

步骤5中，所述剪枝操作过程如下：遍历频繁k-1项集集合对应的正交链表的列表头节点，对候选k项集集合C_k的成员若其包含k-1个元素的所有子集均在列表头节点中，则将成员保留在候选频繁项集集合C_k中，否则将其从C_k中删除。

步骤6中，计算所述支持度的步骤包括：

候选频繁k项集集合C_k中成员则事务集合T(c_i)＝T(I₁,I₂,...,I_k-1,I_k)＝T(I₁,I₂,...,I_k-1)∩T(I_k)，即包含项集集合的事务集合T(c_i)是包含项集集合{I₁，I₂，…，I_k-1}的事务集合T(I₁,I₂,...,I_k-1)与包含项集集合{I_k} 的事务集合T(I_k)的交集，遍历频繁k-1项集集合对应的正交链表中项集{I₁，I₂，…， I_k-1}对应的列，可得到事务集合T(I₁,I₂,...,I_k-1)，遍历频繁1项集集合对应的正交链表中项集集合{I_k}对应的列，得到事务集合T(I_k)，则通过以下公式计算k项集集合的支持度：

sup({I₁,I₂,...,I_k})＝N(T(I₁,I₂,...,I_k-1)∩T(I_k))/|D|,k∈[1,n]，

其中，N(T(I₁,I₂,...,I_k-1)∩T(I_k))表示事务集合T(I₁,I₂,...,I_k-1)和事务集合T(I_k)的交集所包含的事务数。

本发明中，项集集合的成员为项集，项集的成员为项目。

有益效果：本发明将事务数据库转化为关系矩阵，由于通常每个事务中仅包含少量的项目，因此转化后的关系矩阵为稀疏矩阵，为了降低算法的空间复杂度，该算法使用正交链表存储关系矩阵。频繁项目集的产生过程转化为对应关系矩阵中项目所对应单链表的节点集合的运算过程。该算法只需扫描数据库一遍，克服了Apriori及其相关算法产生大量候选集和需多次扫描数据库的缺点，减少了频繁进行I/O操作的时间；其次，生成和发现频繁2-项集时只需要进行节点集合的交运算，耗费时间较少，并且对生成的频繁k-项集构造单链表进行记录，简化了频繁k+1-项集的生成过程，避免了 Apriori算法复杂的剪枝过程。最后，算法采用正交链表存储结构，大大降低了对存储空间的需求。

附图说明：

图1为本发明事务数据库D。

图2为本发明关系矩阵。

图3为本发明关系矩阵正交链表。

图4为本发明候选2项集各成员支持度。

图5为本发明频繁2项集正交链表。

图6为本发明频繁3项集正交链表。

图7为本发明关联规则。

具体实施方案：

本发明提出了一种基于改进Apriori算法的数据库关联规则挖掘方法，包括以下步骤：

步骤1，扫描事务数据库D，得到关系矩阵M_a；

步骤3，根据步骤2的正交链表计算得到频繁1项集集合L₁以及频繁1项集集合 L₁对应的正交链表；

步骤4，将频繁k-1项集集合L_k-1与自身连接产生候选频繁k项集集合C_k，k为区间[2，∞)内的自然数；

步骤8，重复执行步骤4～步骤7，直到不能发现更大的频繁项目集为止；

步骤9，根据OLA算法最终获得的频繁项集集合为F，则可产生关联规则：

R＝{A->B}，A为频繁项集集合F中任意成员的非空子集，B为A的补集，即∈F，i₂为区间[1,N_f]内的自然数，N_f表示频繁项集集合F所包含的成员数目。

步骤1中，所述关系矩阵M_a如下：

并有：

sup(I_j)＝N_j/|D|,j∈[1,|I|]，

将各项目支持度与所设置最小支持度min_support进行比较，得到频繁1项集集合 L₁，基于频繁1项集集合L₁中各元素对应的事务集合T({I_j})，得到频繁1项集集合 L₁对应的正交链表。

步骤6中，计算所述支持度的步骤包括：

sup({I₁,I₂,...,I_k})＝N(T(I₁,I₂,...,I_k-1)∩T(I_k))/|D|,k∈[1,n]，

其中，N(T(I₁,I₂,...,I_k-1)∩T(I_k))表示事务集合T(I₁,I₂,...,I_k-1)和事务集合T(I_k)的交集所包含的事务数。

实施例1

通过如图1所示的一个简单的事务数据库D对OLA算法的步骤进行描述，并对其性能进行简单的分析，设置的最小支持度min_support＝30％。

1)根据OLA算法，首先对图1所示的事务数据库D进行扫描，事务数据库D中共包含10个事务T₁-T₁₀，6个项目I₁-I₆。扫描事务数据库D将得到如图2所示的关系矩阵A，关系矩阵A的第i行对应数据库D的事务T_i，i∈[1,10]，第j列对应数据库D 中的项目Ij，j∈[1,6]，关系矩阵中的非零元素a_ij表示项目I_j包含在事务T_i中。将关系矩阵A用正交链表表示，如图3所示，图3中M类型的节点为正交链表的表头节点， H类型的节点表示正交链表的行/列表头节点，E类型节点为关系矩阵中非零元素对应的节点。

2)接下来，遍历正交链表的各列，可得项目集I＝{A，B，C，D，E，F}中各项目在所有事务中出现的次数分别为5，4，5，3，5，6。根据公式sup(I_j)＝N_j/|D|,j∈[1,6] 计算，可得各项目支持度分别为0.5，0.4，0.5，0.3，0.5，0.6，均大于预设最小支持度 min_support＝0.3，则频繁1项集集合L₁＝{{A}，{B}，{C}，{D}，{E}，{F}}。由于所有项目均属于频繁1项集的成员，因此频繁1项集对应的正交链表即为关系矩阵A对应的正交链表。

4)将频繁1项集集合L₁进行自连接产生候选频繁2项集集合C₂，如图4所示， C₂＝{{AB}，{AC}，{AD}，{AE}，{AF}，{BC}，{BD}，{BE}，{BF}，{CD}，{CE}， {CF}，{DE}，{DF}，{EF}}。由于所有的项目Ij，j∈[1,6]均为频繁1项集的成员，因此对于频繁2项集集合无需根据Apriori性质进行剪枝。

5)对候选频繁2项集集合C₂中的所有成员，计算其支持度。比如说对于候选频繁2项集{AB}，分别遍历频繁1项集所对应正交链表中项目A、B对应的列，可得包含项目A的事务集合为T(A)＝{1，5，6，8，10}，包含项目B的事务集合T(B)＝{2，4， 6，7}，则包含项目集{AB}的事务集合T(AB)＝T(A)∩T(B)＝{6}，则项目集{AB}的支持度sup({AB})＝0.1。同理可计算候选频繁2项集集合C₂中其它所有成员的支持度如图4所示。

6)将候选频繁2项集集合C₂中所有成员的支持度与最小支持度min_support＝0.3 进行比较，删除支持度小于最小支持度min_support的成员，得到频繁2项集集合 L₂＝{{AE}，{AF}，{BC}，{EF}}，构造频繁2项集集合对应的正交链表如图5所示。

7)将频繁2项集集合L₂进行自连接产生候选频繁3项集集合C₃，C₃＝{{AEF}}。遍历频繁2项集集合对应正交链表中项集{AE}对应的列，可得包含项目集{AE}的事务集合T(AE)＝{1，6，10}，遍历频繁1项集集合对应的正交链表中项集{F}对应的列，可得包含项目集{F}的事务集合T(F)＝{1，4，5，6，8，10}，则T(AEF)＝T(AE)∩T(F) ＝{1，6，10}。根据OLA算法计算可得项目集{AEF}的支持度为0.3，大于等于最小支持度。因此，频繁3项集集合L₃＝{{AEF}}，并且构造频繁3项集集合对应正交链表如图6所示。由于频繁3项集集合L₃中只有一个成员，因此其为极大频繁项目集，生成频繁项目集过程结束。

8)根据OLA算法产生如图7所示的关联规则。

性能：该实例中，运行OLA算法与Apriori算法所获得的频繁项集完全相同，Apriori 算法需要扫描事务数据库21次，而OLA算法仅需要扫描数据库1次，大大降低了算法的运行时间，提高了效率。

本发明提供了一种基于改进Apriori算法的数据库关联规则挖掘方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于改进Apriori算法的数据库关联规则挖掘方法 [P] . 中国专利： CN105320756B . 2018.07.10
2. 一种基于数据压缩Apriori算法的关联规则挖掘方法 [P] . 中国专利： CN103176976B . 2016.01.20
3. Minimum non-reduction association rule mining method based on item subset example tree [P] . 英国专利： GB2568558A . 2019-05-22

机译：基于项目子集实例树的最小非约简关联规则挖掘方法
4. Vector operation-based association rule mining method [P] . 英国专利： GB2558438A . 2018-07-11

机译：基于向量运算的关联规则挖掘方法
5. Minimum non-reduction association rule mining method based on item subset example tree [P] . 英国专利： GB201801845D0 . 2018-03-21

机译：基于项目子集实例树的最小非约简关联规则挖掘方法