法律状态公告日
法律状态信息
法律状态
2022-08-19
实质审查的生效 IPC(主分类):G06F16/2458 专利申请号:2022105816330 申请日:20220526
实质审查的生效
技术领域
本发明涉及数据处理领域,具体地涉及一种高维度大数据的关联规则分析方法、一种高维度大数据的关联规则分析装置以及一种计算机可读存储介质。
背景技术
随着科学技术的不断发展,人们生活变得越来越集中化,在城市的发展过程中,人们的生活数据也越来越集中化,由此催生了大数据。
为了给人们提供更好的服务,技术人员期望对人们生活的大数据进行分析,以获得对服务进行优化或改进的数据基础,例如在交通事故成因分析、气象预测关联分析、基于兴趣的实时新闻推荐、银行营销方案推荐、电子商务搭配购买推荐、购物篮分析等应用场景被广泛应用。
在现有的大数据分析技术中,主要通过对大数据中每个数据之间的关联规则进行分析和挖掘,以进行数据分析工作,现有的关联规则挖掘方法主要包括基于精确算法的方法以及基于启发式算法的方法,然而在实际应用过程中:
基于精确算法的方法在面对高维海量大数据时,时间复杂度与存储空间的爆炸将导致计算时间的大量增加以及存储空间的极大占用,因此无法满足实际需求;
基于启发式算法的方法所能处理的数据集维度以及事物数量均较小,而虽然该方法能够在一定程度上提高处理数据的维度,但其精确性低于基于精确算法的方法,因此依然无法满足实际的大数据计算需求。
发明内容
为了克服现有技术中存在的上述技术问题,本发明实施例提供一种高维度大数据的关联规则分析方法,通过在对高维度大数据进行关联规则分析时,首先进行降维优化处理,然后对频繁项集的置信度进行评估和分析,从而精确确定高维度大数据的关联规则,提高了分析效率和分析精确性。
为了实现上述目的,本发明实施例提供一种高维度大数据的关联规则分析方法,所述方法包括:获取高维度大数据;对所述高维度大数据进行预处理,获得预处理后大数据;基于所述预处理后大数据确定多个频繁项集;计算确定每个频繁项集的置信度;基于每个频繁项集的置信度确定所述高维度大数据的关联规则。
优选地,所述对所述高维度大数据进行预处理,获得预处理后大数据,包括:对所述高维度大数据执行第一降维处理,获得第一处理后数据;确定所述第一处理后数据中两两数据之间的关联度;基于所述关联度对所述第一处理后数据执行第二降维处理,获得所述预处理后大数据。
优选地,所述基于所述预处理后大数据确定多个频繁项集,包括:根据所述处理后大数据确定多个子项集;计算确定每个子项集在预设事务范围内出现的第一出现概率;依次判断每个第一出现概率是否大于预设概率阈值;将第一出现概率大于所述预设概率阈值对应的子项集作为频繁项集。
优选地,所述计算确定每个所述频繁项集的置信度,包括:在所述频繁项集中确定第一计算数据和第二计算数据;计算确定所述第一计算数据和所述第二计算数据同时在所述预设事务范围内出现的第二出现概率;基于所述第二出现概率以及所述第一计算数据对应的第一出现概率,计算确定所述第一计算数据对应于所述第二计算数据的置信度。
优选地,所述基于所述置信度确定所述高维度大数据的关联规则,包括:获取预设置信度限值;依次判断每个所述频繁项集的置信度是否大于所述预设置信度限值;根据判断结果获取大于所述预设置信度限值的合格置信度;基于所述合格置信度确定对应频繁项集的初始关联规则;基于所述初始关联规则确定所述高维度大数据的关联规则。
相应的,本发明实施例还提供一种高维度大数据的关联规则分析装置,所述装置包括:数据获取单元,用于获取高维度大数据;预处理单元,用于对所述高维度大数据进行预处理,获得预处理后大数据;频繁项集确定单元,用于基于所述预处理后大数据确定多个频繁项集;计算单元,用于计算确定每个频繁项集的置信度;关联规则确定单元,用于基于每个频繁项集的置信度确定所述高维度大数据的关联规则。
优选地,所述预处理单元包括:第一处理模块,用于对所述高维度大数据执行第一降维处理,获得第一处理后数据;关联度确定模块,用于确定所述第一处理后数据中两两数据之间的关联度;第二处理模块,用于基于所述关联度对所述第一处理后数据执行第二降维处理,获得所述预处理后大数据。
优选地,所述频繁项集确定单元包括:子项集确定模块,用于根据所述处理后大数据确定多个子项集;第一概率计算模块,用于计算确定每个子项集在预设事务范围内出现的第一出现概率;第一判断模块,用于依次判断每个第一出现概率是否大于预设概率阈值;频繁项集确定模块,用于将第一出现概率大于所述预设概率阈值对应的子项集作为频繁项集。
优选地,所述计算单元包括:数据确定模块,用于在所述频繁项集中确定第一计算数据和第二计算数据;第二概率计算模块,用于计算确定所述第一计算数据和所述第二计算数据同时在所述预设事务范围内出现的第二出现概率;置信度计算模块,用于基于所述第二出现概率以及所述第一计算数据对应的第一出现概率,计算确定所述第一计算数据对应于所述第二计算数据的置信度。
优选地,所述关联规则确定单元包括:限值获取模块,用于获取预设置信度限值;第二判断模块,用于依次判断每个所述频繁项集的置信度是否大于所述预设置信度限值;获取模块,用于根据判断结果获取大于所述预设置信度限值的合格置信度;关联规则确定模块,用于基于所述合格置信度确定所述高维度大数据的关联规则。
另一方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的方法。
通过本发明提供的技术方案,本发明至少具有如下技术效果:
通过在对高维度大数据进行关联规则分析的过程中,根据大数据的关联性对数据进行多次降维优化处理,有效减少后续分析过程中的数据维度以及分析数据量,从而有效提高后续的分析效率,降低运算量;
同时通过对高维度大数据中的频繁项集进行分析确定,并根据每个频繁项集与其他频繁项集的置信度对频繁项集的关联规则强度进行准确计算,从而实现对高维度大数据中的关联规则的精确确定,提高了分析精确性。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的高维度大数据的关联规则分析方法的具体实现流程图;
图2是本发明实施例提供的高维度大数据的关联规则分析方法中;
图3是本发明实施例提供的高维度大数据的关联规则分析方法中对高维度大数据进行预处理的具体实现流程图;
图4是本发明实施例提供的高维度大数据的关联规则分析方法中确定频繁项集的具体实现流程图;
图5是本发明实施例提供的高维度大数据的关联规则分析方法中确定频繁项集的置信度的具体实现流程图;
图6是本发明实施例提供的高维度大数据的关联规则分析装置的结构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上,鉴于此,本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。另外,需要理解的是,在本发明实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
请参见图1,本发明实施例提供一种高维度大数据的关联规则分析方法,所述方法包括:
S10)获取高维度大数据;
S20)对所述高维度大数据进行预处理,获得预处理后大数据;
S30)基于所述预处理后大数据确定多个频繁项集;
S40)计算确定每个频繁项集的置信度;
S50)基于每个频繁项集的置信度确定所述高维度大数据的关联规则。
在一种可能的实施方式中,首先获取需要进行分析的高维度大数据,此时并不立即对该高维度大数据进行分析,而是进行预处理,以降低该高维度大数据的数据维度以及数据量等,以降低后续分析过程中的分析复杂度和计算量。具体的,由于是为了对高维度大数据中的数据关联规则进行分析,因此可以根据每个数据之间的关联情况对该高维度大数据进行筛选和降维处理。
请参见图2,在本发明实施例中,所述对所述高维度大数据进行预处理,获得预处理后大数据,包括:
S21)对所述高维度大数据执行第一降维处理,获得第一处理后数据;
S22)确定所述第一处理后数据中两两数据之间的关联度;
S23)基于所述关联度对所述第一处理后数据执行第二降维处理,获得所述预处理后大数据。
在一种可能的实施方式中,首先对高维度大数据进行第一降维处理。例如在本发明实施例中,将某集合D={T
在对该高维度大数据进行预处理的过程中,可以首先根据高维度大数据中每个数据是否与其他数据存在关联关系以对该高维度大数据进行第一降维处理,例如将没有与其他数据存在关联关系的数据筛除后,获得第一处理后数据,此时进一步确定上述第一处理后数据中两两数据之间的关联度,并将该关联度与预设关联度阈值进行比较,然后将关联度大于该关联度阈值的数据作为预处理后大数据。
在本发明实施例中,通过在对高维度大数据进行数据关联规则的分析之前,首先对数据进行筛除以实现降维优化处理,从而有效降低了数据的分析维度以及计算数据量,同时不会对高维度大数据的分析结果造成影响,提高了数据分析效率。
此时开始对高维度大数据进行关联规则分析,首先需要找出在上述处理后大数据中出现频率超过一定阈值的频繁项集。请参见图3,在本发明实施例中,所述基于所述预处理后大数据确定多个频繁项集,包括:
S31)根据所述处理后大数据确定多个子项集;
S32)计算确定每个子项集在预设事务范围内出现的第一出现概率;
S33)依次判断每个第一出现概率是否大于预设概率阈值;
S34)将第一出现概率大于所述预设概率阈值对应的子项集作为频繁项集。
在一种可能的实施方式中,该高维度大数据属于集合D表征的大数据事务集,该集合D的范围即为高维度大数据的预设事务范围,首先根据预处理后大数据确定多个子项集,例如该子项集为一个由若干个频繁项I
请参见图4,在本发明实施例中,所述计算确定每个所述频繁项集的置信度,包括:
S41)在所述频繁项集中确定第一计算数据和第二计算数据;
S42)计算确定所述第一计算数据和所述第二计算数据同时在所述预设事务范围内出现的第二出现概率;
S43)基于所述第二出现概率以及所述第一计算数据对应的第一出现概率,计算确定所述第一计算数据对应于所述第二计算数据的置信度。
在一种可能的实施方式中,为了对高维度大数据中数据之间的关联规则进行分析,首先需要确定待分析的第一计算数据和第二计算数据,例如在本实施例中,将该第一计算数据作为要分析的基准数据,此时首先计算该第一计算数据和第二计算数据同时在上述预设事务范围(即集合D)中出现的第二出现概率,例如该第二出现概率表征为P(A∪B),此时根据置信度的相关定义,确定该第一计算数据对应与第二计算数据的置信度表征为:
请参见图5,在本发明实施例中,所述基于所述置信度确定所述高维度大数据的关联规则,包括:
S51)获取预设置信度限值;
S52)依次判断每个所述频繁项集的置信度是否大于所述预设置信度限值;
S53)根据判断结果获取大于所述预设置信度限值的合格置信度;
S54)基于所述合格置信度确定所述高维度大数据的关联规则。
在一种可能的实施方式中,在确定频繁项集的置信度后,获取预设置信度限值,并依次判断每个频繁项集的置信度是否大于该预设置信度限值,并确定出其中大于该置信度限值的合格置信度,根据上述合格置信度对应的频繁项集就可以确定每个频繁项集与其他频繁项集之间的关联规则,此时进一步结合高维度大数据中的其他数据,即可生成针对高维度大数据中每个数据的关联规则。
在本发明实施例中,通过在对高维度大数据的关联规则进行分析的过程中,首先对该高维度大数据进行降维优化处理,并对高维度大数据中频繁项的置信度进行评估,以对高维度大数据中每个数据与其他数据的关联规则的关联强度进行表征,并进一步确定高维度大数据的精确、可靠的关联规则,从而提高了分析效率,提高了分析精确性。
下面结合附图对本发明实施例所提供的高维度大数据的关联规则分析装置进行说明。
请参见图6,基于同一发明构思,本发明实施例提供一种高维度大数据的关联规则分析装置,所述装置包括:数据获取单元,用于获取高维度大数据;预处理单元,用于对所述高维度大数据进行预处理,获得预处理后大数据;频繁项集确定单元,用于基于所述预处理后大数据确定多个频繁项集;计算单元,用于计算确定每个频繁项集的置信度;关联规则确定单元,用于基于每个频繁项集的置信度确定所述高维度大数据的关联规则。
在本发明实施例中,所述预处理单元包括:第一处理模块,用于对所述高维度大数据执行第一降维处理,获得第一处理后数据;关联度确定模块,用于确定所述第一处理后数据中两两数据之间的关联度;第二处理模块,用于基于所述关联度对所述第一处理后数据执行第二降维处理,获得所述预处理后大数据。
在本发明实施例中,所述频繁项集确定单元包括:子项集确定模块,用于根据所述处理后大数据确定多个子项集;第一概率计算模块,用于计算确定每个子项集在预设事务范围内出现的第一出现概率;第一判断模块,用于依次判断每个第一出现概率是否大于预设概率阈值;频繁项集确定模块,用于将第一出现概率大于所述预设概率阈值对应的子项集作为频繁项集。
在本发明实施例中,所述计算单元包括:数据确定模块,用于在所述频繁项集中确定第一计算数据和第二计算数据;第二概率计算模块,用于计算确定所述第一计算数据和所述第二计算数据同时在所述预设事务范围内出现的第二出现概率;置信度计算模块,用于基于所述第二出现概率以及所述第一计算数据对应的第一出现概率,计算确定所述第一计算数据对应于所述第二计算数据的置信度。
在本发明实施例中,所述关联规则确定单元包括:限值获取模块,用于获取预设置信度限值;第二判断模块,用于依次判断每个所述频繁项集的置信度是否大于所述预设置信度限值;获取模块,用于根据判断结果获取大于所述预设置信度限值的合格置信度;关联规则确定模块,用于基于所述合格置信度确定所述高维度大数据的关联规则。
进一步地,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例所述的方法。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
机译: 关联规则分析装置及关联规则分析方法
机译: 大数据环境中基于聚类和关联规则的挖掘技术分析时间序列数据的系统和方法
机译: 大数据环境中基于语义分析的数据挖掘关联规则生成方法