法律状态公告日
法律状态信息
法律状态
2019-06-14
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20190528 变更前: 变更后: 申请日:20150410
专利申请权、专利权的转移
2018-07-06
授权
授权
2015-07-29
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150410
实质审查的生效
2015-07-01
公开
公开
技术领域
本发明涉及一种基于动态平行坐标的关联规则可视化系统及方法,属于数据挖掘技术领域。
背景技术
关联规则挖掘是指通过一定的手段发现大量数据中项集之间有趣的关联或相关联系,它在数据挖掘中是一个重要的课题,关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品项之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排等。
关联规则挖掘算法常常会产生大量的规则,使用户分析和利用这些规则变得十分困难。可视化技术充分利用了图形和图像的表达能力以及人对于色彩和形状的敏锐感知能力,从而使用户可以更加方便并深入地对结果进行观察和分析。关联规则挖掘可视化是目前关联规则挖掘研究的一个重要方面。近年来,已经提出了多种可视化技术来支持用户对关联规则进行观察和分析。
现今,关联规则挖掘常用的可视化方法包括基于表的可视化技术、基于二维矩阵的可视化技术、基于有向图的可视化技术。但是,基于表、二维矩阵的可视化技术没有充分利用图形和图像的表达能力,而且在可视化多对一或是多对多关系的规则时,局限性是显而易见的;基于有向图的可视化技术虽然一定程度上解决了上述问题,但是在显示大量规则时容易产生界面紊乱的问题。
发明内容
本发明所要解决的技术问题是提供一种基于动态平行坐标的关联规则可视化系统及方法,依赖R语言完成关联规则挖掘工作,转而借助JQuery的相关技术实现挖掘结果的可视化,生成的平行坐标图可以根据给定约束条件动态地部分显示,有效解决了现有技术中的问题。
本发明为解决上述技术问题采用以下技术方案:
一方面,本发明提供一种基于动态平行坐标的关联规则可视化系统,包括逻辑处理单元、数据转换单元、可视化结果生成单元;逻辑处理单元,基于R语言封装起数据加载构件、数据预处理构件、关联规则挖掘构件,完成关联规则的挖掘工作,得到挖掘结果;数据转换单元,设计第一、第二函数,其中,第一函数用于将逻辑处理单元中的挖掘结果导出,第二函数将第一函数导出的挖掘结果转换为JQuery能够识别的数据结构进行保存;可视化结果生成单元,基于JQuery技术将数据转换单元中保存的挖掘结果绘制成平行坐标图。
作为本发明的进一步优化方案,数据加载构件将待挖掘的数据集加载至用户空间,并以数据框的形式保存。
作为本发明的进一步优化方案,数据预处理构件将数据加载构件加载的数据集转换为关联规则挖掘模型支持的数据格式,即将加载的数据集的每个属性都转化为因子。
作为本发明的进一步优化方案,关联规则挖掘构件结合数据集特点,调整关联规则挖掘模型的参数,将预处理后的数据集作为关联规则挖掘模型的输入文件,从而得到挖掘结果。
作为本发明的进一步优化方案,平行坐标图的组成为:用一系列等间隔且平行的竖直轴分别表示关联规则中出现的所有不同的项目,每条连接两个竖直轴的线段代表这两个相应项目之间的一条关联规则,竖直轴上的数值刻度表示关联规则的置信度。
另一方面,本发明还提供一种基于动态平行坐标的关联规则可视化方法,包括以下具体步骤:
步骤1,基于R语言封装起数据加载构件、数据预处理构件、关联规则挖掘构件,完成关联规则的挖掘工作,得到挖掘结果;
步骤2,设计第一、第二函数,其中,第一函数用于将步骤1中的挖掘结果导出,第二函数将第一函数导出的挖掘结果转换为JQuery能够识别的数据结构进行保存;
步骤3,基于JQuery技术将步骤2中保存的挖掘结果绘制成平行坐标图。
作为本发明的进一步优化方案,步骤1中数据加载构件将待挖掘的源数据集加载至用户空间,并以数据框的形式保存。
作为本发明的进一步优化方案,步骤1中数据预处理构件将数据加载构件加载的数据集转换为关联规则挖掘模型支持的数据格式,即将加载的数据集的每个属性都转化为因子。
作为本发明的进一步优化方案,步骤1中关联规则挖掘构件结合数据集特点,调整关联规则挖掘模型的参数,将预处理后的数据集作为关联规则挖掘模型的输入文件,从而得到挖掘结果。
作为本发明的进一步优化方案,步骤3中平行坐标图的组成为:用一系列等间隔且平行的竖直轴分别表示关联规则中出现的所有不同的项目,每条连接两个竖直轴的线段代表这两个相应项目之间的一条关联规则,竖直轴上的数值刻度表示关联规则的置信度。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明提供的基于动态平行坐标的关联规则可视化方法,用动态的平行坐标将关联规则挖掘结果进行可视化,不但充分利用了图形和图像的表达能力以及人对于色彩和形状的敏锐感知能力,方便用户深入地对结果进行观察与分析,而且可以清晰地描述多对多关系的关联规则,当关联规则数量增多时,也不会有界面紊乱、产生歧义等问题出现。
附图说明
图1为本发明的可视化系统的结构示意图。
图2为本发明的可视化方法的流程图。
图3为本发明中数据预处理的流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明所提供基于动态平行坐标的关联规则可视化系统,如图1所示,包括逻辑处理单元、数据转换单元、可视化结果生成单元。逻辑处理单元中基于R语言封装起数据加载构件、数据预处理构件、关联规则挖掘构件;数据加载构件将待挖掘的数据集加载至用户空间,并以数据框的形式保存;数据预处理构件将数据加载构件加载的数据集转换为关联规则挖掘模型支持的数据格式,即将加载的数据集的每个属性都转化为因子;关联规则挖掘构件结合数据集特点,调整关联规则挖掘模型的参数,将预处理后的数据集作为关联规则挖掘模型的输入文件,从而得到挖掘结果。数据转换单元中设计第一、第二函数,其中,第一函数用于将逻辑处理单元中的挖掘结果导出,第二函数将第一函数导出的挖掘结果转换为JQuery能够识别的数据结构进行保存;可视化结果生成单元中基于JQuery技术将数据转换单元中保存的挖掘结果绘制成平行坐标图。
本发明所提供的基于动态平行坐标的关联规则可视化方法的具体流程如图2所示:
步骤1,基于R语言封装起数据加载构件、数据预处理构件、关联规则挖掘构件,完成关联规则的挖掘工作,得到挖掘结果。
1)数据加载:利用R语言的read.table()函数,将csv、txt等格式的待挖掘的文本数据集加载至用户空间中,并以数据框的形式保存。
2)数据预处理:在此要自定义一个函数,用于将加载的数据框格式的数据集转换为关联规则挖掘模型支持的数据格式,函数流程如图3所示。具体的转换方式是用for循环遍历数据框的每个属性,调用is.factor()函数查找出返回值为no的属性,即这些非因子的属性不能作为挖掘模型的输入文件,接着借助R语言的as.factor()函数将此类属性转化为因子factor,以保证其能作为后续关联规则挖掘模型的输入文件。
3)关联规则挖掘:核心工作是为关联规则挖掘模型设置适当的参数,使得挖掘出的项集之间的相关关系更加准确、紧密。首先结合数据集特点设置关联规则的最小支持度,进而设置最小置信度,相关参数设置好后将预处理过的数据集作为输入文件,调用关联规则挖掘模型,从而得到初始挖掘结果。此时可以调用R语言的insepct()函数完成基于表、二维矩阵的可视化。
步骤2,设计第一、第二函数,其中,第一函数用于将步骤1中的挖掘结果导出,第二函数将第一函数导出的挖掘结果转换为JQuery能够识别的数据结构进行保存。
这一步骤的工作主要是将步骤1中的挖掘结果进行转换,使其能够满足后续生成可视化结果的要求。首先封装R语言的write.table()函数作为第一函数,用以将挖掘结果以数据框格式导出至磁盘空间的csv或txt文件中;然后设计第二函数,读取磁盘空间的挖掘结果文件,并将其转换为JQuery支持的Json等数据格式作为中间结果。
步骤3,基于JQuery技术将步骤2中保存的挖掘结果绘制成平行坐标图。这一步骤中将步骤2中的中间结果作为输入文件,基于JQuery技术绘制出平行坐标图,并在浏览器可视化出来。平行坐标图的基本组成情况是:用一系列等间隔且平行的竖直轴分别表示关联规则中出现的所有不同的项目,每条连接两个竖直轴的线段代表这两个相应项目之间的一条关联规则,竖直轴上的数值刻度表示关联规则的置信度。
本发明中的交互性在于,用户可以过滤并选择感兴趣的项目来部分显示,并且可以通过拖动的方式选中竖直轴上的一小段连续的数值,即选择以此项目作为前项或后项,且支持度落在选中区间的部分关联规则进行显示。用户可直接在浏览器与该平行坐标图进行交互,平行坐标图响应用户请求并即时动态变化。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
机译: 基于布尔表达式的动态数据逐步关联规则提取方法
机译: 基于GIS的电力系统动态建模与可视化系统及其驱动方法。
机译: 基于GIS的电气系统和可视化系统的动态建模及其驱动方法。