首页> 中国专利> 一种数据挖掘方法及数据挖掘系统

一种数据挖掘方法及数据挖掘系统

摘要

本发明公开了一种数据挖掘方法及数据挖掘系统,包括以下步骤:A、数据分隔;B、数据筛选;C、数据迭代处理;D、数据归一化;E、结果判断。本发明能够解决现有技术的不足,通过优化数据处理流程,显著提高了对于大数据量的数据挖掘的处理速度。

著录项

  • 公开/公告号CN103995873A

    专利类型发明专利

  • 公开/公告日2014-08-20

    原文格式PDF

  • 申请/专利权人 长春工业大学;

    申请/专利号CN201410219319.3

  • 申请日2014-05-22

  • 分类号G06F17/30(20060101);

  • 代理机构北京科亿知识产权代理事务所(普通合伙);

  • 代理人汤东凤

  • 地址 130000 吉林省长春市延安大街1044号

  • 入库时间 2023-12-17 00:50:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-15

    授权

    授权

  • 2014-09-17

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140522

    实质审查的生效

  • 2014-08-20

    公开

    公开

说明书

技术领域

本发明属于数据挖掘技术领域,涉及一种数据挖掘方法及数据挖 掘系统。

背景技术

数据挖掘(Data Mining,DM)是目前人工智能和数据库领域研 究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含 的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种 决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、 数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性 的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风 险,做出正确的决策。现有数据挖掘的方法计算量普遍较大,面对大 数据量的数据源时经常出现反应慢的问题。

发明内容

本发明的目的在于提供一种数据挖掘方法,解决了现有的现有数 据挖掘的方法计算量较大的问题。

本发明的另一个目的是提供一种数据挖掘系统。

本发明所采用的技术方案是按照以下步骤进行:

A、数据分隔:从数据源中抽取若干个采样数据,其中采样方法为 系统每生成一个随机数,使用随机数从数据源中抽取对应位置的数 据;计算采样数据的分布关系,并根据采样数据的分布关系将数据源 中其余的数据进行分隔,形成若干个数据集合,每个采样数据代表一 个数据集合。每个采样数据所包含的特征元素为其对应的数据集合的 特征向量;根据数据类型和挖掘要求的不同而不同。

B、数据筛选:确定特征向量中各个元素的权重值,权重值根据 各个元素对数据挖掘重要性的强弱进行设定,元素对数据挖掘的重要 性使用1~10区间内的数值表示,设权重值为L,元素即特征向量的 组成部分对数据挖掘的重要性参数为b,则L=b2,对特征向量进行修 正;

C、数据迭代处理:迭代的目的是为了得到一个满足标准的集合, 提前设定的标准就是目标集合,根据目标集合的格式设置迭代矩阵, 随机选择符合要求的迭代矩阵,通过循环迭代进行修正,逐步靠近目 标。将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得 到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移 率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向 量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间 数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述 迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合(目 标数据集合即最后一次的中间数据集合,当第二偏移率大于第一偏移 率时,修订迭代矩阵,重新进行迭代;

D、数据归一化:将目标数据集合内的数据进行归一化,将归一 化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;原始 位置标记采用三维数据组的形式,三个维度的数据分别为数据绝对位 置、与上一个数据的相对位置、与下一个数据的相对位置;归一化的 目标函数方法:

方法1:归一化的目标函数的形式为y=ax2+bx+ex+c;

方法2:归一化的目标函数的形式为y=ax3+bx2+tan(x/lnx);

E、结果判断:根据数据归一化的结果,从决策表中选取相应决 策。决策表采用若干个堆栈结构并列设置而成。

进一步,所述步骤A中随机数据选取过程:记数据源的数据总量 与采样数据的数量进行除法运算后的结果为a,例如数据源的数据总 量为10000,采样数据量为10,那么a就是1000。任意两个随机数 的差值均大于a/5。

进一步,所述步骤B中数据集合优选相邻的两个数据集合之间保 留有10%~15%的重叠区,重叠区域同一个数据属于多个数据集合。

进一步,所述步骤B中特征向量修正过程为依照权重值由高至低 的顺序依次对数据集合进行筛选,根据筛选的结果对特征向量的元素 进行修正f(x,y)代表修正的特征向量:

方式1:修正公式如下:

f(x,y)=Σd(x-y)e1/L-c

其中,x为数据集合内的元素,y为与x对应的特征向量的原始 元素,c为最高阈值,阈值为修正前特征向量长度的10%。d为筛选 数据范围;

方式2.修正公式如下:

P=(xy)e

f(x,y)=ΣdP×lg(1P2)

其中,x为数据集合内的元素,y为与x对应的特征向量的原始 元素,d为筛选数据范围。

进一步,所述步骤C中迭代矩阵采用对角矩阵。

进一步,所述步骤C中偏移率的计算方法为以下两种:

方法1:其中偏移率的计算,首先计算每个数据间的欧氏距离, 然后将其欧氏距离设置为欧氏距离矩阵,欧氏距离矩阵的特征值即为 所求偏移率,阈值设定为上述欧氏距离的3%。

方法2:其中偏移率的计算,其过程为求出第N-1中间数据集合 的加和平均值,第N中间数据集合与第N-1中间数据集合的偏移率为 第N中间数据集合中各个数据与N-1中间数据集合平均值差值的加权 平均值,其中加权值为步骤B中特征向量中各个元素的修正权重值; 阈值为上述加权平均值的1%。

应用于本发明方法中的一种数据挖掘系统,包括:

数据库,用于存储数据源;

分选模块,用于将数据库中数据源进行分隔;

筛选模块,用于依据权重值对数据进行筛选和修正;

迭代模块,用于对数据集合进行矩阵转换,并迭代计算;

转化模块,用于对目标数据集合进行归一化运算;

决策模块,用于存储决策条目,并根据选择函数使用数据归一化 的结果进行选择。

本发明的有益效果是通过优化数据处理流程,显著提高了对于大 数据量的数据挖掘的处理速度。

附图说明

图1是本发明数据挖掘步骤示意图;

图2是本发明数据迭代步骤示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示为本发明方法步骤,下面列举具体实施例对本发明进 行说明:

实施例1:

A、数据分隔

从数据源中抽取若干个采样数据,计算采样数据的分布关系,并 根据采样数据的分布关系将数据源中其余的数据进行分隔,形成若干 个数据集合,每个采样数据所包含的特征元素为其对应的数据集合的 特征向量;

B、数据筛选

根据选定的筛选条件确定特征向量中各个元素的权重值,依照权 重值由高至低的顺序依次对数据集合进行筛选,根据筛选的结果对特 征向量的元素及其权重值进行修正;

C、数据迭代处理

如图2所示的迭代处理步骤,根据目标集合的格式设置迭代矩 阵,将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得 到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移 率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向 量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间 数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述 迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当 第二偏移率大于第一偏移率时,修订迭代矩阵,重新进行迭代;

D、数据归一化

将目标数据集合内的数据进行归一化,将归一化过程中删除的数 据进行原始位置标记,并存入数据缓冲集合;

E、结果判断

根据数据归一化的结果,从决策表中选取相应决策。

所述步骤A中,系统每生成一个随机数,使用随机数从数据源中 抽取对应位置的数据;记数据源的数据总量与采样数据的数量进行除 法运算后的结果为a,任意两个随机数的差值均大于a/5。

步骤B中,所述权重值根据各个元素对数据挖掘重要性的强弱进 行设定,元素对数据挖掘的重要性使用1~10区间内的数值表示。

步骤C中,所述迭代矩阵采用对称矩阵。

一种数据挖掘系统,包括:

数据库,用于存储数据源;

分选模块,用于将数据库中数据源进行分隔;

筛选模块,用于依据权重值对数据进行筛选和修正;

迭代模块,用于对数据集合进行矩阵转换,并迭代计算;

转化模块,用于对目标数据集合进行归一化运算;

决策模块,用于存储决策条目,并根据选择函数使用数据归一化 的结果进行选择。

实施例2:

A、数据分隔

从数据源中抽取若干个采样数据,计算采样数据的分布关系,并 根据采样数据的分布关系将数据源中其余的数据进行分隔,形成若干 个数据集合,相邻的两个数据集合之间保留有10%~15%的重叠区, 每个采样数据所包含的特征元素为其对应的数据集合的特征向量;

B、数据筛选

根据选定的筛选条件确定特征向量中各个元素的权重值L,依照 权重值由高至低的顺序依次对数据集合进行筛选,根据筛选的结果对 特征向量的元素及其权重值进行修正;修正公式如下:

f(x,y)=Σd(x-y)e1/L-c

其中,x为数据集合内的元素,y为与x对应的特征向量的原始 元素,c为最高阈值,d为筛选数据范围;

C、数据迭代处理

如图2所示的迭代处理步骤,根据目标集合的格式设置迭代矩 阵,将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得 到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移 率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向 量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间 数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述 迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当 第二偏移率大于第一偏移率时,修订迭代矩阵,重新进行迭代;其中 偏移率的计算,首先计算每个数据间的欧氏距离,然后将其欧氏距离 设置为欧氏距离矩阵,欧氏距离矩阵的特征值即为所求偏移率,阈值 设定为上述欧氏距离的3%。

D、数据归一化

将目标数据集合内的数据进行归一化,将归一化过程中删除的数 据进行原始位置标记,并存入数据缓冲集合;归一化的目标函数的形 式为y=ax2+bx+ex+c;

E、结果判断

根据数据归一化的结果,从决策表中选取相应决策,决策表采用 若干个堆栈结构并列设置而成。

所述步骤A中,系统每生成一个随机数,使用随机数从数据源中 抽取对应位置的数据;记数据源的数据总量与采样数据的数量进行除 法运算后的结果为a,任意两个随机数的差值均大于a/5。

所述权重值根据各个元素对数据挖掘重要性的强弱进行设定,元 素对数据挖掘的重要性使用1~10区间内的数值表示,设权重值为L, 元素对数据挖掘的重要性参数为b,则L=b2

为本发明的一种优选技术方案,所述迭代矩阵采用对角矩阵。

一种数据挖掘系统,包括

数据库,用于存储数据源;

分选模块,用于将数据库中数据源进行分隔;

筛选模块,用于依据权重值对数据进行筛选和修正;

迭代模块,用于对数据集合进行矩阵转换,并迭代计算;

转化模块,用于对目标数据集合进行归一化运算;

决策模块,用于存储决策条目,并根据选择函数使用数据归一化 的结果进行选择。

实施例3:

A、数据分隔

从数据源中抽取若干个采样数据,计算采样数据的分布关系,并 根据采样数据的分布关系将数据源中其余的数据进行分隔,形成若干 个数据集合,每个采样数据所包含的特征元素为其对应的数据集合的 特征向量;

B、数据筛选

根据选定的筛选条件确定特征向量中各个元素的权重值,依照权 重值由高至低的顺序依次对数据集合进行筛选,根据筛选的结果对特 征向量的元素及其权重值进行修正;修正公式如下:

P=(xy)e

f(x,y)=ΣdP×lg(1P2)

其中,x为数据集合内的元素,y为与x对应的特征向量的原始 元素,d为筛选数据范围。

C、数据迭代处理

如图2所示的迭代处理步骤,根据目标集合的格式设置迭代矩 阵,将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得 到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移 率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向 量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间 数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述 迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当 第二偏移率大于第一偏移率时,修订迭代矩阵,重新进行迭代;其中 偏移率的计算,其过程为求出第N-1中间数据集合的平均值,第N中 间数据集合与第N-1中间数据集合的偏移率为第N中间数据集合中各 个数据与N-1中间数据集合平均值差值的加权平均值,其中加权值为 步骤B中特征向量中各个元素的修正权重值;阈值为上述加权平均值 的1%。

D、数据归一化

将目标数据集合内的数据进行归一化,将归一化过程中删除的数 据进行原始位置标记,并存入数据缓冲集合;原始位置标记采用三维 数据组的形式,三个维度的数据分别为数据绝对位置、与上一个数据 的相对位置、与下一个数据的相对位置;归一化的目标函数的形式为 y=ax3+bx2+tan(x/lnx);

E、结果判断

根据数据归一化的结果,从决策表中选取相应决策。决策表采用 数据链表形式储存。

所述步骤A中,系统每生成一个随机数,使用随机数从数据源中 抽取对应位置的数据;记数据源的数据总量与采样数据的数量进行除 法运算后的结果为a,任意两个随机数的差值均大于a/5。

步骤B中,所述权重值根据各个元素对数据挖掘重要性的强弱进 行设定,元素对数据挖掘的重要性使用1~10区间内的数值表示。

步骤C中,所述迭代矩阵采用共轭矩阵。

一种数据挖掘系统,包括

数据库,用于存储数据源;

分选模块,用于将数据库中数据源进行分隔;

筛选模块,用于依据权重值对数据进行筛选和修正;

迭代模块,用于对数据集合进行矩阵转换,并迭代计算;

转化模块,用于对目标数据集合进行归一化运算;

决策模块,用于存储决策条目,并根据选择函数使用数据归一化 的结果进行选择。

对同一个数据源进行数据挖掘测试,现有技术和上述的3个实施 例的对比如下:

类别 现有技术 实施例1 实施例2 实施例3 遍历时间 43s 24s 18s 19s 决策时间 43s 7s 7s 5s 决策准确率 92% 96% 99% 98%

可以看出,本发明优点在于:通过对原始数据进行优化修正和简 化处理,使得数据的规律性提高,噪音数据比例降低,使得系统在对 数据进行分析挖掘时,可以在不进行遍历分析时即作出可靠性较高的 预测性判断,然后再进行实时校正。这就大大减化了对数据的处理运 算量。

以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何 形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何 简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号