法律状态公告日
法律状态信息
法律状态
2019-06-04
未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20120711 终止日期:20180621 申请日:20100621
专利权的终止
2012-07-11
授权
授权
2010-11-24
实质审查的生效 IPC(主分类):G06F17/30 申请日:20100621
实质审查的生效
2010-10-13
公开
公开
技术领域
本发明涉及的是一种遥感影像处理技术,特别涉及一种遥感影像多维关联规则挖掘方法。
背景技术
随着遥感数据获取技术的迅速发展,遥感数据及其数据产品实现了长时期积累。遥感数据处理技术滞后于数据获取技术的现状,已经满足不了国土资源大调查、生态环境治理、防灾减灾等国家重大需求和地学图谱、碳循环等科学研究的需求。因此,开发从大量遥感数据中挖掘有用信息的技术,已经迫在眉睫。遥感影像数据挖掘(remote sensingimage data mining,简称RESIM)技术,是用数据图像分析技术、模式识别、人工智能、地理信息系统、空间数据挖掘的相关理论和技术来发现和挖掘隐含在遥感影像中信息的技术,是图像数据挖掘技术在遥感领域的一个应用。
关联规则的挖掘是数据挖掘领域中的一个重要研究方向,它通过挖掘数据库中的数据项集之间的某种潜在关系,从而在大量数据中发现一些潜在和有趣的关联关系,以此为依据来帮助决策者作出合理、适当的决定。对遥感影像进行关联规则挖掘,可以将每一个图像看作一个事务或将图像中每一个对象看作一个事务,从中找出不同图像间或不同对象间出现频率高的模式。遥感影像中中往往会涉及到两个以上因子相互作用,这类问题可以归结为多维关联或多因子关联,求解多维关联之间的规律或模式是多维关联规则挖掘问题。最经典的关联规则挖掘是Apriori算法。
Apriori算法作为最经典的布尔关联规则挖掘算法由Agrawal等在1994年提出,这是一个基于两阶段频集思想的方法,将关联规则挖掘算法的设计可以分解为两个子问题:1.找到所有支持度大于最小支持度的项集(Item Set),这些项集称为频繁项集(FrequentItem Set);2.使用第1步找到的频集产生期望的规则。Apriori算法利用候选项集和频集的相互作用,得到了全部频集,并通过对候选项集进行剪枝,大大地减少了候选项集的尺寸,获得了令人满意的结果。然而,当面对挖掘对象具有繁多的频繁模式或者用户给定的最小支持度较低时,Apriori算法仍然有可能因为如下两个方面的巨大开销而面临困境:
1.在处理候选项集方面,如果算法得到了大量的频繁1-项集,那么,在产生候选2-项集时,会遇到大量候选2-项集难以处理的情况。例如:假设算法得到的频繁1-项集的数量是104,则根据Apriori算法,会产生超过107个候选2-项集,由于剪枝对候选2-项集根本不起作用,所以这些候选项集都需要检验。此外,在面对频繁模式的尺寸较大时,同样会产生大量的候选项集需要检验。所以,在有大量候选项集产生的情况下,Apriori算法效率不理想。
2.Apriori算法采用的模式匹配方式,在检测大量的候选项集,特别是在挖掘长模式时,对数据库的重复扫描非常多,大量的时间消耗在内存与数据库中的数据的交换上。
有关文献:Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].John A.Richards,Xiuping Jia.Remote Sensing Didital Image Analysis[M].
综上所述,现有的遥感影像关联规则挖掘方法中的Apriori算法需要很大的计算开销,而且可能产生庞大的候选集,执行效率偏低,不适合用作海量数据的分析方法。
近年来兴起的人工免疫系统AIS(Artificial Immune System)的研究是一个崭新的应用领域,而且人工免疫系统发展迅速,成为智能系统中继模糊逻辑、神经网络、遗传算法之后的又一研究热点。人们基于生物免疫原理提出了多种人工免疫模型和算法,并应用于自动控制、故障诊断、优化计算、模式识别、机器学习、数据分析等领域。人工独特型网络理论主要与抗体有关,认为抗体具有能够识别抗原的抗体决定位和能够被其他抗体识别的抗原决定位,即独特位。抗体之间通过独特位彼此沟通、互相联系、互相制约形成网络结构。网络学说立足于抗体分子的双重性,它既可以与特定抗原结合返回抗体作用,又借助于自身的独特型抗原决定簇引发免疫反应。
人工免疫系统曾被应用到遥感影像分类技术当中,申请号为200610019506的专利申请中应用该算法实现了一种遥感影像地物监督分类方法。该专利使用了资源限制型人工免疫网络,随机选择样本抗原,得到各类初始人工识别球种群和初始抗体记忆库,对所有抗原样本进行人工免疫训练得到优化后的抗体记忆库,其中包含了克隆变异的过程,最终利用距离判定像元归属的类别。近几年,在事务数据库的关联规则挖掘中人工免疫系统的优势也逐渐被认识到,朱玉、张虹、孔令东在《基于人工免疫的多维关联规则挖掘及其应用研究》中提出了一种基于人工免疫的多维关联规则挖掘算法。算法充分利用了人工免疫的记忆特性,把挖掘的关联规则存入记忆库,加快了多维关联规则的挖掘速度。结果表明,该算法应用于煤与瓦斯突出预测中,具有较好的鲁棒性,能快速、有效地进行全局优化搜索,在多维关联规则的挖掘中具有可行性和高效性。然而在遥感影像关联规则挖掘中,针对遥感影像数据的种种特性,人工免疫系统还没有得到充分的利用。如何借鉴人工免疫系统,提供高效的人工免疫遥感影像关联规则挖掘方法,挖掘出遥感影像中潜在的规律和模式,是目前遥感影像分析领域亟待解决的问题。
发明内容
本发明的目的在于提供一种能加快关联规则的挖掘速度,具有较强的鲁棒性和有效的全局搜索能力的基于人工免疫网络的遥感影像关联规则挖掘方法。
本发明的目的是这样实现的:
步骤1从遥感图像中对采样像素点提取待分析的各种属性数据;
步骤2对提取的属性数据进行分割;
步骤3将分割后的图像数据转化为事务数据库;
步骤4把要挖掘的关联规则作为抗体,将用户感兴趣的属性值作为抗原,对抗体抗原编码,采用实数编码方式;
抗原分两种情况作用于RAIN网络内的抗体;初次免疫响应和二次免疫响应;
初次免疫效应:
步骤5设定RAIN网络规模,免疫激励阈值及终止条件最大迭代次数;
步骤6搭建并初始化RAIN网络,设置特异记忆抗体区和自由记忆抗体区;
步骤7对所有抗原进行人工免疫训练,得到所有样区的记忆抗体数据库,对所有抗原的训练包括以下步骤:
5)计算抗原到RAIN网络中每个抗体的激励水平,从初始抗体记忆库中找到与该抗原最匹配的抗体;
6)对最匹配的抗体进行克隆,得到克隆抗体种群,对其中的克隆抗体进行变异,将变异后的抗体进行抑制处理;
7)对于经过2)的抗体种群,判断该种群的平均刺激水平是否达到设定的激励水平,如果达到则进入4),否则对该种群进行克隆变异操作,从步骤1)开始重新计算,直到满足阈值条件;
8)从抗体种群中选择对抗原刺激水平最大的细胞作为候选记忆抗体,然后比较候选记忆抗体与步骤6中得到的自由记忆抗体的刺激水平大小,由两者激励水平最高者来进化特异记忆抗体区中激励水平最低的抗体;
步骤8再次建立RAIN网络中所有抗体之间的连接;
步骤9测试第i个样本抗原训练是否完成;完成则复位自由记忆抗体区,否则返回步骤7;
步骤10测试所有样本训练是否完成,完成则输出RAIN网络,否则返回步骤7;
二次免疫效应:
步骤11设定RAIN网络各特异记忆区激活的阈值;
步骤12抗原作用于RAIN网络,计算网络中各个特异记忆抗体所受的激励;
步骤13比较激励水平与特异记忆区激活的阈值,如较激励水平大于阈值则该类特异记忆抗体区被激活,获得参与识别该抗原的资格;具备识别资格的特异记忆抗体竞争识别抗原,受激励最大者,识别抗原成功;
步骤14输出识别结果各类的特异记忆区的激励水平;
步骤15测试二次免疫响应是否完成,完成则保存识别结果和特异记忆区的激励水平,否则返回步骤12;
步骤16若终止条件满足,则把编码还原为规则,对关联规则进行提取和优化,结束挖掘过程,否则返回步骤4。
本发明使用基于分区记忆模式的人工独特型免疫网络(RAIN),把记忆抗体按照记忆特性分去处理,在初次免疫应答阶段实现模型的搭建和训练后,在二次免疫应答阶段提取信息。最后将RAIN模型应用于遥感影像数据的关联规则提取。
其中算法参数包括:克隆率、抗体适应值、抗体浓度、特异记忆激励阈值以及最大迭代次数,根据克隆率对最匹配的记忆抗体进行克隆,根据抗体适应值对克隆后抗体适应值低的抗体进行变异,根据特异记忆激励阈值判断特异记忆抗体是否具有识别抗原的资格,最大迭代次数用于判断是否终止迭代。
在预处理过程中,为适应关联规则挖掘要求,对初始遥感影像进行采样、属性提取和属性分割,构建了由遥感影像属性特征构成的事物数据库。将要挖掘的关联规则作为抗体,将用户感兴趣的属性值作为抗原,对抗体抗原编码,采用实数编码方式。
而且,本发明根据领域知识对挖掘出的关联规则进行了两点优化措施:(1)将一种属性作为结果属性,其余的数据作为参数属性,则只有形如{参数属性1,参数属性2,参数属性3…}=>结果的规则才是有趣的。(2)引入一种相关度量来判断规则的有效性。
有益效果:本发明充分利用了免疫算法的免疫记忆特性,从基于分区记忆模式的人工独特型网络原理出发,依据抗体动力学学说把免疫网络从结构上分为不同的记忆特征区域。通过免疫学习把挖掘的关联规则保存在记忆库中,利用记忆抗体亚动力的自组织、自学习、自适应、全局优化作用,由于二次免疫应答更迅速,无须重新学习,进一步挖掘免疫网络的结构性信息加快了关联规则的挖掘速度。同时本发明具有较强的鲁棒性和有效的全局搜索能力。
附图说明
图1为本发明所述遥感影像关联规则挖掘方法的系统结构图。
图2为本发明所述遥感影像关联规则挖掘方法的流程图。
具体实施方式
下面结合附图举例对本发明做更详细地描述:
本发明公开了一种基于分区记忆模式的人工独特型免疫网络(RAIN)的遥感影像关联规则挖掘的方法,该方法的具体实施包括用图像数据构建RAIN网络,抗原作用于RAIN网络,经免疫效应提取优化规则等关键内容。本发明所述的遥感影像关联规则挖掘方法通过计算机程序实施,图1所示是计算机实现的系统结构图。下面将按照流程详述本发明提出的技术方案的具体实施方式,流程如图2所示。该实施方式主要包含以下几个关键内容:
步骤1对图像进行采样,得到维数和像元数一定的图像数据。对采样像素点提取待分析的几种属性数据。明确各个属性的取值范围,每个属性对应一个波段。
步骤2属性分割。将各个连续的属性值划分成离散的区间,每个区间对应一个属性值。
步骤3为每个像元指定一个PID作为一个事务,不同波段相同像元的分割属性构成事务的项集,从而构建事务数据库。
步骤4将要挖掘的关联规则作为抗体,将用户感兴趣的属性值作为抗原,对抗体抗原编码,采用实数编码方式。假设有N个抗体,每个抗体有M个基因。每个基因上采用的字符集大小为S,则这N个抗体的信息熵为:
式中,Hj(η)为N个抗体第j个基因的信息熵,pij是字符中第i个符号出现在第j个基因上的概率。目前免疫算法中抗体抗原的编码方式主要有二进制编码、实数编码和字符编码,少数使用灰度编码。本法明中使用实数编码方式。
初次免疫效应:
步骤5设定RAIN网络规模,免疫激励阈值及终止条件最大迭代次数。
步骤6搭建并初始化RAIN网络,设置特异记忆抗体区和自由记忆抗体区。抗体所受到的激励作用的计算公式为:
S=TAg+TAb+UAb (2)
式中:S为抗体受到的总激励水平,TAg为抗原产生的激励作用,TAb和UAb分别为与该抗体有连接关系的其它抗体产生的激励和抑制作用。
其中Ws和Wc为阈值,用来调节支持度和置信度的作用强度,Ws+Wc=1,Ws≥0,Wc≥0;minsup是最小支持度,minconf是最小置信度;H(i)是每个抗体和抗体A之间的信息熵;1/n项突出多个抗原对抗体的平均激励作用,n为连接个数。
步骤7对所有抗原进行人工免疫训练,得到所有样区的记忆抗体数据库,对所有抗原的训练包括以下步骤:
1)根据式(2)计算抗原到RAIN网络中每个抗体的激励水平,从初始抗体记忆库中找到与该抗原最匹配的抗体。
2)当抗体受到的激励超过一定阈值时,克隆扩增,变异产生新抗体,方式如式(6):
CN=Co-α(Co-CAg) (6)
其中,CN为新生成的抗体,Co为网络中原有的抗体,CAg为新加入的抗原,α为学习率或变异率。对最匹配的抗体进行克隆,得到克隆抗体种群。计算此时抗体的适应值,即各关联规则的支持度与置信度之和:
fit(i)=Sup(i)+Conf(i) (7)
对于克隆新生成的抗体,实施超变异操作,抗体的适应值越高,其对应的变异率越小。接下来计算抗体的期望值,期望值低的将受到抑制。抗体在种群中的浓度为:
抗体的期望值为:
由上式可知,与抗原亲和力高的抗体和低密度的抗体生存的机率较大。由于高亲和力的抗体得到促进,高密度的抗体受到抑制,从而体现出免疫控制的多样性。
3)对于经过2)的抗体种群,判断该种群的平均刺激水平是否达到设定激励水平,如果达到则进入4),否则对该种群进行克隆变异操作,从步骤7重新开始计算,直到满足阈值条件。
4)从抗体种群中选择对抗原刺激水平最大的细胞作为候选记忆抗体,然后比较候选记忆抗体与步骤6中得到的自由记忆抗体的刺激水平大小由两者激励水平最高者来进化特异记忆抗体区中激励水平最低的抗体。
步骤8再次建立RAIN网络中所有抗体之间的连接。
步骤9测试第i个样本抗原训练是否完成,完成则复位自由记忆抗体区,否则返回步骤7。
步骤10测试所有样本训练是否完成,完成则输出RAIN网络,否则返回步骤7。
二次免疫效应:
步骤11设定RAIN网络各特异记忆区激活的阈值
步骤12抗原作用于RAIN网络,计算网络中各个特异记忆抗体所受的激励,如式(10)。
其中,Leni是第i类特异记忆抗体区的规模大小。
步骤13比较激励水平与特异记忆区激活的阈值,如较激励水平SLi大于阈值则该类特异记忆抗体区被激活,获得参与识别该抗原的资格。具备识别资格的特异记忆抗体竞争识别抗原,受激励最大者,识别抗原成功。否则返回步骤7进行初次免疫。
步骤14输出识别结果各类的特异记忆区的激励水平。
步骤15测试二次免疫响应是否完成,完成则保存识别结果和特异记忆区的激励水平,否则返回步骤12。
步骤16若终止条件满足,则把编码还原为规则,对关联规则进行提取和优化,结束挖掘过程,否则返回步骤4。优化包括以下两点:(1)将一种属性作为结果数据,其余的数据作为参数数据,则只有形如{参数1,参数2,参数3…}=>结果的规则才是有趣的。(2)引入一种相关度量--提升度,A和B的出现之间的提升度可以通过下式得到:
如果lift(A,B)的值小于1,则A的出现和B的出现是负相关的。如果结果值大于1,则A和B是正相关的,意味着一个的出现蕴含另一个的出现。如果结果等于1,则A和B是独立的,他们之间是没有相关性的。
机译: 基于项目子集实例树的最小非约简关联规则挖掘方法
机译: 基于向量运算的关联规则挖掘方法
机译: 基于项目子集实例树的最小非约简关联规则挖掘方法