首页> 中国专利> 顾及空间实例距离权重的自适应同位模式获取方法和装置

顾及空间实例距离权重的自适应同位模式获取方法和装置

摘要

本发明提供一种顾及空间实例距离权重的自适应同位模式获取方法和装置;所述方法,包括:将同一空间特征的实例作为目标图层,构建泰森多边形,基于当前目标图层的实例与其它特征实例在泰森多边形影响范围的连接关系,构建归一化实例对偶表;对归一化实例对偶表的距离集合进行分布参数计算,获得归一化距离截断参数;利用归一化距离截断参数构造距离回馈函数,计算任意两个不同特征的连接实例对的距离回馈值;在所述距离回馈阈值下,获取最终的基于距离回馈函数计算的同位模式。解决了常规同位模式挖掘方法在区域适应性、高效性和有效性方面的不足。

著录项

  • 公开/公告号CN105528423A

    专利类型发明专利

  • 公开/公告日2016-04-27

    原文格式PDF

  • 申请/专利权人 中国科学院遥感与数字地球研究所;

    申请/专利号CN201510891697.0

  • 申请日2015-12-07

  • 分类号G06F17/30;

  • 代理机构北京名华博信知识产权代理有限公司;

  • 代理人李冬梅

  • 地址 100101 北京市朝阳区大屯路甲20号北中国科学院遥感与数字地球研究所A101

  • 入库时间 2023-12-18 15:50:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-17

    授权

    授权

  • 2016-05-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151207

    实质审查的生效

  • 2016-04-27

    公开

    公开

说明书

技术领域

本发明涉及空间数据模式挖掘领域,尤其涉及一种针对空间点要 素数据的自适应的,并且考虑点要素邻近距离权重的同位模式挖掘方 法和装置。

背景技术

空间同位模式是指一系列空间特征的组合,这些组合的点实例要 素在同一地点频繁的出现,往往表征着它们在空间上有某种普遍的依 赖关系。同位模式挖掘目前已经在种群分布、移动通讯、公共安全、 环境管理、城市规划等领域有广泛的应用,其挖掘的结果可以为学者 进一步研究空间特征分布的内在机理提供线索,也可以辅助决策者进 行科学的预判。以城市规划为例,有人发现某一新城大部分的学校周 边1000米没有邮政点,而利用北京核心功能区的设施数据进行同位 模式挖掘,其结果表明学校和邮政点属于显著度为89%的同位模式, 基于该事实,决策者可适量的将邮政引入学校周边,以减小人口流动 半径,缓建交通压力,降低各方面的资源浪费。

传统的同位模式挖掘方法普遍需要用户自行设定统一的距离阈 值,即使其中有一些由于所处理的数据类型和挖掘目标有所拓展而在 原来距离度量的指标上做了改进而换成了其它指标,如把距离阈值改 为密度阈值。然而,这种仅凭用户经验来设定距离阈值的方法很不现 实:区域具有特异性,区域上的数据分布也有疏密之分,偏小的距离 阈值难以挖出有用的模式,偏大的距离阈值会导致大量无用的模式产 生。虽然目前已有一些改进方法不需要用户设置距离阈值,但他们普 遍利用最近邻思路或迭代优化的方法对算法进行改造,很难对实例间 的距离特征有全局的认识,而考虑全局连接关系的效率问题会限制算 法在大数据集上的计算。其次,传统方法基于参与度的流行模式判定 方法,在计算中并没有考虑实例之间的连接紧密程度,即没有讨论实 例之间的距离权重对模式流行程度的影响。而实际上,根据地理学第 一定律,相近的事物联系更紧密,所以近距离实例关系对模式流行程 度大小的影响,要大于远距离的实例关系。因此,需要构建一种新型 有效的计算体系来评价模式的显著性。

总之,目前没有相关的文献或公开的方法,能够在同时考虑区域 数据疏密和实例之间距离权重影响的情况下,高效快速的发现空间上 的同位模式。

发明内容

本发明旨在解决上面描述的问题。本发明的一个目的是提供一种 解决以上问题中的任何一个的顾及空间实例距离权重的自适应同位 模式获取方法和装置。具体为:

本发明的一方面提供了一种顾及空间实例距离权重的自适应同 位模式获取方法,包括:

将同一空间特征的实例作为目标图层,构建泰森多边形,基于当 前目标图层的实例与其它特征实例在泰森多边形影响范围的连接关 系,构建归一化实例对偶表;

对归一化实例对偶表的距离集合进行分布参数计算,获得归一化 距离截断参数;

利用归一化距离截断参数构造距离回馈函数,计算任意两个不同 特征的连接实例对的距离回馈值;

在所述距离回馈阈值下,获取最终的基于距离回馈函数计算的同 位模式。

本发明提供的方法还具有如下特点:所述构建归一化实例对偶表 的步骤包括:

针对每一类空间特征ei,将其实例作为目标图层,创建泰森多边 形图;

基于泰森多边形图所划定的目标实例的影响区间,建立每一个实 例与其它特征ej的实例的关联关系,并将这些关联的实例对和它 们的距离存储在二维哈希表table_instancevor中;其中, table_instancevor(ei,ej)为二阶有序模式(ei,ej)的Cell信息,表示以ei为目 标图层,特征为ej的实例与目标图层实例进行连接所获取的行实例 信息,表示特征为ei的第k个实例,Cell信息包括二阶有序模式 (ei,ej)的可连接实例对insPair和其对应的距离值dis;

通过公式(1),计算不同特征的连接实例对之间的归一化距离, 替换所述二维哈希表的距离值:

Nordis(pkei,pwej)=dis(pkei,pwej)-min(DisVP)max(DisVP)-min(DisVP)---(1),

其中,dis(a,b)表示两个实例a,b之间的欧氏距离,

DisVP表示table_instancevor中所有的实例对的距离集合,

min(T)和max(T)分别表示取集合T的最小和最大值;

对所述二维哈希表进行无序处理,得到归一化实例对偶表 步骤包括:

把满足j>i的table_instancevor(ej,ei)中的任意有序二阶模式Cell信息 的实例对顺序互换后,得到新的二维哈希表

将所述新的二维哈希表中满足j>i的的Cell 信息与原table_instancevor(ei,ej)对应的Cell信息进行求并处理,得到最终 的归一化实例对偶表

本发明提供的方法还具有如下特点:对于实例数大于12000的数 据集,利用所述归一化实例对偶表中的归一化距离集合,在显著水平 α=0.05的前提下,进行广义极大值分布函数的参数拟合,对于χ2检 验中拟合优度大于0.8的情况,设定所述的归一化距离截断为 μ±stderr;其中μ表示广义极值极大值拟合函数的位置参数,stderr 表示拟合的残差;或者,

对于其它不符合实例数和拟合优度条件的情况,将归一化距离的 均值作为截断值。

本发明提供的方法还具有如下特点:利用所述归一化距离截断参 数,构建距离回馈函数,计算任意两个不同特征的连接实例对的距离回馈值:

Reward(pkei,pwej)=(lclose-Nordis(pkei,pwej)lclose)2Nordis(pkei,pwej)<lclose-(Nordis(pkei,pwej)-lfar1-lfar)2Nordis(pkei,pwej)>lfar0lcloseNordis(pkei,pwej)lfar---(2),

其中,lclose=μ-stderr,且lfar=μ+stderr。

本发明提供的方法还具有如下特点:在所述距离回馈阈值下,获 取最终的基于距离回馈函数计算的同位模式的步骤包括:

以所述归一化实例对偶表的行列位置所对应的特征对{ei,ej}为初 始的候选同位模式c,迭代以下子步骤1-5,直到|c|阶同位模式没有 大于距离回馈阈值的成员,其中,j>i,

当|c|=2时,省略子步骤1-2,直接跳转到子步骤3;

子步骤1:对于候选模式c={ei...ek},根据所述归一化实例对偶表 中的实例对,求出候选模式的团实例insCliquec,其中,候选模式c中 包含的特征按照字典序进行排列,即满足k≥j>i,insCliquec是指基于 泰森多边形,在空间上有全连接关系的不同特征的实例的组合,即团 实例中抽取的任意两个实例对,在归一化实例对偶表中都能找到对应 项;

子步骤2:根据公式(3),求算候选模式c中包含的任意两个 二阶模式{ei,ej}的实例对在insCliquec约束下的距离回馈值:

Rewardc(pkei,pwej)=Reward(pkei,pwej)(pkei,pwej)π{ei,ej}(insCliquec)-||Reward(pkei,pwej)||(pkei,pwej)π{ei,ej}(insCliquec)---(3),

其中,表示求取二阶模式{ei,ej}在insCliquec上的投 影;

子步骤3:通过公式(4),求算二阶模式{ei,ej}在c={ei...ek}约束 下的距离回馈值:

Rewardc(ei,ej)=avg{Rewardc(pkei,pwej)|(pkei,pwej)table_instancevor(ei,ej).insPair}---(4),

其中,表示二阶模式{ei,ej}对应的归一 化实例对偶表中的所有实例对集合,avg表示求算平均值;

子步骤4:通过公式(5),求算模式c={ei...ek}的基于距离回馈 函数计算的流行程度:

Rewardc=mini<j≤k{Rewardc(ei,ej)}(5),

将大于给定距离回馈阈值θ的候选模式判定为最终的|c|阶同位 模式,即最终的同位模式需满足Rewardc>θ;

子步骤5:以|c|阶同位模式为依据,将前|c|-1位具有相同特征 的同位模式求并,获取|c|+1阶候选同位模式c’,令c=c’。

本发明的另一个方面还提供了一种顾及空间实例距离权重的自 适应同位模式获取装置,包括:

归一化实例对偶表构建模块,用于将同一空间特征的实例作为目 标图层,构建泰森多边形,基于当前目标图层的实例与其它特征实例 在泰森多边形影响范围的连接关系,构建归一化实例对偶表;

归一化距离截断参数获取模块,用于对归一化实例对偶表的距离 集合进行分布参数计算,获得归一化距离截断参数;

实例对距离回馈值计算模块,用于利用归一化距离截断参数构造 距离回馈函数,计算任意两个不同特征的连接实例对的距离回馈值;

同位模式获取模块,用于在所述距离回馈阈值下,获取最终的基 于距离回馈函数计算的同位模式。

本发明提供的装置还具有如下特点:所述归一化实例对偶表构建 模块具体用于:

泰森多边形创建单元,用于针对每一类空间特征ei,将其实例作 为目标图层,创建泰森多边形图;

二维哈希表创建单元,用于基于泰森多边形图所划定的目标实例 的影响区间,建立每一个实例与其它特征ej的实例的关联关系, 并将这些关联的实例对和它们的距离存储在二维哈希表 table_instancevor中;其中,table_instancevor(ei,ej)为二阶有序模式(ei,ej)的 Cell信息,表示以ei为目标图层,特征为ej的实例与目标图层实例 进行连接所获取的行实例信息,表示特征为ei的第k个实例,Cell 信息包括二阶有序模式(ei,ej)的可连接实例对insPair和其对应的距 离值dis;

归一化距离计算单元,用于计算不同特征的连接实例对之间的归 一化距离,替换所述二维哈希表的距离值,见公式(1):

Nordis(pkei,pwej)=dis(pkei,pwej)-min(DisVP)max(DisVP)-min(DisVP)---(1),

其中,dis(a,b)表示两个实例a,b之间的欧氏距离,

DisVP表示table_instancevor中所有的实例对的距离集合,

min(T)和max(T)分别表示取集合T的最小和最大值;

无序处理单元,用于对所述二维哈希表进行无序处理,得到归一 化实例对偶表

所述无序处理单元,具体用于:

把满足j>i的table_instancevor(ej,ei)中的任意有序二阶模式Cell信息 的实例对顺序互换后,得到新的二维哈希表

将所述新的二维哈希表中满足j>i的的Cell 信息与原table_instancevor(ei,ej)对应的Cell信息进行求并处理,得到最终 的归一化实例对偶表

本发明提供的装置还具有如下特点:所述归一化距离截断参数获 取模块具体用于:

对于实例数大于12000的数据集,利用所述归一化实例对偶表中 的归一化距离集合,在显著水平α=0.05的前提下,进行广义极大值 分布函数的参数拟合,对于χ2检验中拟合优度大于0.8的情况,设定 所述的归一化距离截断为μ±stderr;其中μ表示广义极值极大值拟合 函数的位置参数,stderr表示拟合的残差;或者,

对于其它不符合实例数和拟合优度条件的情况,将归一化距离的 均值作为截断值。

本发明提供的装置还具有如下特点:所述实例对距离回馈值计算 模块具体用于,计算任意两个不同特征的连接实例对的距离 回馈值,见公式(2):

Reward(pkei,pwej)=(lclose-Nordis(pkei,pwej)lclose)2Nordis(pkei,pwej)<lclose-(Nordis(pkei,pwej)-lfar1-lfar)2Nordis(pkei,pwej)>lfar0lcloseNordis(pkei,pwej)lfar---(2),

其中,lclose=μ-stderr,且lfar=μ+stderr。

本发明提供的装置还具有如下特点:所述同位模式获取模块,具 体用于:

以所述归一化实例对偶表的行列位置所对应的特征对{ei,ej}为初 始的候选同位模式c,迭代以下子步骤1-5,直到|c|阶同位模式没有 大于距离回馈阈值的成员,其中,j>i,

当|c|=2时,省略子步骤1-2,直接跳转到子步骤3;

子步骤1:对于候选模式c={ei...ek},根据所述归一化实例对偶表 中的实例对,求出候选模式的团实例insCliquec,其中,候选模式c中 包含的特征按照字典序进行排列,即k≥j>i,insCliquec是指基于泰森 多边形,在空间上有全连接关系的不同特征的实例的组合,即团实例 中抽取的任意两个实例对,在归一化实例对偶表中都能找到对应项;

子步骤2:根据公式(3),求算候选模式c中包含的任意两个 二阶模式{ei,ej}的实例对在insCliquec约束下的距离回馈值:

Rewardc(pkei,pwej)=Reward(pkei,pwej)(pkei,pwej)π{ei,ej}(insCliquec)-||Reward(pkei,pwej)||(pkei,pwej)π{ei,ej}(insCliquec)---(3),

其中,表示求取二阶模式{ei,ej}在insCliquec上的投 影;

子步骤3:通过公式(4),求算二阶模式{ei,ej}在c={ei...ek}约束 下的距离回馈值:

Rewardc(ei,ej)=avg{Rewardc(pkei,pwej)|(pkei,pwej)table_instancevor(ei,ej).insPair}---(4),

其中,表示二阶模式{ei,ej}对应的归一 化实例对偶表中的所有实例对集合,avg表示求算平均值;

子步骤4:通过公式(5),求算模式c={ei...ek}的基于距离回馈 函数计算的流行程度:

Rewardc=mini<j≤k{Rewardc(ei,ej)}(5),

将大于给定距离回馈阈值θ的候选模式判定为最终的|c|阶同位 模式,即最终的同位模式需满足Rewardc>θ;

子步骤5:以|c|阶同位模式为依据,将前|c|-1位具有相同特征 的同位模式求并,获取|c|+1阶候选同位模式c’,令c=c’。

同位模式是一组空间特征的子集,表示他们的实例组合在空间上 频繁的出现。现有相关技术中,很难在同时考虑区域数据疏密和实例 之间距离权重影响的情况下,高效快速的发现空间上的同位模式。

本发明针对该问题,提出了一种基于泰森多边形和距离回馈函数 的同位模式挖掘方式,利用泰森多边形的特性,在实例的影响区域内 确立不同特征实例间的领域关系,并以此为依据,获得实例之间的极 大距离统计特征,而后将特征参数用于构建候选模式的距离回馈函数, 来度量模式的流行程度。

该方法的优点在于:1)省去了用户预先设定距离阈值的操作, 规避了在未知区域上进行挖掘的不确定性;

2)考虑了实例之间距离权重对模式流行程度的影响,更符合实 际应用场景;

3)泰森多边形的使用,极大降低了实例对连接的计算量,使得 运算效率大幅提高。

参照附图来阅读对于示例性实施例的以下描述,本发明的其它特 性特征和优点将变得清晰。

附图说明

并入到说明书中并且构成说明书的一部分的附图示出了本发明 的实施例,并且与描述一起用于解释本发明的原理。在这些附图中, 类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的 一些实施例,而不是全部实施例。对于本领域普通技术人员来讲,在 不付出创造性劳动的前提下,可以根据这些附图获得其它的附图。

图1为本发明的实施例一提供的一种顾及空间实例距离权重的 自适应同位模式获取方法的流程图;

图2为构建归一化实例对偶表的方法示意图;

图3为从二阶候选同位模式,获取最终的基于距离回馈函数计算 的同位模式的迭代流程图;

图4为本发明的实施例二提供的一种顾及空间实例距离权重的 自适应同位模式获取装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结 合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护 的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实 施例中的特征可以相互任意组合。

为了更好的对本发明的实施例所提供的技术方案进行阐述,首先 对如下概念进行说明:

泰森多边形:是由一组连接两邻接点的直线的垂直平分线组成的 连续多边形几何。它按照最邻近原则划分平面,每个点与它的最近邻 区域相关联。

SHP数据类型:shapefile的简称,是ESRI公司开发的一种空间 数据开放格式。

有序模式:是指一系列有排序的空间特征的向量。

广义极值分布:符合高峰胖尾的曲线特征,是极值理论的一个重 要分支,统一了Gumbel,Fréchet和Weibull三种极值分布模型,用于 模拟变量为极值序列的应用场景,在气象、经济学上已有广泛的应用。 该分布函数涉及三个关键参数,即位置参数μ,尺度参数σ,和形状 参数k。

下面结合附图,对本发明的实施例一进行说明。

本发明提供一种顾及空间实例距离权重的自适应同位模式获取 方法,输入为欧式空间的点状SHP数据P={p1,p2,...pn},以及这些数 据所涉及到的空间特征类型E={e1,e2,...em},其中,每个点实例包含 编号、类型和X、Y坐标(为了强调实例的空间特征,以下将特征为 ei的第j个实例表示为)。该方法的流程如图1所示,包括:

步骤101、将同一空间特征的实例作为目标图层,构建泰森多边 形,基于当前目标图层的实例与其它特征实例在泰森多边形影响范围 的连接关系,构建归一化实例对偶表;

归一化实例对偶表的构建理念源于自然界的一个性质:大多数物 体在空间上会处于它们形成的场力的平衡点。两种类型(A、B)的 物体若在空间上存在某种关系,那属于类型A的物体更倾向于受到它 周边场力最大的B类型的物体的影响,反之亦然。由此可推理出,若 A,B类型相互吸引,那么它们的实例大多会分布在彼此影响区域的核 地带,反之则会分布在彼此场力最薄弱的边缘地带。由于其连接操作 被限制在单个实例的影响范围内,因此其连接数相比传统的方法,有 很大程度的减少。该步骤涉及三个子步骤:

子步骤1:利用泰森多边形来确定所有特征对应实例的领域对象。 对于每一类空间特征ei,将该特征下的实例作为目标图层,创建泰森 多边形图。这样,每一个实例相关的其它特征的实例可表示为:

VP(pjei)={pCPPei|dis(p,pkei)dis(p,pwei)for>all>kw}---(1)

上式中,可以在地理信息系统中通过叠加分析进行计算; 表示特征为非ei的实例集合;dis(a,b)表示两个空间实例a,b的欧 氏距离。

子步骤2:将上一步中获取的实例对和它们之间的距离值存储在 m*m的二维哈希表中,用table_instancevor表示。table_instancevor(ei,ej)即表 示以ei为目标图层,特征为ej的实例与目标图层实例进行连接所获 取的行实例信息,以下简称为二阶有序模式(ei,ej)的Cell信息。Cell 信息包括二阶有序模式(ei,ej)的可连接实例对insPair和其对应的距 离值dis。

通过公式(2),计算不同特征的连接实例对之间的归一化距离, 替换所述二维哈希表的距离值。

Nordis(pkei,pwej)=dis(pkei,pwej)-min(DisVP)max(DisVP)-min(DisVP)---(2)

上式中,dis(a,b)表示两个实例a,b之间的欧氏距离;DisVP表示 table_instancevor中所有的实例对的距离集合;min(T)和max(T)分别表示 取集合T的最小和最大值。

子步骤3:将table_instancevor中有序模式的实例对变为无序,即把满 足j>i的table_instancevor(ej,ei)中的任意有序二阶模式Cell信息的实例对 顺序互换后,得到新的二维哈希表然后,将新的二维 哈希表中满足j>i的的Cell信息与原 table_instancevor(ei,ej)对应的Cell信息进行求并处理,得到最终的归一化 实例对偶表

为了更清楚的说明步骤101的过程,图2给出了图形化的示例。 假设空间X中有一系列特征为E={A,B,...,et}的实例 P={A1,A2,...A5,B1,...B9,C1,...C5,...},图2(a)展示了以特征A的实例为目 标图层构建的泰森多边形(为了简化说明,只以阴影区域为提取示例), 其中,实例A5的对应连接实例为B4、B8、B7和C3。对所有特征做完 实例对连接和距离归一化处理后,形成了图2(b)所示的二维哈希表。 最后,对table_instancevor进行无序化处理,形成图3(c)的

步骤102、对归一化实例对偶表的距离集合进行分布参数计算, 获得归一化距离截断参数;

该步骤通过计算空间实例与其影响范围内的其它特征实例的距 离的统计分布规律,来获得指代这个区域大概数据密度特征的两个 “截断参数”,用以取代传统同位模式挖掘的距离阈值设定过程。

在归一化实例对偶表的构建过程中,基于泰森多边形求取当前实 例最靠近目标特征的实例,是一种区域极大值的求值策略,因此,可 以推测出的“归一化距离集合(记作NordisVP)”的分布更 倾向于广义极值分布规律。实际上,本发明利用北京的城市设施点状 数据进行了分区同位模式挖掘的实验,8个数据量都在1.2万以上的 连续平面区域的NordisVP,在显著水平α=0.05的χ2拟合检测中,都符 合广义极大值的统计分布规律,拟合优度均在0.89以上,最高达到 0.9839,满足了人类活动现象的统计拟合要求。如此一来,在 中,那些具有潜在邻近关系的特征对,通常包含更多相 对“变量的拟合峰值μ±stderr(α=0.05)”而偏小的归一化距离值,反之, 则包含更多相对于拟合峰值而偏大的归一化距离值。其中,μ表示广 义极值极大值拟合函数的位置参数,stderr表示拟合的残差。

根据上述推理和所述的实验结果,在实例数大于12000,且显著 性水平α=0.05的χ2拟合检测中,若拟合优度大于0.8,本发明将 μ±stderr(α=0.05)的两个边界值作为截断参数,这两个值把[0,1]距离轴 剖分为三部分:1)>μ+stderr(α=0.05),指代远距离关系;2) <μ-stderr(α=0.05),指代近距离关系;3)[μ-stderr,μ+stderr],表征归 一化距离在该区间出现的概率最大,反映的是分布的平均特征。对于 其它不符合实例数和拟合优度条件的情况,将归一化距离的均值作为 截断值。

步骤103、利用归一化距离截断参数构造距离回馈函数,计算任 意两个不同特征的连接实例对的距离回馈值;

根据地理学第一定律,近距离关系的实例对,对模式流行程度的 贡献,要大于远距离关系的实例对。基于这一设定,本发明构建了一 个单调递减函数,见公式(3),用以计算两个不同类型的实例对 的距离回馈值,该函数的取值范围为[-1,1]。

Reward(pkei,pwej)=(lclose-Nordis(pkei,pwej)lclose)2Nordis(pkei,pwej)<lclose-(Nordis(pkei,pwej)-lfar1-lfar)2Nordis(pkei,pwej)>lfar0lcloseNordis(pkei,pwej)lfar---(3)

上式中,lclose=μ-stderr,且lfar=μ+stderr。

步骤104、在给定的距离回馈阈值下,获取最终的基于距离回馈 函数计算的同位模式。

本步骤以归一化实例对偶表的行列位置所对应的特征对{ei,ej}为 初始的候选同位模式c,迭代子步骤1-5,直到|c|阶同位模式没有大 于距离回馈阈值的成员,该步骤的迭代流程如图3所示。其中,j>i。 当|c|=2时,省略子步骤1-2,直接跳转到子步骤3。

子步骤1:对于候选模式c={ei...ek},根据所述归一化实例对偶表 中的实例对,求出候选模式的团实例insCliquec。其中,候选模式c中 包含的特征按照字典序进行排列,即k≥j>i,insCliquec是指基于泰森 多边形,在空间上有全连接关系的不同特征的实例的组合,即团实例 中抽取的任意两个实例对,在归一化实例对偶表中都能找到对应项。

子步骤2:根据公式(3),求算候选模式c中包含的任意两个 二阶模式{ei,ej}的实例对在insCliquec约束下的距离回馈值。参 与团实例构建的实例对,保留其原来的距离回馈值;不能参与构成团 实例的实例对,对模式的流行程度会有一个逆向的作用,而这种逆向 作用,通过求取其距离回馈值的绝对值负数来定义。

Rewardc(pkei,pwej)=Reward(pkei,pwej)(pkei,pwej)π{ei,ej}(insCliquec)-||Reward(pkei,pwej)||(pkei,pwej)π{ei,ej}(insCliquec)---(3)

上式中,表示求取二阶模式{ei,ej}在insCliquec上的 投影。

子步骤3:通过公式(4),求算二阶模式{ei,ej}在c={ei...ek}约束 下的距离回馈值。该值的计算同时顾忌了远距离和近距离实例对,对 模式流行程度的影响,因此在模式的显著度判定上,比传统的仅依赖 “团实例所属模式的所有单个特征上的实例投影个数和其相同特征的 实例个数的比值的最小值”的流行指数计算方法,更有说服力。

Rewardc(ei,ej)=avg{Rewardc(pkei,pwej)|(pkei,pwej)table_instancevor(ei,ej).insPair}---(4)

上式中,表示二阶模式{ei,ej}对应的 归一化实例对偶表中的所有实例对集合,avg表示求算平均值。

子步骤4:通过公式(5),求算模式c={ei...ek}的基于距离回馈 函数计算的流行程度。

Rewardc=mini<j≤k{Rewardc(ei,ej)}(5)

从公式(5)可以看出,该值的取值范围为(-1,1),因此用户可以 模拟流行阈值的设定方式,为模式的距离回馈值设定下限,以获得层 次性的同位模式挖掘结果,即将大于给定距离回馈阈值θ的候选模式 判定为最终的|c|阶同位模式。

子步骤5:以|c|阶同位模式为依据,将前|c|-1位具有相同特征 的同位模式求并,获取|c|+1阶候选同位模式c’,令c=c’。

图4为本发明提供的顾及空间实例距离权重的自适应同位模式 获取装置。图4所示装置,包括:

归一化实例表构建模块401,用于将同一空间特征的实例为目标 图层,构建泰森多边形,基于当前目标图层的实例与其它特征实例在 泰森多边形影响范围的连接关系,构建归一化实例对偶表;

归一化距离截断参数获取模块402,用于对归一化实例对偶表的 距离集合进行分布参数计算,获得归一化距离截断参数;

实例对距离回馈值计算模块403,用于利用归一化距离截断参数 构造的距离回馈函数,计算任意两个不同特征的连接实例对的距离回 馈值;

同位模式获取模块404,用于在所述距离回馈阈值下,获取最终 的基于距离回馈函数计算的同位模式。

其中,所述构建模块401具体用于:

泰森多边形创建单元,用于针对每一类空间特征ei,将其实例作 为目标图层,创建泰森多边形图;

二维哈希表创建单元,用于基于泰森多边形图所划定的目标实例 的影响区间,建立每一个实例与其它特征ej的实例的关联关系, 并将这些关联的实例对和它们的距离存储在二维哈希表 table_instancevor中;其中,table_instancevor(ei,ej)为二阶有序模式(ei,ej)的 Cell信息,表示以ei为目标图层,特征为ej的实例与目标图层实例 进行连接所获取的行实例信息,Cell信息包括二阶有序模式(ei,ej)的 可连接实例对insPair和其对应的距离值dis;

归一化距离计算单元,用于计算不同特征的连接实例对之间的归 一化距离,替换所述二维哈希表的距离值,见公式(1):

Nordis(pkei,pwej)=dis(pkei,pwej)-min(DisVP)max(DisVP)-min(DisVP)---(1),

上式中,dis(a,b)表示两个实例a,b之间的欧氏距离,

DisVP表示table_instancevor中所有的实例对的距离集合,

min(T)和max(T)分别表示取集合T的最小和最大值;

无序处理单元,用于对所述二维哈希表进行无序处理,得到归一 化实例对偶表

其中,所述无序处理单元,具体用于:

把满足j>i的table_instancevor(ej,ei)中的任意有序二阶模式Cell信息 的实例对顺序互换后,得到新的二维哈希表

将所述新的二维哈希表中满足j>i的中的Cell 信息与原table_instancevor(ei,ej)对应的Cell信息进行求并处理,得到最终 的归一化实例对偶表

其中,所述归一化截断参数获取模块402,具体用于:

对于实例数大于12000的数据集,利用所述归一化实例对偶表中 的归一化距离集合,在显著水平α=0.05的前提下,进行广义极大值 分布函数的参数拟合,对于χ2检验中拟合优度大于0.8的情况,设定 所述的归一化距离截断为μ±stderr;其中μ表示广义极值极大值拟合 函数的位置参数,stderr表示拟合的残差;或者,

对于其它不符合实例数和拟合优度条件的情况,将归一化距离的 均值作为截断值。

其中,所述实例对距离回馈值计算模块403,具体用于,计算任 意两个不同特征的连接实例对的距离回馈值,见公式(2):

Reward(pkei,pwej)=(lclose-Nordis(pkei,pwej)lclose)2Nordis(pkei,pwej)<lclose-(Nordis(pkei,pwej)-lfar1-lfar)2Nordis(pkei,pwej)>lfar0lcloseNordis(pkei,pwej)lfar---(2),

上式中,lclose=μ-stderr,且lfar=μ+stderr。

其中,所述同位模式获取模块404,具体用于:

以所述归一化实例对偶表的行列位置所对应的特征对{ei,ej}为初 始的候选同位模式c,迭代以下子步骤1-5,直到|c|阶同位模式没有 大于距离回馈阈值的成员,其中,j>i,

当|c|=2时,省略子步骤1-2,直接跳转到子步骤3;

子步骤1:对于候选模式c={ei...ek},根据所述归一化实例对偶表 中的实例对,求出候选模式的团实例insCliquec,其中,候选模式c中 包含的特征按照字典序进行排列,即k≥j>i,insCliquec是指基于泰森 多边形,在空间上有全连接关系的不同特征的实例的组合,即团实例 中抽取的任意两个实例对,在归一化实例对偶表中都能找到对应项;

子步骤2:根据公式(3),求算候选模式c中包含的任意两个 二阶模式{ei,ej}的实例对在insCliquec约束下的距离回馈值:

Rewardc(pkei,pwej)=Reward(pkei,pwej)(pkei,pwej)π{ei,ej}(insCliquec)-||Reward(pkej)||(pkei,pwej)π{ei,ej}(insCliquec)---(3),

上式中,表示求取二阶模式{ei,ej}在insCliquec上的 投影;

子步骤3:通过公式(4),求算二阶模式{ei,ej}在c={ei...ek}约束 下的距离回馈值:

Rewardc(ei,ej)=avg{Rewardc(pkei,pwej)|(pkei,pwej)table_instancevor(ei,ej).insPair}---(4),

上式中,表示二阶模式{ei,ej}对应的归 一化实例对偶表中的所有实例对集合,avg表示求算平均值;

子步骤4:通过公式(5),求算模式c={ei...ek}的基于距离回馈 函数计算的流行程度:

Rewardc=mini<j≤k{Rewardc(ei,ej)}(5),

将大于给定距离回馈阈值θ的候选模式判定为最终的|c|阶同位 模式,即最终的同位模式需满足Rewardc>θ;

子步骤5:以|c|阶同位模式为依据,将前|c|-1位具有相同特征 的同位模式求并,获取|c|+1阶候选同位模式c’,令c=c’。

本发明提供的方法和装置实施例,与现有技术中的同位模式挖掘 方法相比,在区域适应性、高效性和有效性方面享有优势:第一,不 需要用户预先设定距离阈值,而是从区域实例与其影响范围内的实例 的距离分布规律,得出相应的距离截断参数来替代距离阈值,因此挖 掘不受限于用户对数据的了解程度,具有更强的区域适用性;第二, 由于使用了泰森多边形,使得连接计算限制在实例的影响范围内,取 代了传统的单一距离阈值限定的连接思路,因此大幅度减小了连接计 算量,改善了挖掘的效率;第三,考虑了实例连接的距离权重,尊重 了地理学第一定律,因此是一种更切合实际的同位模式挖掘方法,说 服力也更强。上面描述的内容可以单独地或者以各种方式组合起来实 施,而这些变型方式都在本发明的保护范围之内。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制。尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号