首页> 中国专利> 基于协同学涨落力的图像理解方法

基于协同学涨落力的图像理解方法

摘要

本发明公开了一种基于协同学涨落力的图像理解方法,利用协同学解决图像理解中相关问题。本发明-基于协同学涨落力的图像理解方法通过引入势函数动力学方程涨落力有效利用先验知识以及完善侧抑制项和添加一项语义多义性注意参数项解决多目标问题和二义性目标解决相关问题,体现场景与场景中目标互为指导、互为驱动的关系,并使系统成为“Everyone Takes Own Site”,而不再是“Winner Takes All”系统中只有一个获胜者,完成场景解释和场景中的目标识别。

著录项

  • 公开/公告号CN101315662A

    专利类型发明专利

  • 公开/公告日2008-12-03

    原文格式PDF

  • 申请/专利权人 合肥工业大学;

    申请/专利号CN200810022374.8

  • 申请日2008-06-28

  • 分类号G06K9/00(20060101);G06K9/64(20060101);

  • 代理机构34112 安徽合肥华信知识产权代理有限公司;

  • 代理人余成俊

  • 地址 230009 安徽省合肥市屯溪路193号

  • 入库时间 2023-12-17 21:02:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-08-26

    未缴年费专利权终止 IPC(主分类):G06K9/00 授权公告日:20111214 终止日期:20140628 申请日:20080628

    专利权的终止

  • 2011-12-14

    授权

    授权

  • 2009-01-28

    实质审查的生效

    实质审查的生效

  • 2008-12-03

    公开

    公开

说明书

技术领域

本发明涉及图像理解、计算机视觉和协同学领域,特别是一种基于协同学涨落力的图像理解方法。

背景技术

近年来计算机视觉技术发展迅速,场景描述和场景中目标识别是图像理解中的核心任务,让计算机识别判断场景中有什么物体,在哪儿,解决“what-where”问题。

在图像理解中,场景解释和场景中目标识别是重点,很多研究者都致力于场景解释和场景中目标识别方法的研究。传统的场景解释方法主要有两大块,一是集中于视觉心理学和生理学研究,主要研究快速场景感知的心理和生理机理;二是研究场景分类的计算模型,通过建立简单统计计算模型实现几类场景(室内/室外等)的判断。而传统的场景中目标识别方法主要是两大类:一是将不同尺度的窗口遍历滑动整个图像区域,采用统计、匹配、相关等方法判断指定窗口区域的类别或背景;二是通过统计目标间出现的可能性,构建目标间的共生关系,对目标的表示、位置以及尺度进行鲁棒估计,完成具有上下文关系的目标位置及类别的强预测。基于此的现有图像理解方法存在如下问题:如何用场景信息指导目标的选择注意;如何构建场景的先验信息来指导场景中的目标识别;如何将目标识别结果构建场景描述,形成可进一步进行场景中目标识别与场景理解的先验信息。

协同学中,系统中结构的演化并不是靠外界特定方式所规定的,系统形成其新结构是靠自组织,而达到自组织的四个基本特点是:开放性、非线性、存在涨落力、随机性。在传统协同学竞争的过程中,当目标实体的序参量落入吸引域中,学习即收敛结束,对于其它目标需要再重新进行学习,因此系统为“Winner Takes All”的系统;函数F(t)表示来自系统内部或外部的各种涨落力,但在一般情况下,涨落力被忽略。

总之,现有的图像理解方法存在难以利用先验知识提高理解准确性,在复杂场景中,无法对多个目标同时进行学习、分析和理解,针对目标的二义和多义问题难以进行有效判断决策等不足之处。而基于协同学涨落力的图像理解方法通过引入势函数动力学方程涨落力有效利用先验知识以及完善侧抑制项和添加一项语义多义性注意参数项解决多目标问题和二义性目标解决相关问题。

发明内容

本发明的目的在于提供基于协同学涨落力的图像理解方法,基于协同学原理对场景和场景中目标进行解释的方法,对场景进行描述和对场景中的目标进行识别。

本发明的技术方案如下:

一种基于协同学涨落力的图像理解方法,其特征在于:它包括以下步骤:

(1)引入场景和目标先验知识涨落力的势函数构建;

(2)动力学方程中完善侧抑制项;

(3)在上述势函数与动力学方程基础上,实现图像理解算法。

所述的一种基于协同学涨落力的图像理解方法,其特征在于:在所述的步骤(2)、(3)之间增加步骤(3A):动力学方程中添加语义多义性注意参数项。

所述的一种基于协同学涨落力的图像理解方法,其特征在于:步骤(1)中,在传统协同学中一般忽略F,但是由于F代表来自系统内部或外部的作用力,通过势函数中F的使用,将场景和目标的先验知识融入到图像理解的过程中,故先验知识可视为一种结构选择函数F=aα(x)+bβ(y)+cγ(z),a、b、c为控制参数,其取值为0或1,场景分类中,α(x)表示目标对场景的驱动,x表示输入的是经过语义编码的目标先验知识向量,此时由目标先验知识中目标间的关系对场景分类进行指导;在场景中的目标识别中,β(y)表示场景对目标的指导,y表示输入为经过语义编码的场景先验知识向量,γ(z)表示目标之间关系,先验知识中已有场景分类指导目标识别同时目标之间的关系也刺激目标识别;相应序参量的动力学方程和势函数分别如下所示:

在图像理解动力学方程中,vk是原型向量,vk+为原型向量的伴随向量,序参量ξk是待理解图像中场景或目标的特征,待识别模式q为输入的待理解图像中的场景或目标,λk为注意参数,B为各原型模式吸引域之间边界的参数,C为限制项参数;

ξ·k=λkξk-k3-(B+C)Σkkξk2ξk---(1)

V=-12Σk=1Mλkξk2+14BΣkkξk2ξk2+14C(Σk=1Mξk2)2---(2)

ξ·=-Vξ+F---(3).

所述的一种基于协同学涨落力的图像理解方法,其特征在于:步骤(2)中,在传统协同学学习的过程中,为“赢者全胜”的系统,动力学方程(1)中的第三项一侧抑制项,可以通过涨落力F,即引入的场景和目标的先验知识,改写该侧抑制项为(D+F)Σkkξk2ξk,D=B+C,使系统成为“各取各位”的系统,而不是“赢者全胜”网络中只有一个获胜者,通过势函数的动力学方程中的涨落力F,融合了场景和目标的先验知识中场景对目标的指导,增加与之相关的场景或目标的注意参数λk,而降低与之关联性不大的场景或目标的注意参数,同时在改写后的侧抑制项中,根据场景和目标的先验知识中目标间的关系,起到同样的激励或抑制作用,最后学习的结果为多个场景或目标的序参量同时落入已知的吸引域中,使系统的序参量层最后有多个合适序参量能够获胜,具有一定的容错性。

所述的一种基于协同学涨落力的图像理解方法,其特征在于:步骤(3A)中,对于场景中包含具有二义性的目标,需势函数和演化系统共同作用进行场景和目标的解释,当势函数演化时,由于先验知识的作用促进某些目标序参量的同时抑制了某些目标序参量,使具有多义性的目标很难被识别出来,因此对动力学方程添加一项语义多义性注意参数项,动力学方程变为:

ξ·k=λkξk-k3-(D+F)Σkkξk2ξk-GΣkkξkξk---(4)

其中G=e||vkc-vkc||,vkc′为动力学演化过程中得到的语义编码,在势函数演化过一次后,识别出符合场景对目标指导及目标间关系的目标后,语义多义性注意参数再发生作用,增加那些被抑制的目标序参量注意参数值,同时调用多义性目标原型向量,完成对多义性目标物体的识别,即首先识别同样场景中目标,再识别多义性场景中目标。

与其他图像理解方法相比,本发明提出的协同图像理解方法具有以下不同之处:

●采用协同学的方法研究图像理解中的学习问题;

●建立基于图像理解先验知识涨落力的势函数演化方程;

●建立具有多目标及二义性目标识别的势函数演化方程。

本发明通过改造序参量的动力学方程中的传统协同学一般忽略的涨落力F以及势函数动力学方程中的侧抑制项,体现场景与场景中目标互为指导、互为驱动的关系,并使系统成为“Everyone Takes Own Site”(各取各位),而不再是“Winner Takes All”(赢者全胜)系统中只有一个获胜者,完成场景解释和场景中的目标识别。

本发明的优点在于:引入先验知识,使用传统协同学一般忽略的涨落力,有利于图像理解过程,同时可以对多目标及二义性目标进行学习。

协同图像理解方法包括建立具有协同与竞争双重特性的势函数方程和具有场景指导、目标驱动的势函数演化控制方法,进行场景解释和场景中的目标识别。

附图说明

图1和图2是本发明基于协同学涨落力的图像理解方法的处理流程示意图。

图3为协同图像理解过程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步描述。

[例1]基于协同涨落力的常规图像理解方法

势函数是动力学演化的主体,表征了模式演化的过程。协同学的主要内容就是用演化方程来研究协同系统的各种非平衡定态和不稳定性,而图像理解的过程是对视觉信息和知识信息的处理分析过程,对场景和目标的表示具有全局和局部的关系。图像理解的过程对应于一个动力学过程;序参量ξk=(vk+,q)=vk+q,则相应序参量的动力学方程和势函数分别如公式(1)-(3)所示:

ξ·k=λkξk-k3-(B+C)Σkkξk2ξk---(1)

V=-12Σk=1Mλkξk2+14BΣkkξk2ξk2+14C(Σk=1Mξk2)2---(2)

ξ·=-Vξ+F---(3).

在图像理解中,vk是原型向量,vk+为原型向量的伴随向量,序参量ξk是待理解图像中场景或目标的特征,待识别模式q为输入的待理解图像中的场景或目标,λk为注意参数,B为各原型模式吸引域之间边界的参数,C为限制项参数;F称为涨落力,在传统协同学中一般忽略F,但是因为F代表来自系统内部或外部的作用力,因此本发明通过引入F,将场景和目标的先验知识融入到图像理解的过程中。

而图像理解的过程是场景中目标之间竞争与协同的过程,场景中目标之间的竞争与协同构成场景与场景、目标与目标、场景与目标之间的关系,构成目标、场景先验知识,将目标、场景先验知识经过编码成为包含语义编码的向量,成为目标向量、场景向量,这些先验知识是进行图像理解的重要内容,故先验知识可视为一种结构选择函数F=aα(x)+bβ(y)+cγ(z),a、b、c为控制参数,当进行场景分类时,a赋值为1,b和c赋值为0;当进行目标识别时,a赋值为0,b和c赋值为1,反应外界对系统内部的作用力;

在场景分类中,α(x)表示目标对场景的驱动,x表示输入的是经过语义编码的目标先验知识向量,忽略结构选择函数F的后两项,此时由目标先验知识中目标间的关系对场景分类进行指导,α(x)可写为阈值选择函数形式Σiθiψi(x)-Σjωjφj(x),包括类别正例项和负例项,ψi(x)和φj(x)可设置为近似阈值选择的sigmoid函数且互为反函数,加权系数θi和ωj用于控制函数的项数即场景分类的项数,从而形成目标驱动机制;先验知识中,当输入的目标向量出现在某类场景概率较大时,则正例项增加;当输入的目标向量不可能出现在某类场景概率较大时,则负例项增加:

ψi(x)=11+e-θix,φj(x)=11+e-wjx---(4)

在场景中的目标识别中,β(y)表示场景对目标的指导,y表示输入为经过语义编码的场景先验知识向量,γ(z)表示目标之间关系,忽略结构选择函数F的第一项,先验知识中已有场景分类指导目标识别同时目标之间的关系也刺激目标识别,β(y)=Σiθiψi(y)为一个累加函数,根据输入的场景x,每一个ψi(y)为阈值选择函数对应一个经过语义编码的目标向量,输入为场景先验知识,若该函数代表的目标属于此场景,则输出结果,若不属于,则不输出结果,权重θi表示场景指导的力度。γ(z)的构造类似,z表示经过语义编码的目标间关系的先验知识向量,如共生关系,空间关系以及姿势,则根据相应关系增加或减少目标序参量的注意参数λk值;

其中,基于协同学涨落力的图像理解方法的算法实现如下:

1)根据图像识别的需要,建立图像库,选取具有代表性的图像样本,对图像进行预处理,获取图像中场景和场景中目标的原型向量vk

2)求出原型向量vk的伴随向量vk+,并存储伴随向量矩阵,从而获得网络输入层到中间层的连接权值,完成网络学习;

3)待识别图像向量化,计算出输入模式向量q(0);

4)由输入模式向量q(0)和伴随向量vk+,求出序参量的初始值ξk(0);

5)各序参量根据动力学方程(3)竞争演化,直到所有序参量稳定于某些原型模式,待识别场景或场景中目标归入原型模式所代表的类别,从而完成对图像的理解。

[例2]基于协同涨落力的包含多目标及二义性目标图像理解方法

图像理解的过程对应于一个动力学过程;序参量ξk=(vk+,q)=vk+q,则相应序参量的动力学方程和势函数分别如公式(5)-(7)所示:

ξ·k=λkξk-k3-(B+C)Σkkξk2ξk---(5)

V=-12Σk=1Mλkξk2+14BΣkkξk2ξk2+14C(Σk=1Mξk2)2---(6)

ξ·=-Vξ+F---(7).

在图像理解中,vk是原型向量,vk+为原型向量的伴随向量,序参量ξk是待理解图像中场景或目标的特征,待识别模式q为输入的待理解图像中的场景或目标,λk为注意参数,B为各原型模式吸引域之间边界的参数,C为限制项参数;F称为涨落力,在传统协同学中一般忽略F,但是因为F代表来自系统内部或外部的作用力,因此本专利通过引入F,将场景和目标的先验知识融入到图像理解的过程中。

而图像理解的过程是场景中目标之间竞争与协同的过程,场景中目标之间的竞争与协同构成场景与场景、目标与目标、场景与目标之间的关系,构成目标、场景先验知识,将目标、场景先验知识经过编码成为包含语义编码的向量,成为目标向量、场景向量,这些先验知识是进行图像理解的重要内容,故先验知识可视为一种结构选择函数F=aα(x)+bβ(y)+cγ(z),a、b、c为控制参数,当进行场景分类时,a赋值为1,b和c赋值为0;当进行目标识别时,a赋值为0,b和c赋值为1,反应外界对系统内部的作用力;

在场景分类中,α(x)表示目标对场景的驱动,x表示输入的是经过语义编码的目标先验知识向量,忽略结构选择函数F的后两项,此时由目标先验知识中目标间的关系对场景分类进行指导,α(x)可写为阈值选择函数形式包括类别正例项和负例项,ψi(x)和φj(x)可设置为近似阈值选择的sigmoid函数且互为反函数,加权系数θi和ωj用于控制函数的项数即场景分类的项数,从而形成目标驱动机制;先验知识中,当输入的目标向量出现在某类场景概率较大时,则正例项增加;当输入的目标向量不可能出现在某类场景概率较大时,则负例项增加;

ψi(x)=11+e-θix,φj(x)=11+e-wjx---(8)

在场景中的目标识别中,β(y)表示场景对目标的指导,y表示输入为经过语义编码的场景先验知识向量,γ(z)表示目标之间关系,忽略结构选择函数F的第一项,先验知识中已有场景分类指导目标识别同时目标之间的关系也刺激目标识别,β(y)=Σiθiψi(y)为一个累加函数,根据输入的场景x,每一个ψi(y)为阈值选择函数对应一个经过语义编码的目标向量,输入为场景先验知识,若该函数代表的目标属于此场景,则输出结果,若不属于,则不输出结果,权重θi表示场景指导的力度。γ(z)的构造类似,z表示经过语义编码的目标间关系的先验知识向量,如共生关系,空间关系以及姿势,则根据相应关系增加或减少目标序参量的注意参数λk值;

图像理解中场景与目标的协同分析具有相对独立性,体现了场景分类和目标分析的并行过程;图像理解中场景与场景中的目标的包含关系,体现了场景分类和目标分析的层次过程;同时,图像理解过程中的场景与目标互为驱动、共同驱动的支配原理通过不同势函数的动力学特性和行为表现。

当输入待识别模式为整幅场景的特征,即序参量初始值对应于场景特征时,而势函数的各个吸引域对应于经过语义编码的已知场景分类,即各个原型模式为语义网络的场景模式。由于势函数是一个非线性动力学方程,按照动力学方式运行,直到达到稳定状态,落入某个吸引域中,该稳定状态即为该层势函数的输出,即该序参量投影到某个原型参量的投影轴上,完成分类学习任务。如在场景分类学习过程中,由于全局场景的特征向量的不同,可根据每种已知场景分类,设置关于λk和B的非线性函数(如均方函数或指数函数)调节吸引域的广度和深度,以达到更好的分类效果。同样地,当输入待识别模式为场景中目标,即序参量初始值对应于目标提取特征时,原型模式为经过语义编码的已知目标分类进行学习;最后,输入待识别模式为语义网络定义的视觉特征,而原型模式为经过语义编码的特征分类,体现了层次性的竞争学习过程。

在传统协同学竞争的过程中,当目标实体的序参量落入吸引域中,学习即收敛结束,对于其它目标需要再重新进行学习,因此系统为“Winner Takes All”(赢者全胜)的系统。通过修改势函数的动力学演化方程,融合了先验知识中场景对目标的指导,增加与之相关实体的注意参数,而降低与之关联性不大的实体注意参数,同时在改写后的侧抑制项中,根据先验知识中目标间的关系,起到同样的激励或抑制作用,最后学习的结果为多个实体的序参量落入已知的吸引域中,使系统的序参量层最后有多个合适序参量能够获胜,具有一定的容错性。

ξ·k=λkξk-k3-(D+F)Σkkξk2ξk---(9)

ξ·=-Vξ+F---(10)

对于动力学方程中的第三项为侧抑制项,可以通过涨落力F,即系统的先验知识,改写该侧抑制项为(D+F)Σkkξk2ξk,D=B+C使系统成为“EveryoneTakes Own Site”(各取各位),而不是WTA(赢者全胜)网络中只有一个获胜者。

现实中会有很多目标出现在不同类别的场景中,需势函数和演化系统共同作用进行场景和目标的解释,当势函数演化时,由于先验知识的作用促进某些目标序参量的同时抑制了某些目标序参量,使具有多义性的目标很难被识别出来,因此对动力学演化方程添加一项语义多义性注意参数项,演化方程变为:

ξ·k=λkξk-k3-(D+F)Σkkξk2ξk-GΣkkξkξk---(11)

ξ·=-Vξ+F---(12)

其中G=e||vkc-vkc||,vkc′为动力学演化过程中得到的语义编码,在势函数演化过一次后,识别出符合场景对目标指导及目标间关系的目标后,语义多义性注意参数再发生作用,增加那些被抑制的目标序参量注意参数值,同时调用多义性目标原型向量,完成对多义性目标物体的识别。即首先识别同样场景类中目标,再识别多义性场景中目标,不仅节约了运行时间,也提高了识别效率,势函数演化方程的作用正体现了系统协同与竞争的机制。

其中,基于协同学涨落力的图像理解方法的算法实现如下:

1)根据图像识别的需要,建立图像库,选取具有代表性的图像样本,对图像进行预处理,获取图像中场景和场景中目标的原型向量vk

2)求出原型向量vk的伴随向量vk+,并存储伴随向量矩阵,从而获得网络输入层到中间层的连接权值,完成网络学习;

3)待识别图像向量化,计算出输入模式向量q(0);

4)由输入模式向量q(0)和伴随向量vk+,求出序参量的初始值ξk(0);

5)各序参量根据动力学方程(10)竞争演化,直到所有序参量稳定于某些原型模式,待识别场景或场景中目标归入原型模式所代表的类别,从而完成对图像的理解。

6)各序参量根据动力学方程(12)竞争演化,直到系统稳定于某原型模式,待识别场景或场景中目标归入该原型模式所代表的类别,完成对图像理解。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号