首页> 中国专利> 基于深层自动编码器重构的图像视觉显著性区域检测方法

基于深层自动编码器重构的图像视觉显著性区域检测方法

摘要

本发明公开了一种基于深层自动编码器重构的图像视觉显著性区域检测方法,主要解决现有的图像显著性检测方法缺少全局信息整合以及依赖标记数据的问题。其技术方案是:先对图像全局信息进行采样,得到多组中心-外围图像区域组成的训练样本集;再利用这一集合来训练一个由外围区域到中心区域的基于自动编码器的深层重构网络;接着,利用学习得到的网络对图像每个像素点进行由外围区域重构中心区域的误差计算;最后,结合中心先验值估计每个像素点的显著性值。本发明能得到与人类视觉系统关注区域一致的显著性检测结果,可用于图像压缩以及图像目标检测与识别领域。

著录项

  • 公开/公告号CN105139385A

    专利类型发明专利

  • 公开/公告日2015-12-09

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN201510493345.X

  • 申请日2015-08-12

  • 分类号G06T7/00(20060101);

  • 代理机构61205 陕西电子工业专利中心;

  • 代理人王品华;黎汉华

  • 地址 710071 陕西省西安市太白南路2号

  • 入库时间 2023-12-18 12:45:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-17

    授权

    授权

  • 2016-01-06

    实质审查的生效 IPC(主分类):G06T7/00 申请日:20150812

    实质审查的生效

  • 2015-12-09

    公开

    公开

说明书

技术领域

本发明属于图像处理领域,涉及图像视觉显著区域性检测方法,可用于图像压缩 以及图像目标检测与识别。

技术背景

随着网络信息化的发展,人类已进入一个数据大规模增长的“大数据”时代,作 为获取信息重要途径之一的图像数据是其中一个主要组成部分,如何有效地从图像中 选取最有价值的信息逐渐成为了图像处理领域关注的热点。

对于人类视觉系统,即使面对复杂的视觉环境,其也能准确提取出场景主要信息 并做出分析。针对图像数据,人类视觉系统通常是将有限的资源与能力分配给包含图 像关键信息的区域,即显著性区域;而对其他不关注的区域只做降级地处理与分析。 因此,对图像视觉显著性区域进行检测与估计将有助于提取图像关键信息,从而提升 数据处理能力,可用于图像压缩,目标检测以及识别等领域。

LaurentItti等人在文章“AModelofSaliency-BasedVisualAttentionfor RapidSceneAnalysis”,IEEETransactionsonPatternAnalysisandMachine Intelligence,vol.20,no.11,pp.1254-1259,1998中首先提出利用中心与外围的 差异来衡量区域显著性程度,并通过融合颜色、亮度以及方向等三个特征空间的结果 来实现最终的图像显著性区域检测。该方法提出的中心-外围差可以较好地模拟视觉 神经元的结构,但是由于实际计算中仅考虑到了图像局部信息,该方法不能很好地处 理包含结构信息的图像。TilkeJudd等人在文章“LearningtoPredictWhere HumansLook”,IEEEInternationalConferenceonComputerVision,2009,pp.2106-2113 中提出通过机器学习的方法来联合建立不同阶层特征与显著性值之间的关系。该方法 在训练模型时需要依赖大量已知显著性区域的标记图像,而实际中获取大量带有标记 显著性区域的图像通常是较为困难的;同时,该方法在处理不同类型图像时使用相同 的特征权重将会影响算法的可扩展性。ChenXia等人在文章“Nonlocal Center-SurroundReconstruction-basedBottom-UpSaliencyEstimation”, InternationalConferenceonImageProcessing,2013,pp.206-210中提出一种 基于非局部重构的显著性区域检测方法,并通过利用非局部其余块对当前中心区域的 重构误差来估计显著性。由于该方法在计算不同区域重构关系时是独立的,缺少从全 局角度对不同区域间的竞争关系进行考虑,因此当实际显著性区域与背景区域的局部 与非局部中心-外围关系相近时,将很难突出实际的显著性区域,最终导致图像中显 著性区域检测的准确性下降。

发明内容

本发明的目的在于克服上述已有技术的不足,提出一种基于深层自动编码器重构 的图像视觉显著性区域检测方法,以从全局的角度来挖掘无标记图像数据与显著性值 之间的关系,提高图像中显著性区域检测的准确性。

本发明的技术方案是:对于一幅图像,利用全局随机采样的结果来训练一个基于 深层自动编码器的重构网络,以实现通过重构误差来表示不同区域的中心-外围关系, 进一步表示该区域的显著性程度,其实现步骤包括如下:

(1)构建深层重构网络:设置深层自动编码器的编码模块和解码模块,并在该解 码模块上增加推断层,得到由编码器,解码器及推断层组成的三模块深层重构网络; 该重构网络根据图像不同区域的中心-外围关系,实现由外围块到中心块的重构;

(2)从输入图像I中随机选取m个像素点;对于每个像素点x,先分别取其邻域 大小为D×D的外围区域块及d×d的中心区域块,得到目标外围区域向量X和中心 区域向量Y,d<D;再分别对像素点x外围区域向量X和中心区域向量Y进行归一 化,得到归一化后的外围向量s(x)和标记中心向量c(x);

(3)用采样的m对外围向量s(x)和标记中心向量c(x)训练重构网络,得到图像I 对应的训练后的中心-外围重构网络f(·);

(4)对于图像中的每个像素点x,将其归一化的外围向量s(x)输入到训练后的重 构网络,得到重构的中心块输出向量f(s(x)),并与标记中心向量c(x)作比较,计算 出重构误差ρ(x);最后根据计算得到的中心先验值μ(x)来对ρ(x)加权计算其显著性 S(x)。

本发明具有如下优点:

1)本发明通过采用全局随机采样与训练深层重构网络的过程,来分别模拟人类视 觉处理早期的扫视阶段以及视觉皮质上信息的传播与预测,从机理上实现了与人类视 觉显著性检测过程的一致性,并得到了与人眼跟踪数据一致的显著性检测结果。

2)本发明不依赖于图像的真值,即不需要提供任何带有已知显著性区域的图像, 而是利用深层网络对无标记数据进行学习的能力来实现场景数据驱动的显著性检测, 避免了寻找真值数据这一繁琐的实验任务。

3)本发明不需要手工选取或联合多维特征,而是通过深层网络自适应地学习得到 特征,具有较好的普适性与可扩展性。

4)本发明能够在统一框架下对全局、非局部以及局部信息进行整合,即将全局竞 争引入对局部块的非局部重构中,可以得到更准确、更高效的检测结果。

本发明可扩展到基于视频的显著性区域估计,也可以作为特征并结合其他机器学 习方法用于一般目标的检测、识别以及图像编码、压缩。

附图说明

图1为本发明的实现总流程图;

图2为本发明中构建的深层重构网络结构图;

图3为本发明中的采样示意图;

图4为本发明中的网络训练子流程图。

具体实施方式

参照图1,本发明的具体实现步骤如下:

步骤1,构建中心-外围重构网络

参照图2,本发明建立的深层重构网络主要包含编码模块、解码模块以及推断层 三个部分;其中编码模块由L层神经元构成,1<L<31,在一种实例方案中,L取6; 输入层的神经元个数为N0,N0的大小由外围块s(x)的维数决定,实例方案中N0为 675,其他每层神经元个数依次为256,128,64,32,8;解码模块的结构与编码模块 相对称;推断层位于解码模块上面,其所包含的神经元个数Nout由采样点x的中心向 量c(x)的维数决定的,实例方案中Nout为147;编码模块和解码模块共同构成了一个 自动编码器网络,在自动编码器网络的基础上增加推断层形成一个深层重构网络,实 现由外围向量s(x)到中心向量c(x)的推断与重构;

该深层重构网络,其输入层与输出层大小则分别是由外围向量s(x)与中心向量 c(x)的长度决定,网络总层数与其它每层的神经元个数是通过最终的显著性实验结果 确定的,另外,除了网络中心层的神经元为线性神经元外,其余所有神经元均为逻辑 神经元。

步骤2,全局采样

(2a)对于输入图像I,可将RGB颜色空间转换到Lab颜色空间或YUV颜色空 间或YCbCr颜色空间或HSV颜色空间,其中:

在Lab颜色空间中,L表示亮度,a表示从洋红色至绿色的范围,b表示从黄色至 蓝色的范围;

在YUV颜色空间中,Y指的是明亮度,也就是灰度值,而U和V表示的则是色 度,作用是描述图像色彩及饱和度,用于指定像素的颜色;

在YCbCr颜色空间中,Y为颜色的亮度成分,而Cb和Cr则为蓝色和红色的浓度 偏移量成份;

在HSV颜色空间中,H为颜色的色调,S表示颜色的饱和度,V表示颜色的亮度;

在本发明中按照如下方式做颜色空间变换:

若输入图像为三通道彩色图像,则在采样前需将原始RGB三通道颜色信息变换 到另一颜色空间,其彼此通道间被证明是独立的,计算方式如下所示:

o1=(R-G)/2

o2=(R+G-2B)/6,

o3=(R+G+B)/3

其中,R,G,B分别为原始图像的RGB三通道颜色值,o1,o2,o3分别为变 换后的颜色空间对应的三通道值。另外,若输入为单通道灰度图像,则需要将单通道 信息扩充到三通道,再按上述方式进行颜色空间变换;若输入图像的颜色空间不是 RGB,则将图像先转换到RGB颜色空间再按照上式进行转换,或根据颜色变换公式 推导出直接变换式进行转换;

(2b)对于颜色空间变换后的输入图像I,从全局随机采样m个像素点:

参照图3,对于每个采样点x,分别取其邻域大小为D×D的外围区域及d×d的 中心区域,d<D,得到外围区域向量X和中心区域向量Y,实例方案中m取8000, D取15,d取7;

(2c)分别对外围区域向量X和中心区域向量Y进行归一化,得到归一化后的外 围向量s(x)和标记中心向量c(x):

s(x)=X/X_max

c(x)=Y/Y_max,

其中,X_max为图像I中所有外围区域向量元素中的最大值,Y_max为图像I 中所有中心区域向量元素中的最大值。

步骤3,训练深层重构网络

参照图4,训练深层重构网络的步骤如下:

(3a)网络参数逐层初始化训练:

将编码器网络看成是多个受限玻尔兹曼机的组合,其中每个受限玻尔兹曼机是通 过对比分歧算法来进行训练的,训练当前受限玻尔兹曼机得到的隐含层概率将被作为 下一个受限玻尔兹曼机可视化单元的输入,根据这一原则来逐层地初始化编码器网 络。在此基础上,再对编码器网络初始的权重求转置来对解码器网络参数进行初始化。 最后,则是对解码器的输出与顶层推断层之间的连接赋予一组随机的参数来完成整个 网络的初始化过程。

(3b)前向传播,计算目标函数:

(3b1)对于图像I中的每个训练样本点x,分别计算其训练时的输出向量f′(s(x)) 与标记中心向量c(x)的交叉熵误差CE(x):

CE(x)=-Σic(x)i·log(f(s(x))i)Σi(1-c(x)i)·log(1-f(s(x))i),

其中,c(x)i为标记中心向量c(x)的第i维元素,f′(s(x))i为训练时的输出向量 f′(s(x))的第i维元素;

(3b2)根据交叉熵CE(x)计算目标函数

CE=1mΣn=1mCEn(x),

其中,m表示训练样本个数,下标n表示m个训练样本中的第n个样本,CEn(x) 为第n个训练样本对应的交叉熵误差;

(3c)反向传播优化重构网络的参数:若循环次数小于设定的阈值,则根据交叉 熵误差用反向传播算法微调整个重构网络中的参数,直到循环次数大于设定阈值 为止,实例方案中该阈值取200;整个训练过程结束后,可得到图像I训练好的重构 网络f。

步骤4,显著性估计

(4a)重构误差估计:

对于像素点x,先将其归一化的邻域大小为D×D外围向量s(x)输入训练好的重 构网络f,得到重构的中心块输出向量f(s(x)),然后将中心块输出向量f(s(x))与实 际的标记中心向量c(x)进行比较计算出重构的误差:

ρ(x)=||f(s(x))-c(x)||p

其中,ρ(x)为当前像素点x对应的重构误差,||·||p为向量的p范数;

(4b)计算中心先验:

通常图像的中心区域更容易被人们关注,显著性值更高。因此,通过定义一个中 心先验值μ(x)来强调图像中心区域的显著性,中心先验值μ(x)可通过高斯先验来得 到,计算公式为:

μ(x)=exp(-d2(x,xc)2σ2),

其中xc为图像I中心的像素点,d2(x,xc)为像素点x到中心像素点xc距离的平 方,σ为设定好的值,exp(·)为指数函数;

本发明采用距离先验来得到中心先验值μ(x),其计算公式为:

μ(x)=(1-|x-xc|)2

其中,xc为图像I中心的像素点,|x-xc|为像素点x到中心像素点xc的距离;

(4c)根据像素点x的重构误差ρ(x)和中心先验μ(x)计算其显著性值S(x):

S(x)=μ(x)ρ(x),

每个像素点的显著值大小代表其显著的程度,由每个像素点的显著性值S(x)可获 得该图像所对应的显著性图。

以上描述仅是本发明的一个具体实例,显然对于本领域的专业人员来说,在了解 了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细 节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要 求保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号