首页> 中国专利> 基于多级卷积神经网络的全局-局部优化模型及显著性检测算法

基于多级卷积神经网络的全局-局部优化模型及显著性检测算法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出了一种基于多级卷积神经网络的显著性检测算法，包括使用大感受野的全局估计模型做全局显著性估计；训练全局估计模型时，使用全连接层作为输出层训练并初始化部分卷积层参数；使用多个交替的卷积层和升采样层替换全连接层，训练并得到更优的全局显著性估计图；使用感受野小、输出图片尺寸大的局部卷积神经网络融合全局和局部信息，得到高质量的显著性图。经过局部卷积神经网络的处理，可以将原始图像作为模型的输入，最终的输出的结果不仅与原始输入图像具有相同大小，并且更加清晰。提供的基于多级卷积神经网络的显著性检测算法，相比传统方法，拥有更高的准确性，能更准确找到显著目标的同时，目标轮廓也更加清晰。

著录项

公开/公告号CN105701508A

专利类型发明专利
公开/公告日2016-06-22

原文格式PDF
申请/专利权人西安交通大学;
展开▼

申请/专利号CN201610019206.8
发明设计人王飞;汪子钦;姜沛林;
展开▼

申请日2016-01-12
分类号G06K9/62(20060101);
代理机构61200 西安通大专利代理有限责任公司;
代理人徐文权
地址 710049 陕西省西安市碑林区咸宁西路28号
入库时间 2023-12-18 15:45:39

法律信息

法律状态公告日

法律状态信息

法律状态
2017-12-15

授权

授权
2016-07-20

实质审查的生效 IPC(主分类):G06K9/62 申请日:20160112

实质审查的生效
2016-06-22

公开

公开

说明书

【技术领域】

本发明涉及一种基于深度卷积神经网络的自然图像中视觉显著性检测的方法，应用于复杂背景下显著目标区域的检测。

【背景技术】

人类的视觉可以很快地找到周围环境中的显著目标，忽略掉一些人类不感兴趣的信息，并关注视觉图像中重要的部分，这样可以避免大脑处理繁杂而用处不大的信息。视觉显著性检测就是为了模拟人的快速感知环境行为。

随着各种数码设备的普及以及互联网的高速发展，各种图片、视频数据越来越多。与人的视觉类似，计算机可以通过图像或视频的显著性检测来提取图片中显著性信息，快速定位图像中需要处理的区域。通过视觉显著性检测，可以将计算资源优先分配给图像中的主要区域，减少计算开销，在计算机视觉领域意义重大。视觉显著性是很多视觉检测任务的重要步骤，在很多计算机视觉领域都起到了很大的作用，如目标检测与识别、自适应压缩、图像分割、图像检索、基于内容感知的图像编辑等。

神经网络提出时与生物学系统紧密相连，模拟了生物神经元的结构和功能。在BP算法提出后，神经网络能解决许多基本的学习问题。在之后的几十年中，发展出了许多新的方法和技术，例如非监督的权重预训练技术、模型的设计和训练方法，也由此引出了深度学习技术。 LeCun在1998年提出了LeNet-5，成功应用于手写体识别并被认为是手写体识别领域评判算法识别性能的标准。随后，卷积神经网络在许多模式识别任务上都取得了很好的效果。使用深度学习技术有助于显著性检测算法取得更鲁棒、更优秀的效果。

现有准确率较高的算法大多使用了过分割技术作为预处理手段，再通过判断每一个分割区域是否显著生成显著性图。这种方法的效果以及运算速度很大地依赖于分割算法，一方面显著目标的边界划分完全依赖于分割算法的分割精度，另一方面运行速度完全受限于分割算法的速度。

【发明内容】

本发明提供了一种基于多级卷积神经网络的显著性检测算法，其目的在于检测、查找自然图像中的显著目标，提高算法的准确度和运行速度。

本发明采用以下技术方案：

一种基于多级卷积神经网络的全局-局部优化模型，包括：全局估计模型和局部优化模型；所述全局估计模型包括初始化分支通路和主通路，所述初始化分支通路由A部分和B部分级联组成，所述主通路由A部分和C部分级联组成；其中，A部分由卷积层和池化层组成；B部分由两个级联的全连接层组成；C部分由多个卷积层和升采样层级联组成；A部分的输入连接原始图像，A部分的输出分别与B部分和C部分的输入连接，C部分的输入为全局估计模型的输出；局部优化模型主要由卷积层、池化层、升采样层组成，分为D、E两部分；其中，D部分的输入端与原始图像相连，D部分的输出端与全局估计模型的输出端一起输入到E部分的输入端，E部分的输出端即为全局-局部优化模型的输出。

优选地，A部分由七个卷积层和三个池化层组成，其连接关系为：

conv1-pool1-conv2-conv3-conv4-pool2-conv5-conv6-pool3-conv7，

其中，conv1为输入端，与原始图像连接，conv7为输出端。

优选地，所述C部分的连接为：

upscale1-conv8-conv9-conv10-upscale2-conv11-conv12-upscale3-conv13-conv14-con v15。

一种基于多级卷积神经网络的显著性检测算法，包括以下步骤：

S1：以原始图像作为训练样本，以标准图像为样本标注，对全局估计模型中A部分的参数进行初始化；

S2：以原始图像作为训练样本，以标准图像为样本标注，对全局估计模型中C部分的参数进行训练，得到粗略的全局显著性图；

S3：以原始图像作为训练样本，以标准图像为样本标准，以得到的粗略的全局显著性图作为参考，对局部优化模型进行训练，即可得到最终的显著性图。

优选地，作为训练样本的原始图像和作为样本标注的标准图像的缩放大小以由所应用的模块决定。

优选地，步骤S2的训练过程中，A部分中的参数固定不变，训练采用以下公式作为损失函数：

$L (θ_{2}; x, y) = - \frac{1}{m} [Σ_{i = 1}^{m} Σ_{j = 0}^{1} 1 {y^{(i)} = j} l o g (p (y^{(i)} = j | x^{(i)}; θ_{2}))]$

θ₂＝{P_convC}

其中，x为输入，y为groundtruth，θ₂为C部分的所有参数。

优选地，步骤S3中的训练采用以下公式作为损失函数：

$L (θ_{3}; x, x_{G E}, y) = - \frac{1}{m} [Σ_{i = 1}^{m} Σ_{j = 0}^{1} 1 {y^{(i)} = j} l o g (p (y^{(i)} = j | x^{(i)}; θ_{3}))]$

其中，x为输入的原始图像，x_GE为粗略的显著性图，y为groundtruth，θ₃为局部优化模块的所有参数。

优选地，步骤S1中的初始化采用以下公式作为损失函数：

$L (θ_{1}; x, y) = - \frac{1}{m} [Σ_{i = 1}^{m} (1 - y^{(i)}) \log (1 - h_{G I} (x^{(i)})) + y^{(i)} \log (h_{G I} (x^{(i)}))]$

θ₁＝{P_convA,P_FCs}

h_GI表示该网络的预测结果，x为输入，y为groundtruth，θ₁为A部分和B部分的所有参数。

与现有技术相比，本发明至少具有以下有益效果：本发明首先搭建了一种基于多级卷积神经网络的全局-局部优化模型，包括全局估计模型(GEM)和局部优化模型(RfM)；所述全局估计模型包括初始化分支通路和主通路，所述初始化分支通路由A部分和B部分级联组成，所述主通路由A部分和C部分级联组成；其中，A部分由卷积层和池化层组成；B部分由两个级联的全连接层(FC)组成；C部分由多个卷积层和升采样层级联组成；A部分的输入连接原始图像，A部分的输出分别与B部分和C部分的输入连接，C部分的输入为全局估计模型的输出；局部优化模型(RfM)主要由卷积层、池化层、升采样层组成，分为D、E两部分；其中，D部分的输入端与原始图像相连，D部分的输出端与全局估计模型的输出端一起输入到E部分的输入端，E部分的输出端即为全局-局部优化模型的输出。首先对全局估计模型中A部分的参数进行初始化；然后对全局估计模型中C部分的参数进行训练，得到粗略的全局显著性图；最后以得到的粗略的全局显著性图作为参考，对局部优化模型进行训练，即可得到最终的显著性图。本发明可以将原始图像作为模型的输入，最终的输出的结果不仅与原始输入图像具有相同大小，并且更加清晰。

【附图说明】

图1是本发明具体实施的一种卷积神经网络结构示意图，其中conv表示卷积层，pool表示池化层，upscale表示升采样层，FC表示全连接层；

图2是本发明的实验结果，由左至右：原图、全局显著性图、最终显著性图、标准显著性图；

图3是本发明与其他方法的查准率-查全率曲线(Pricition-Recallcurve,简称PRcurve)对比。

【具体实施方式】

本发明提供了一种基于多级卷积神经网络的显著性检测算法，所述的基于卷积神经网络的全局-局部优化模型(GE-RM)由全局估计模型(GEM)和局部优化模型(RfM)组成；

全局估计模型有两个输出通路，初始化分支通路和主通路。

全局估计模型的初始化分支通路由A部分和B部分级联组成，A部分由七个卷积层和三个池化层组成，优选的连接顺序为：

conv1-pool1-conv2-conv3-conv4-pool2-conv5-conv6-pool3-conv7，

其中，conv1为输入端；

B部分由两个级联的全连接层(FC)组成，其中末端的全连接层作为输出层；优选地，输出层有4096个输出单元，可组成一张64x64的显著性图。

全局估计模型的主通路由A部分和C部分级联组成，其中A部分与上述相同。

主通路的输出通路为C部分，由多个卷积层和升采样层级联组成，优选的连接顺序为： upscale1-conv8-conv9-conv10-upscale2-conv11-conv12-upscale3-conv13-conv14-conv15，其中，upscale1连接在A部分的末端(conv7)之后，conv15为输出端；

局部优化模型(RfM)由卷积层、池化层、升采样层组成，分为D和E两部分。

局部优化模型(RfM)有两个输入，及原始图像和由全局估计模型产生的全局显著性图；原始图像输入到D部分的输入端，全局显著性图与D部分的输出一起输入到E部分的输入端， E部分的输出端即为局部优化模型的输出端。

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

具体实施步骤如下：

1、首先使用全连接层作为输出层初始化全局估计模型的A部分参数。

将原始输入图片和标准显著性图缩放到固定大小作为训练的样本和样本标注。

优选地，该部分的卷积神经网络由七个卷积层、三个pooling层、两个全连接层组成(即 A部分和B部分)，输入图像数据尺寸固定为[W,W,3]，其中，W为图像的边长，优选为200 至300大小，3代表图像的三个色彩通道，即RGB色彩通道。网络的输出层为全连接层，输出层拥有N乘N个神经元，网络输出一幅大小为[N,N]的显著性图，N一般远小于W。

使用随机梯度下降算法训练该A部分的参数，并生成粗略的全局显著性图；

A部分和B部分构成的网络的目的在于求解像素点j属于显著目标的概率S_j，可记为：

S_j＝P(y_j＝1|x；θ₁)

θ₁是该网络的参数,y_j是网络对像素点j的显著性估计值，S则代表整幅显著性图，x 代表输入数据。

在网络的输出层是一个逻辑回归分类器，使用sigmoid函数作为激活函数：

$f (y) = \frac{1}{1 + e^{- y}}$

网络的输出值被归一化到(0,1)，其中，“1”代表显著目标的像素，“0”代表背景目标的像素。

网络的损失函数可记为：

$(\begin{matrix} L (θ_{1}; x, y) = - \frac{1}{m} [Σ_{i = 1}^{m} (1 - y^{(i)}) \log (1 - h_{G I} (x^{(i)})) + y^{(i)} \log (h_{G I} (x^{(i)}))] \\ = - \frac{1}{m} [Σ_{i = 1}^{m} Σ_{j = 0}^{1} 1 {y^{(i)} = j} l o g (p (y^{(i)} = j | x^{(i)}; θ_{1}))], \end{matrix})$

θ₁＝{P_convA,P_FCs}

式中h_GI表示该网络的预测结果，x为输入，y为groundtruth，θ₁包含卷积层集合 A＝{conv1～7}的参数。式中m为样本数量，P_convA表示A部分的参数，P_FCs表示B部分全连接层(FC)的参数。

2、训练全局估计模型中C的参数。保留上一步中卷积神经网络的卷积层参数(即保留A 部分的参数)，将其中的所有全连接层替换为多个卷积层和多个升采样层，即得到C部分，训练并得到高质量的全局显著性估计；

保留上一步中卷积神经网络的卷积层(conv1～conv7)，将全局估计模型中的所有全连接层移除，替换为多个交替的卷积层和升采样层(upscalelayers)；

具体地，所述的升采样层作用在于通过双线性插值，将上一层输出的特征图以倍数S放大，并输出到下一层网络，一般S值设为2倍。升采样层仅执行图像放大操作，不包含任何可学习的参数。

训练替换后的全局估计模型，确保全局估计模型中经训练过的卷积层(conv1～conv7)的参数固定不变，仅训练新加入的卷积层(conv8～conv15)的参数，并生成全局显著性图；

网络的损失函数可表示为：

$L (θ_{2}; x, y) = - \frac{1}{m} [Σ_{i = 1}^{m} Σ_{j = 0}^{1} 1 {y^{(i)} = j} l o g (p (y^{(i)} = j | x^{(i)}; θ_{2}))],$

θ₂＝{P_convC}

式中x为输入，y为groundtruth，θ₂包含替换后的全局估计模型的所有卷积层 (conv8～conv15)的参数，记为P_convC。

3、训练局部优化模块，得到最终的显著性图。

具体地，将原始图片作为局部优化网络模块的输入，标准显著性图作为局部优化网络模块的训练标注，同时将由步骤2生成的全局显著性估计图缩放后输入到局部优化网络模块中；

局部优化网络模块的主体输入为大小为[w,h,3]的原始图像数据，其中w为图像宽度，h 为图像高度，3代表图像的RGB颜色通道。局部优化网络模块同时将步骤S22中生成的全局显著性估计图调整到合适大小后输入到网络中，作为一个特征图像。局部优化网络模块中包含多个卷积层，少量pooling层和少量升采样层。并且pooling层的下采样倍数S0和升采样层的升采样倍数S相等，因此该网络的输出尺寸与输出尺寸大小相等，即输出的显著性图大小与输入的原始图像大小相等。

优选地，局部优化网络模块包含多个卷积层，一个pooling层和一个升采样层，并且pooling 层的下采样倍数S0和升采样层的升采样倍数S均设为2。全局显著性估计图缩放后输入到局部优化网络模块的中间部分为优。

使用随机梯度下降算法训练该局部优化网络模块，并生成最终的全局显著性图。在网络的输出层是一个逻辑回归分类器，网络的损失函数可记为：

$L (θ_{3}; x, x_{G E}, y) = - \frac{1}{m} [Σ_{i = 1}^{m} Σ_{j = 0}^{1} 1 {y^{(i)} = j} l o g (p (y^{(i)} = j | x^{(i)}; θ_{3}))]$

式中x为输入的原始图像，x_GE为全局显著估计性图输入，y为groundtruth，θ₃为局部优化网络模块的网络参数。

4、通过全局、局部两个模型得到最终实验结果。首先将原始自然图像缩放到WxW大小，输入全局估计模型并得到全局显著性图；之后将原始图像和全局显著性图输入到局部优化网络模块中，得到最终的显著性图。

本发明采用查准率-查全率曲线(Pricition-Recallcurve,简称PRcurve)进行评估，并与多种算法在MSRA10K数据集的测试集上进行测试。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法 [P] . 中国专利： CN105701508B . 2017.12.15
2. 基于多级卷积神经网络的全局-局部优化模型及显著性检测算法 [P] . 中国专利： CN105701508A . 2016-06-22
3. TRANSPOSE MEMORY UNIT FOR MULTI-BIT CONVOLUTIONAL NEURAL NETWORK BASED COMPUTING-IN-MEMORY APPLICATIONS, TRANSPOSE MEMORY ARRAY STRUCTURE FOR MULTI-BIT CONVOLUTIONAL NEURAL NETWORK BASED COMPUTING-IN-MEMORY APPLICATIONS AND COMPUTING METHOD THEREOF [P] . US2021216846A1 . 2021-07-15

机译：用于基于多位卷积神经网络的基于多位卷积神经网络的存储单元的存储单元，用于基于多位卷积神经网络的基于存储的内存应用的存储器阵列结构及其计算方法
4. Digital-imaging based code symbol reading system employing a plurality of coplanar illumination and imaging subsystems, each having a local object motion detection subsystem for automatic detecting objects within the 3D imaging volume, and a local control subsystem for transmitting object detection state data to a global control subsystem for managing the state of operation of said coplanar illumination and imaging subsystems [P] . 美国专利： US7584892B2 . 2009-09-08

机译：基于数字成像的代码符号读取系统，采用多个共面照明和成像子系统，每个子系统均具有用于自动检测3D成像体积内物体的局部物体运动检测子系统，以及用于将物体检测状态数据传输到全局物体的局部控制子系统控制子系统，用于管理所述共面照明和成像子系统的操作状态
5. Digital-imaging based code symbol reading system employing a plurality of coplanar illumination and imaging subsystems, each having a local object motion detection subsystem for automatic detecting objects within the 3D imaging volume, and a local control subsystem for transmitting object detection state data to a global control subsystem for managing the state of operation of said coplanar illumination and imaging subsystems [P] . 美国专利： US2008029600A1 . 2008-02-07

机译：基于数字成像的代码符号读取系统，采用多个共面照明和成像子系统，每个子系统均具有用于自动检测3D成像体积内物体的局部物体运动检测子系统，以及用于将物体检测状态数据传输到全局物体的局部控制子系统控制子系统，用于管理所述共面照明和成像子系统的操作状态