首页> 中国专利> 一种视觉认知模型驱动的全局图像信息合成方法

一种视觉认知模型驱动的全局图像信息合成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种视觉认知模型驱动的全局图像信息合成方法，包括步骤：建立图像显著性视觉认知模型，定义全局图像信息合成的列宽选择驱动能量函数；构建全局图像信息合成图模型，定义节点并计算节点连接边权重；采用最短路径搜索算法在所述全局图像信息合成图模型中搜索使得全局合成图像显著性视觉认知差异达到最小的剪切路径；沿所述使得全局合成图像的显著性视觉认知差异达到最小的剪切路径顺序在所述密集视频序列图像中的每帧图像中选择一定像素列宽，并将选择出的像素列宽按序码放后合成为全局合成图像。该方法可充分发挥人的视觉认知模型在全局场景图像合成中的作用，合理避免由多维运动物体干扰造成的合成瑕疵，能够有效复现广域大场景的关键内容。

著录项

公开/公告号CN103247038A

专利类型发明专利
公开/公告日2013-08-14

原文格式PDF
申请/专利权人北京科技大学;
展开▼

申请/专利号CN201310127841.4
发明设计人邹丽晖;张德政;阿孜古丽;
展开▼

申请日2013-04-12
分类号G06T5/50;G06T3/40;
代理机构北京市广友专利事务所有限责任公司;
代理人张仲波
地址 100083 北京市海淀区学院路30号
入库时间 2024-02-19 19:59:10

法律信息

法律状态公告日

法律状态信息

法律状态
2020-03-27

未缴年费专利权终止 IPC(主分类):G06T5/50 授权公告日:20160120 终止日期:20190412 申请日:20130412

专利权的终止
2016-01-20

授权

授权
2013-09-11

实质审查的生效 IPC(主分类):G06T5/50 申请日:20130412

实质审查的生效
2013-08-14

公开

公开

说明书

技术领域

本发明涉及计算机视觉领域，是一种大视场图像合成技术，尤其是一种视觉认知模型驱动的全局图像信息合成方法。

背景技术

广域大视场图像信息获取与处理技术对诸多学科发展产生了重要影响，在国防、警戒、民事安全等诸多领域具有广泛需求。然而由于受限于摄像设备感光元器件的制作工艺，普通摄像设备视场远不能达到人眼视场大小，越来越多的应用场合需要视场范围更大、分辨率更高的图像信息以提高系统的可靠性与安全性。特别地，在安防侦查系统中，广域视场图像信息的获取更加受到重视，尤其是在现代化监控与警备模式下，图像信息是获取环境态势的必要手段。

数字图像拼接技术为打破摄像设备视场角的限制，提供了很好的解决办法，引起了研究者的广泛注意。它是通过寻找一系列空间重叠图像间的几何关系，对齐图像，并运用恰当的图像融合算法平滑过渡重叠区域，形成无缝、宽视角目标图像的技术。其主要技术分为两个流派：以Richard Szeliski为代表的基于运动关系的图像拼接模型和以Shmuel Peleg为代表的基于自适应流形的图像拼接模型。前者通过准确求出图像间的几何变换关系来进行图像配准和融合，可处理具有平移，旋转，仿射等多种变换的待拼接图像，且相邻待拼接图像不必密集重叠，因此成为图像拼接领域的经典算法；后者通过对密集采集的图像切分狭窄条带进行剪切与多重投影粘贴，根据光流垂直方向自适应选择拼接模型完成图像拼接，此类方法可突破相机运动限制，这一研究成果推动了图像拼接技术的进一步发展，成为图像拼接领域研究的新热点。

全局图像信息合成是在数字图像拼接技术基础上复现拍摄场景的关键内容，为研究人员提供更加丰富的视觉态势信息，有效降低序列窄视场图像无法准确提供全局场景中目标数量、位置关系等信息而引起的漏警、误警，提高系统的安全性能。

但是，上述两种主流图像拼接方法多集中在图像像素级数据配准与融合计算，而忽视了人的视觉认知机制作用和图像内容之间的关系处理，不能完全有效依据场景内容合成保留人们所关注的重要信息。而且在受到采集平台运动、目标物体非线性复杂运动、背景变化等因素的干扰时，更加无法有效形成全局场景图像。因此，对场景内含有复杂多维运动物体的全局图像信息合成问题更待进一步提出有效的方案。

发明内容

本发明的目的是解决场景内含有复杂多维运动物体的全局图像信息合成问题，本发明提出一种视觉认知模型驱动的全局图像信息合成方法，能够克服全局图像合成过程中运动物体多维复杂运动对全局图像拼接合成的影响。

本发明提供的一种视觉认知模型驱动的全局图像信息合成方法，包括步骤：步骤一：建立图像显著性视觉认知模型，并以所述显著性视觉认知模型为约束导向定义全局图像信息合成的列宽选择驱动能量函数；步骤二：构建全局图像信息合成图模型，定义节点并计算节点连接边权重；将预先采集的密集视频序列图像组成图像时空体序列V(x,y,t)，并以所述密集视频序列图像中的每帧图像的列x为横坐标，以采集时间t为纵坐标，将每帧图像的每列像素看作一个节点，按时间顺序排列相邻图像列节点，在x-t坐标空间把所述图像时空体序列构建成一个全局图像信息合成图模型V(x,t)：并设连接各节点的所有边上的权重为相应列间的显著性视觉认知差异；其中，(x,y)为所述密集视频序列图像空间(列,行)坐标参数，t为所述密集视频序列图像采集路径推进的时间参数；步骤三：根据步骤一中定义的所述列宽选择驱动能量函数，采用最短路径搜索算法在步骤二中所构建的所述全局图像信息合成图模型中搜索使得全局合成图像显著性视觉认知差异达到最小的剪切路径；步骤四：沿所述使得全局合成图像的显著性视觉认知差异达到最小的剪切路径顺序在所述密集视频序列图像中的每帧图像中选择一定像素列宽，并将选择出的像素列宽按序码放后合成为全局合成图像。

所述视觉认知模型驱动的全局图像信息合成方法中，步骤一中所述显著性视觉认知模型由图像灰度信息、边界轮廓信息及景深图层区域信息三部分组成，定义如下：

C_SCM(I)＝αC_gray(I)+βC_edge(I)+γC_depth(I)

其中，C_SCM(I)为所述显著性视觉认知模型；C_gray(I)为图像灰度信息；C_edge(I)为边界轮廓信息；C_depth(I)为景深图层区域信息；α，β，γ为比例系数。

所述视觉认知模型驱动的全局图像信息合成方法中，所述列宽选择驱动能量函数为：

其中，是从输出的全局合成图像列M(i)到输入图像列V(x,Δy,t)的映射，Δy是V(x,t)垂直方向上的偏移量。

所述视觉认知模型驱动的全局图像信息合成方法中，步骤二中所述设连接各节点的所有边上的权重为相应列间的显著性视觉认知差异，包括：根据步骤一中定义的所述列宽选择驱动能量函数计算视觉显著性认知差异ΔC_SCM(Υ_i)；若设Υ_i＝V(x_i,t_i)，Υ_i+1＝V(x_j,t_j)，则所述图像灰度信息视觉显著性认知差异ΔC_gray(Υ_i)为：

ΔC_gray(Υ_i)＝min{||V_gray(x_i,t_i)-V_gray(x_j-1,t_j)||,||V_gray(x_i+1,t_i)-V_gray(x_j,t_j)||}，

其中V_gray(x_i,t_i)和V_gray(x_j,t_j)为输入的所述密集视频序列图像中第t_i帧图像第x_i列的灰度值与第t_j帧图像第x_j列的灰度值；

所述边界轮廓信息视觉显著性认知差异ΔC_edge(Υ_i)为：

ΔC_edge(Υ_i)＝min{||V_edge(x_i,t_i)-V_edge(x_j-1,t_j)||,||V_edge(x_i+1,t_i)-V_edge(x_j,t_j)||}，

其中V_edge(x_i,t_i)和V_edge(x_j,t_j)为输入的所述密集视频序列图像中第t_i帧图像第x_i列的边界轮廓响应值与第t_j帧图像第x_j列的边界轮廓响应值；

所述景深图层区域信息视觉显著性认知差异ΔC_depth(Υ_i)为：

ΔC_depth(Υ_i)＝min{||V_depth(x_i,t_i)-V_depth(x_j-1,t_j)||,||V_depth(x_i+1,t_i)-V_depth(x_j,t_j)||}，

其中V_D(x_i,t_i)和V_D(x_j,t_j)为输入的所述密集视频序列图像中第t_i帧图像x_i列的景深值与第t_j帧图像x_j列的景深值。

所述视觉认知模型驱动的全局图像信息合成方法中，计算所述边界轮廓信息视觉显著性认知差异时，优先选用相位一致性检测方法提取所述密集视频序列图像的有效边界轮廓响应值。

所述视觉认知模型驱动的全局图像信息合成方法中，计算所述景深图层区域信息视觉显著性认知差异时，通过计算所述密集视频序列图像中相邻两帧图5像视差获取图像的景深值，包括以下步骤：以所述相邻两帧图像序列图像互为参考图像，双向计算所述相邻两帧图像的匹配代价；根据所述相邻两帧图像的匹配代价进行交叉检验估计视差值，并采用优胜者全选算法作为视差选择方法估计所述相邻两帧图像的初始视差图；采用Mean-Shift算法划分所述相邻两帧图像中采集时间靠前的那帧图像的一致性区域得到若干个分割块，并以各分割块内的中值视差值作为分割块整体视差值对所述相邻两帧图像的初始视差图滤波求取区块视差。

所述视觉认知模型驱动的全局图像信息合成方法中，步骤三中所述最短路径搜索算法优先选用Dijkstra算法。

本发明的上述技术方案的有益效果如下：

本发明从人的视觉显著性认知学习出发，建立了包含图像灰度、边界轮廓、景深图层区域信息的显著性视觉认知模型，并根据该视觉认知模型定义全局合成图像的约束能量函数，结合自适应流形拼接框架，提出一种视觉认知模型驱动的全局图像信息合成方法。该方法可充分发挥人的视觉认知模型在全局场景图像合成中的作用，合理避免由多维运动物体干扰造成的合成瑕疵，如运动合成模糊、运动物体剪切、背景亮度阶跃等；无需相机标定和运动估计，能够有效复现广域大场景的关键内容，为安防侦查等广域大范围监控系统提供全局态势理解与决策提供支持。本发明亦能为其他可引入视觉认知机制的相关计算机视觉技术研究提供有效思路。

附图说明

图1为本发明实施例提供的将密集视频序列图像合成全局合成图像的原理示意图；

图2为本发明实施例提供的一种视觉认知模型驱动的全局图像信息合成方法流程图；

图3为为图像时空体序列在x-t空间所对应的全局图像信息合成图模型；

图4为通过计算相邻图像视差获取图像的景深图层区域信息的方法流程图；

图5为一组预先采集的密集视频序列图像；

图6为图5中的序列图像的相位一致性边界轮廓映射图；

图7为图5中的序列图像的景深图层区域标签图；

图8为采用本发明实施例提供的方法对图5中的视频序列图像的最优剪切路径；

图9为采用本发明实施例提供的方法对图5中的视频序列图像合成所得的全局合成图像。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供的视觉认知模型驱动的全局图像信息合成方法是用于将若干幅场景内含有复杂多维运动物体的全局图像合成为大场景图像的方法。为便于说明本实施例提供的方法，本实施例首先在室内环境下，将摄像机架于平稳可移动平台上，以恒定速度做水平旋转扫描，同时随其搭载的平台进行平移运动，采集到若干组包含一系列有关人的复杂运动的场景的密集视频序列图像。随后将所采集的密集视频序列图像合成大视场全局图像。具体合成过程如图1所示，从每帧输入图像中选择一系列垂直于相机运动方向的像素列，并把它们按序码放排列在一起，形成全局合成图像，其中每帧所选择的像素列宽度不一定相同，需根据图像内容确定，且两帧之间接缝处要求过渡平滑，使局部合成图像与输入序列图像在纹理结构等细节上尽可能地保证相似，从而避免运动物体合成瑕疵，降低合成痕迹，满足人的视觉感受。

为实现上述像素列宽选择与合成的过程，本发明从视觉认知注意机制出发，驱动全局图像信息合成。图2所示为本发明实施例提供的一种视觉认知模型驱动的全局图像信息合成方法流程图，包括如下步骤：

S1：建立图像显著性视觉认知模型，并以该显著性视觉认知模型为约束导向，定义全局图像信息合成的列宽选择驱动能量函数。其中，显著性视觉认知模型由图像灰度信息、边界轮廓信息及景深图层区域信息三部分组成，列宽选择驱动能量函数用于表征显著性视觉认知差异。

S2：构建全局图像信息合成图模型，定义节点并计算节点连接边权重。具体地，将预先采集的密集视频序列图像组成图像时空体序列V(x,y,t)，(x,y)为图像空间(列,行)坐标参数，t为相机沿采集路径推进的时间参数，以密集视频序列图像中每帧图像列为横坐标，以时间参数为纵坐标，将每列像素看作一个节点，按时间顺序排列相邻图像列节点，把图像时空体序列在x-t空间构建成一个全局图像信息合成图模型（如图3所示），并设连接各节点的所有可能边上的权重为相应列间的显著性视觉认知差异，将全局图像合成问题转化为在该图模型上搜索剪切整个图像时空体序列路径的问题，即寻找一条从第一帧图像第一列到最后一帧图像最后一列的列宽选择切割路径，如图3所示为图像时空体序列在x-t空间所对应的全局图像信息合成图模型，该图模型沿x轴方向的每一行表示一帧图像，其中每个节点（图中的圆圈）表示这一帧图像的一列，图中箭头所示方向为从第一帧图像第一列到最后一帧图像最后一列的列宽选择切割路径。显然，每一条剪切路径对应一种拼接合成的可能结果；

S3：用最短路径搜索算法，求出全局最优剪切路径。即：根据S1中定义的列宽选择驱动能量函数，采用最短路径搜索算法在S2所构建的图模型中，搜索使得全局合成图像的显著性视觉认知差异达到最小的剪切路径，该条路径所对应的全局合成图像是考虑了各显著性视觉认知因素、包含了最小形变的合成流形，使合成拼接效果达到最佳。

S4：沿最优剪切路径顺序在密集视频序列图像的每帧图像中选择优化的像素列宽，按序码放合成为最优的全局合成图像。

通过对视觉注意机制的理解及根据对图像信号及其内容认知的特点，发现当人们观察一幅图像时，会对图像亮度信息，即灰度范围产生第一印象；同时会对图像关键内容的边界轮廓产生特别的关注；另外对图像整体内容进行语义分析时会按照它们各自在场景中的远近区域位置进行观察与梳理。因此本发明提出将图像灰度信息、边界轮廓信息及景深图层区域信息作为视觉显著性认知模型的重要组成部分，将S1中的图像显著性视觉认知模型定义如下：

C_SCM(I)＝αC_gray(I)+βC_edge(I)+γC_depth(I) (1)

其中，C_gray(I)为图像灰度信息；C_edge(I)为边界轮廓信息；C_depth(I)为景深图层区域信息；α，β，γ为比例系数。

通过对图像显著性视觉认知特性进行建模描述，可根据上述认知模型为全局图像合成提供约束向导，避免合成图像在图像显著内容（如显著运动物体等）上造成错误合成。据此定义如下列宽选择驱动能量函数：

其中，是从输出的全局合成图像列M(i)到输入图像列V(x,Δy,t)的映射，Δy是V(x,t)垂直方向上的偏移量，若预先采集密集视频序列图像时以水平运动为主运动，可近似认为Δy≈0，则Υ_i＝M(i)＝V(x,0,t)。该列宽选择驱动能量函数minCost(M)要求全局合成图像相邻列之间显著性差异代价最小，当合成输出图像相邻列间的显著性差异最小则全局合成图像效果最优。将(1)式代入(2)式并整理可得：

(3)

所述S2中构建全局图像信息合成图模型节点边权重的计算，需根据S1中所定义的列宽选择驱动能量函数计算视觉显著性认知差异ΔC_SCM(Υ_i)，具体计算方法如下：

设图像时空体序列V(x,y,t)，(x,y)为图像空间(列,行)坐标参数，t为相机沿采集路径推进的时间参数。如果Υ_i＝V(j,0,k)，Υ_i+1＝V(g,0,h)，即设合成输出图像的第i列和第i+1列分别为V(j,k)和V(g,h)，也就是第k帧输入图像的第j列和第h帧输入图像的第g列，那么显著性视觉认知差异ΔC_SCM(Υ_i)为：

ΔC_SCM(Υ_i)＝min{||V(j,k)-V(g-1,h)||,||V(j+1,k)-V(g,h)||} (4)

当V(g,h)与V(j,k)在输出拼接流形中为相邻列时，如果ΔC_SCM(Υ_i)足够小说明V(j,k)与V(g,h)的前一列V(g－1,h)非常相似，或者是V(g,h)与V(j,k)的后一列V(j+1,k)非常相似，那么可认为从V(j,k)到V(g,h)的过渡是平滑的，就像从V(g－1,h)到V(g,h)或从V(j,k)到V(j+1,k)的局部过渡一样，保持了输入序列帧内显著图像内容的一致性。

若设Υ_i＝V(x_i,t_i)，Υ_i+1＝V(x_j,t_j)，根据式(4)分别计算式(3)中各部分视觉显著性认知差异：

(1)图像灰度信息视觉显著性认知差异ΔC_gray(Υ_i)：

ΔC_gray(Υ_i)＝min{||V_gray(x_i,t_i)-V_gray(x_j-1,t_j)||,V_gray(x_i+1,t_i)-V_gray(x_j,t_j)||} (5)

其中V_gray(x_i,t_i)和V_gray(x_j,t_j)为输入的所述密集视频序列图像中第t_i帧图像x_i列的灰度值与第t_j帧图像x_j列的灰度值。

(2)边界轮廓信息视觉显著性认知差异ΔC_edge(Υ_i):

ΔC_edge(Υ_i)＝min{||V_edge(x_i,t_i)-V_edge(x_j-1,t_j)||,V_edge(x_i+1,t_i)-V_edge(x_j,t_j)||} (6)

其中V_edge(x_i,t_i)和V_edge(x_j,t_j)为输入的所述密集视频序列图像中第t_i帧图像x_i列的边界轮廓响应值与第t_j帧图像x_j列的边界轮廓响应值。

其中，图像的边界轮廓响应值V_edge可通过基于梯度变化的传统边缘检测算子进行检测，如Sobel、Canny等算子，这类方法原理计算简单、物理意义明确。

由于基于梯度变化的传统边缘检测算子进行检测所得到的图像的边界轮廓响应值V_edge的检测结果严重依赖于图像亮度和对比度的变化程度，在光照条件不理想或者亮度变化不剧烈的时候检测效果不理想，因此，本实施例优选相位一致性检测方法来提取所采集的密集视频序列图像的有效边界轮廓信息，它可检测出包括边缘特征和线特征在内的多种图像特征。与梯度信息相比，图像的相位信息非常稳定，对图像亮度和对比度具有不变性。

基于相位一致性的图像特征检测方法的出发点是将图像中傅里叶分量相位一致性最高的点作为显著特征，从相位信息中提取的图像特征更加符合人类视觉系统感知特性。相位一致性是在频率域上的测度值，源于局部能量模型，最早由Morrone等人提出，其表达式为：

$> PC (x) = \frac{| E (x) |}{\underset{n}{Σ} A_{n} (x)} - - - (7)$ >

其中A_n(x)为傅里叶分量在位置x处的振幅，|E(x)|为局部能量。相位一致性即为局部能量与所有局部傅里叶分量的振幅之和的比值，其本质是图像中各个频率成分的相位相似度的一种度量，是一个无量纲的量，其值从1到0，表示从显著特征降到无特征。

由于现有的式(7)定义的相位一致性在提取边缘或角点时定位不准确且对噪声敏感，因此本实施例中采用Kovesi在计算频域内二维滤波器与图像卷积的基础上提出相位一致性的改进算法，由下式计算位置(x,y)处的相位一致值：

其中，符号表示如果值为正则等于原值，否则为0；ε为避免除数为零引入的常量；W_o(x,y)为频率展开的权重因子，T_o为噪声补偿函数；A_no(x)为当前位置在方向o、尺度n上的幅值，它与相位偏离函数ΔΦ(x,y)的乘积为：

A_no(x,y)ΔΦ_no(x,y)＝e_no(x,y)φ_e(x,y)+o_no(x,y)φ_o(x,y) (9)

-|e_no(x,y)φ_o(x,y)+o_no(x,y)φ_e(x,y)|

$> Δ Φ_{no} (x, y) = \cos (φ_{no} (x, y) - {\overline{φ}}_{o} (x, y)) - | \sin (φ_{no} (x, y) - {\overline{φ}}_{o} (x, y)) | - - - (10)$ >

其中φ_e(x,y)＝∑_ne_no(x,y)/E(x,y)，φ_o(x,y)＝∑_no_no(x,y)/E(x,y)，且局部能量E(x,y)定义为：

$> E (x, y) = \sqrt{{(Σ_{n} e_{no} (x, y))}^{2} + {(Σ_{n} o_{no} (x, y))}^{2}} - - - (11)$ >

式中 $> e_{no} (x, y) =I {(x, y)}^{*} M_{no}^{e},$ > $> e_{no} (x, y) =I {(x, y)}^{*} M_{no}^{o}$ >分别为原图像I与奇、偶正交Log-Gabor小波的卷积之和，和分别为第n个尺度在方向o上的奇、偶Log-Gabor小波。

(3)景深图层区域信息视觉显著性认知差异ΔC_depth(Υ_i):

其中V_D(x_i,t_i)和V_D(x_j,t_j)为第t_i帧图像x_i列的景深值与第t_j帧图像x_j列的景深值。

通常在立体视觉中从不同视点采集同一景物的感知图像，可通过三角测量原理计算图像像素间的位置偏差即视差，来获取景物的三维深度信息，二者存在一一对应关系，深度增加，视差减小。根据上述关系，图像的景深图层区域信息V_depth可由相邻图像间的视差计算来近似获取场景内部三维深度区域信息，选择一幅图像作为参考图像，另一幅图像作为匹配图像，匹配目标就是建立图像空间到离散视差空间的映射，也就是为参考图像中每个像素p确定视差值。

本实施例通过计算相邻图像视差获取图像的景深图层区域信息，图4所示为通过计算相邻图像视差获取图像的景深图层区域信息的方法流程图，其实现步骤如下：

S41：双向计算局部匹配代价。此步骤中，以所采集的密集视频序列图像中相邻两帧序列图像互为参考图像，使匹配图像在参考图像上滑动，双向计算参考图像像素点(x,y)与关于视差d的待匹配图像像素点在局部窗口N(x,y)内的匹配代价：

C(x,y,d)＝(1-ω)^*C_SAD(x,y,d)+ω^*C_GRAD(x,y,d) (13)

其中，

$> C_{SAD} (x, y, d) = \underset{(i, j) \in N (x, y)}{Σ} | I_{1} (i, j) - I_{2} (i + d, j) |$ >

$> C_{GRAD} (x, y, d) = \underset{(i, j) \in N_{x} (x, y)}{Σ} | ▿_{x} I_{1} (i, j) - ▿_{x} I_{2} (i + d, j) | - - - (14)$ >

$> + \underset{(i, j) \in N_{y} (x, y)}{Σ} | ▿_{y} I_{1} (i, j) - ▿_{y} I_{2} (i + d, j) |$ >

该匹配代价结合了绝对灰度差异和(SAD)与梯度差异(GRAD)，对场景变化具有自适应非相似性测量的特性。

S42：以优胜者全选((Winner Takes All,WTA)算法估计初始视差图。根据双向匹配代价进行交叉检验来估计视差值，并采用优胜者全选算法作为视差选择方法估计所述相邻两帧图像的初始视差图。WTA方法的基本思想就是对于参考图中的一点，在匹配图中计算视差范围内的叠加匹配代价，取匹配代价最小的点作为参考图中点的对应点。设预定的视差范围为R_d=[d_min,d_max]，且搜素范围中的视差个数N_d＝d_max-d_min+1，则参考图像中的初始匹配得到的视差为：

$> D_{int} (x, y) = \arg \min_{d \in R_{d}} C (x, y, d) - - - (15)$ >

S43：采用Mean-Shift算法划分所述相邻两帧图像中采集时间靠前的那帧图像的一致性区域，并以分割块内中值视差值作为分割块整体视差值对所述相邻两帧图像的初始视差图滤波求取区块视差，得到相邻两帧图像的视差图。此步骤中，首先采用Mean-Shift算法分割参考图像，获得颜色或灰度一致性区域，本算法假设视差值在这些分割区域间平滑变化，并且仅在区域边界发生深度变化，而Mean-Shift易产生过分割的特点恰好满足该假设条件。然后对初始视差图进行滤波，取Mean-Shift分割块内中值视差值作为分割块整体视差值对初始视差图进行滤波，取Mean-Shift分割块内中值视差值作为分割块整体视差值即：

D_si＝median(d(x,y)),(x,y)∈Seg_i (16)

通过上述对视差的求解过程，间接计算了景深信息，最后可将视差图像转换为图像的景深图层区域信息V_depth。

图2所示S3中采用最短路径搜索算法计算使全局合成图像显著性视觉认知差异达到最小的最优剪切路径，优选Dijkstra算法，它是解决求取加权图中给定顶点之间最短路径问题最为直接和有效的方法，其基本思想是：假设u₀=V_start为源点，v₀=V_end为目标点，按距离u₀由近及远为顺序，依次求得u₀到加权图中的各顶点的最短路和距离，直至v₀或直至加权图中的所有顶点，算法结束；同时采用标号算法以避免重复，并保留每一步的计算信息。算法具体步骤如下：

步骤1：令l(u₀)＝0，对于v≠u₀，令l(v)＝∞,S₀＝{u₀},i＝0；

步骤2：对每个用代替l(v)，当u，v不相等时，w(uv)＝∞。计算把达到这个最小值的一个顶点记为u_i+1，令S_i+1＝S_i∪{u_i+1}；

步骤3：若i＝|V|-1，则停止；若i＜|V|-1，则用i+1代替i，转向步骤2。

算法结束时，从u₀到各顶点v的距离由v的最后一次标号l(v)给出。在v进入S_i之前的标号记为T标号，v进入S_i时的标号l(v)记为P标号，则算法就是不断修改各个点的T标号，直至获得P标号。若在算法运行过程中，将每一顶点获得P标号所由来的边在图上标明，那么当算法结束时，u₀至各点的最短路径也就在图上标示出来了。

图5为一组预先采集的密集视频序列图像，在这序列图像的场景内的人进行了一系列非刚性运动。图6为采用本发明实施例提供的方法对图5中的序列图像进行处理后得到的相位一致性边界轮廓映射图，图7为采用本发明实施例提供的方法对图5中的序列图像进行处理后得到的景深图层区域标签图，图8所示为采用本发明实施例提供的方法得到的对图5中的视频序列图像的最优剪切路径，最终采用本发明实施例提供的方法合成的大视场全局合成图像如图9所示。从图9的合成效果可以看到：当非刚性运动物体为主要对象时，本方法可有效避免运动物体被重复拉伸扫描或缺失剪切的现象，保证了运动物体的完整性。

经过大量合成测试实验验证，结果表明本发明提出的视觉认知模型驱动的全局图像信息合成方法可有效解决存在复杂多维运动物体的大视场全局图像合成问题，确保运动合成目标的完整性，具有良好的合成效果和较强的鲁棒性。

本发明为高效解决场景含复杂多维运动物体的全局图像信息合成问题，从人的视觉显著性认知学习出发，分析视觉层次感知机制及其计算模型，提取场景显著性区域与建模描述，以该视觉认知模型为约束条件，结合自适应流形拼接框架，提出一种视觉认知模型驱动的全局图像信息合成方法。该方法可充分发挥人的视觉认知模型在全局场景图像合成中的作用，合理避免物体各种运动干扰造成的合成瑕疵，如运动合成模糊、运动物体剪切、背景亮度阶跃等；同时，该方法无需相机标定和运动估计，能有效复现广域大场景的关键内容，为安防侦查等广域大范围监控系统提供全局态势理解与决策提供支持。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种视觉认知模型驱动的全局图像信息合成方法 [P] . 中国专利： CN103247038B . 2016.01.20
2. 一种视觉认知模型驱动的全局图像信息合成方法 [P] . 中国专利： CN103247038A . 2013-08-14
3. The ‘Property Identification Method’ (“PIM”) is a novel algorithm through which a Real Estate Authority and/or Conveyancing data is created through image-processing a document such as a Council/Shire Rates Notice. This invention establishes a unique algorithm incorporating techniques such deep learning segmentation and computer vision to decode property information. This application utilises computer-implemented technology configured in such manner as to enable conveyancers and real estate agents to automate the creation of client files. [P] . AU2020102233A4 . 2020-10-29

机译： “财产识别方法”（“ PIM”）是一种新颖的算法，通过该算法，可以通过对文件（如市议会/房屋价格通知）进行图像处理来创建房地产管理局和/或产权转让数据。本发明建立了一种独特的算法，该算法结合了诸如深度学习分段和计算机视觉之类的技术来解码属性信息。该应用程序利用以某种方式配置的计算机实现的技术，以使运输商和房地产经纪人能够自动创建客户端文件。
4. A SYSTEM FOR REDUCING VISUAL DISTORTION DURING DECODING OF IMAGE INFORMATION [P] . IN218109B . 2008-09-12

机译：一种减少图像信息解码过程中视觉失真的系统
5. A SYSTEM FOR REDUCING VISUAL DISTORTION DURING DECODING OF IMAGE INFORMATION [P] . IN1996DE00025A . 2005-05-27

机译：一种减少图像信息解码过程中视觉失真的系统