首页> 中国专利> 基于区域增长和眼动模型的全景图像显著性检测方法

基于区域增长和眼动模型的全景图像显著性检测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公布了一种基于区域增长和眼动模型的全景图像显著性检测方法，使用区域生长和固定预测模型，实现全景图像的自动突出物体检测；包括：针对原始图像进行基于区域增长的检测，通过区域增长算法粗略提取与其邻居相比具有显著不同密度的区域，得到密度重大差异区域；通过眼动固定点预测，得到突出区域的显著性值；进行最大值归一化后求和；采用优化测地线方法，使得更均匀地增强突出区域；即检测得到全景图像的显著性。本发明方法能够解决现有方法的显著性检测精确度、健壮性不够，不适用于全景图片的问题，使全景图像中的显著性区域更精准地显现出来，为后期的目标识别和分类等应用提供精准且有用的信息。

著录项

公开/公告号CN107730515A

专利类型发明专利
公开/公告日2018-02-23

原文格式PDF
申请/专利权人北京大学深圳研究生院;
展开▼

申请/专利号CN201710947581.3
发明设计人李革;朱春彪;黄侃;
展开▼

申请日2017-10-12
分类号
代理机构北京万象新悦知识产权代理事务所(普通合伙);
代理人黄凤茹
地址 518055 广东省深圳市南山区西丽镇深圳大学城北大校区
入库时间 2023-06-19 04:40:01

法律信息

法律状态公告日

法律状态信息

法律状态
2019-11-22

授权

授权
2018-03-20

实质审查的生效 IPC(主分类):G06T7/11 申请日:20171012

实质审查的生效
2018-02-23

公开

公开

说明书

技术领域

本发明涉及图像处理、计算机视觉和机器人视觉技术领域，尤其涉及一种利用区域增长算法和眼动模型进行全景图像的显著性检测的方法。

背景技术

人眼的固有和强大的能力是快速捕获场景中最突出的地区，并将其传递到高级视觉皮层。注意力选择降低了视觉分析的复杂性，从而使人类视觉系统在复杂场景中效率相当高。作为预处理程序，许多应用程序受益于显着性分析，例如检测异常模式，分割原始对象，生成对象提案，等等。显著性的概念不仅在早期的视觉建模中被研究，而且在诸如图像压缩，对象识别和跟踪，机器人导航，广告等领域也有着广泛的应用。

早期的计算显著性的工作旨在模拟和预测人们对图像的注视。最近该领域已经扩展到包括整个突出区域或对象的细分。

大部分工作根据中心环绕对比度的概念，提取与周边地区相比具有显著特征的突出区域。此外，还可以使用前景对象和背景的空间布局的附加现有知识：具有很高的属于背景的可能性，而前景突出对象通常位于图像中心附近。已经成功地采用这些假设来提高具有常规纵横比的常规图像的显着性检测的性能。近来，产生广泛视野的全景图像在各种媒体内容中变得流行，在许多实际应用中引起了广泛的关注。例如，当用于诸如头戴式显示器的可穿戴设备时，虚拟现实内容表现出广泛的视野。用于自主车辆的环视监控系统通过组合在不同观看位置拍摄的多个图像来使用全景图像。这些全景图像可以通过使用特殊装置直接获得，或者可以通过使用图像拼接技术组合几个具有小纵横比的传统图像来生成。然而，用于检测常规图像显著性的假设并不能完全反映全景图像的特征。因此，现有技术难以实现高效的全景图像处理，现有的全景图像的显著性检测方法的精确度、健壮性均有待提高。

发明内容

为了克服上述现有技术的不足，本发明提供一种利用区域增长算法和眼动模型进行全景图像的显著性检测的方法，能够解决现有方法的显著性检测精确度、健壮性不够，不适用于全景图片的问题，使全景图像中的显著性区域更精准地显现出来，为后期的目标识别和分类等应用提供精准且有用的信息。

本发明的原理是：与常规图像相比，全景图像具有不同的特征。首先，全景图像的宽度比高度大得多，因此背景分布在水平伸长的区域上。其次，全景图像的背景通常由几个同质区域组成，如天空，山地和地面。此外，典型的全景图像可以包括具有不同特征和尺寸的多个前景对象，它们任意地分布在图像各处。对于这些特征，难以设计从输入全景图像直接提取多个显著区域的全局方法。本发明发现空间密度模式对于具有高分辨率的图像是有用的。因此，本发明首先采用基于区域生长的全景图像的空间密度模式检测方法来粗略提取初步对象。将眼固定模型嵌入到框架中，以预测视觉注意力，这是符合人类视觉系统的方法。然后，通过最大值归一化将先前得到的显著性信息相融合，得出粗略的显著性图。最后，使用测地线优化技术来获得最终的显著性图。

本发明提供的技术方案是：

基于区域增长和眼动模型的全景图像显著性检测方法，使用区域生长和眼动固定点预测模型(简称为眼动模型)，实现全景图像的自动突出物体检测；包括如下步骤：

1)针对原始图像进行基于区域增长的检测，通过区域增长算法粗略地提取与其邻居相比具有显著不同密度的区域；

其中，重大差异的区域可以分为三类：1)过密度的区域，2)密度不足的区域，3)由山脊或沟渠包围的地区。具体包括如下过程：

11)开始时，将原始图像分割成M*N个小区域，并转换成密度矩阵，其中每个单位(i，j)表示第(i，j)个小区域内的对象的计数；原始图像经过密度矩阵的处理，得到强度图像。

12)基于作为强度图像处理的该密度矩阵，应用图像处理方法对强度图像进行图像增强，再应用基于区域增长的算法来提取显著不同的区域，可以返回明显不同区域的精确形状，仅输出精确形状的粗糙的矩形边界框；

为了简单起见，可将原始彩色图像转换为灰度图像，然后将上述采用对象提案算法提取的精确图像的粗糙矩形边界框应用于灰度图像，所得到的图像可以被看作是密度图。基于区域增长的算法来提取显著不同的区域过程中进行如下处理：

(a)提高密度图像：应用形态学操作，包括形态学扩张，侵蚀，开放和近距离，以消除像非常小的区域之类的噪声，并且连接彼此靠近的单独的同质区域。

(b)排除不同的背景地区：后续步骤采用一些优化方法，例如平均强度值和提取区域的总面积以排除不良结果。

(c)种子选择：在实施过程中，自动种子选择和迭代提供阈值。

(d)阈值选择：选用自适应阈值处理。

2)眼动固定点预测，得到突出区域的显著性值；包括如下步骤：

21)使用眼固定模型(眼动模型、固定预测模型)来分析哪个区域会更加吸引人们的注意力，得到显著性区域；

22)采用频域中的固定预测模型快速扫描图像，并粗略地定位吸引人们关注的地方；

23)采用签名模型，通过取变换域中的混合信号x的符号大致隔离前景的空间支持，然后将其转换回空间域，即通过计算重构图像表示X的DCT变换；签名模型被定义为IS(X)：

IS(X)＝sign(DCT(X))(式1)

通过平滑上面定义的平方重建图像形成显著性图，表示为式2：

其中，g表示高斯内核。

24)将提取出的突出区域与图像签名产生的显著性图像S_m进行组合，通过对其中所有像素的显著性进行平均值来分配所提取出的突出区域的显著性值；

将所得的显著性图/值表示为S_p，对于初步认定为显著性的区域p，将其显著性值定义为式3：

其中，A(p)表示第p个区域中的像素数。

3)最大值归一化；

本发明利用地图统计来确定每个路径(步骤1)、2))的重要性；在最终整合阶段，结合两个路径的结果，在Maxima归一化之后对它们进行求和(MN)。

Maxima归一化算子N_max(·)最初被提出用于整合来自多个特征通道(Itti，Koch和Niebur>

4)优化测地线技术，具体步骤如下：

我们发现显著性值的权重可能对测地距离敏感。本发明采用一种可以更加均匀地增强突出物体区域的解决方案。首先根据线性频谱聚类方法将输入图像分割成多个超像素，并通过对其中所有像素的后验概率值Sp进行平均来计算每个超像素的后验概率。对于第j个超像素，如果其后验概率被标记为S(j)，则第q个超像素的显著值通过测地距离被改善如式4：

其中，J是超像素的总数；w_qj将第q个超像素和第j个超像素之间测地距离的权重值。

首先，已经有一个无向的权重图连接所有相邻的超像素(ak，ak+1)，该无向图的权重dc(ak，ak+1)分配为他们的显著性值之间的欧几里得距离；然后，两者之间的测地距离超像素dg(p，i)可以定义为累积边图上最短路径的权重，表示为式5：

然后将权重δ_pi定义为式6：

式6中，δ_pi为第p个超像素和第i个超像素之间测地距离的权重值；σ_c为d_c>g(p,j)为像素p和j之间的测地距离。

经过上述步骤，即检测得到全景图像的显著性。

与现有技术相比，本发明的有益效果是：

本发明提供一种利用区域增长算法和眼动模型进行全景图像的显著性检测的方法，首先采用基于区域生长的全景图像的空间密度模式检测方法来粗略提取初步对象。将眼固定模型嵌入到框架中，以预测视觉注意力；再通过最大值归一化将先前得到的显著性信息相融合，得出粗略的显著性图。最后，使用测地线优化技术来获得最终的显著性图。本发明能够解决现有方法的显著性检测精确度、健壮性不够，不适用于全景图片的问题，使全景图像中的显著性区域更精准地显现出来，为后期的目标识别和分类等应用提供精准且有用的信息。

与现有技术相比，本发明的技术优势体现为以下几方面：

1)首次提出了一种基于组合区域生长和眼睛固定模型的全景图像的显著性检测模型。

2)将区域生长的空间密度模式检测算法首次引入显著性检测领域。

3)构建了一种新的高品质全景数据集(SalPan)，具有新颖的地面真实注释方法，可以消除显著物体的二义性。

4)本发明所提出的模型也适用于常规图像的显著性检测。

5)本发明方法还可有助于在广泛的视野中找出人类视觉系统对于大尺度视觉内容的感知特征。

附图说明

图1为本发明提供的检测方法的流程框图。

图2为本发明实施例中采用的输入全景图像、其他方法检测图像、本发明检测图像，以及人工标定想要得到的图像；

其中，第一行为输入图像；第二至第六行为现有其他方法得到的检测结果图像；第七行为本发明检测结果图像；第八行为人工标定期望得到的图像。

图3为本发明适用于常规图像的显著性检测效果图；

其中，第一行为输入常规图像，第二行为本发明检测结果图像，第三行为人工标定期望得到的图像。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

图1为本发明提供的显著性检测方法的流程框图，包括四个主要步骤。首先，我们采用区域增长算法进行显著性物体区域的自动框选。其次，使用眼固定预测模型估计显著点。然后，利用最大值归一化方法融合先前显著性信息。最后，通过测地线优化技术获得最后的显著性检测结果图。详细过程阐述如下：

步骤一、基于区域增长的检测。

在本步中，我们的目标是粗略地提取与其邻居相比具有显著不同密度的区域。我们认为，重大差异的区域可以分为三类：1)过密度，2)密度不足，3)由山脊或沟渠包围的地区。开始时，将原始图像分割成M*N个区域，并转换成密度矩阵，其中每个单位(i，j)表示第(i，j)个小区内的对象的计数。基于作为强度图像处理的该密度矩阵，应用诸如图像形态算子和增强技术的图像处理技术，然后应用基于区域增长的算法来提取显著不同的区域。相比使用其他技术，仅输出粗糙的矩形边界框，该算法可以返回明显不同区域的精确形状。为了简单起见，我们将原始彩色图像转换为灰度图像，然后将对象提案算法应用于灰度图像。因此，所得到的图像可以被看作是密度图。区域增长涉及的一些问题如下：(a)提高密度图像。我们应用形态学操作，包括形态学扩张，侵蚀，开放和近距离，以消除像非常小的区域之类的噪声，并且连接彼此靠近的单独的同质区域。(b)排除不同的背景地区。一些提示用于后处理步骤，例如平均强度值和提取区域的总面积以排除不良结果。(c)种子选择。在实施过程中，自动种子选择和迭代提供阈值。自动选择似乎取得了良好的效果，因此在拟议方法中被采用为种子选择方法。(d)阈值。选用自适应阈值处理。实验结果表明，基于区域增长的算法在检测具有有效计算能力的重要区域中运行良好。通过估计密度矩阵，我们可以提出一些显著的区域，可以在下一步中加强或重新估计该区域的显著性。

步骤二、眼动固定点预测。

一个位置是否显著，在很大程度上取决于它吸引人们的注意力。眼睛固定预测的大量近期工作已经或多或少地显露出来这个问题的性质。眼固定预测模型模拟人类视觉系统的机制，从而可以预测一个位置吸引人们注意的概率。所以在本步中，我们使用眼固定模型来帮助我们确保哪个区域会更加吸引人们的注意力。全景图像通常具有宽视野，因此与常规图像相比计算上更昂贵。基于颜色对比的算法，局部信息不适合作为全景图像的预处理步骤，因为这些算法是耗时且花费大量计算资源的。因此，本发明采用一种更有效的方法来帮助我们快速扫描图像，并粗略地定位吸引人们关注的地方。频域中的固定预测模型在计算上有效且易于实现，因此，本发明采用频域中的眼动预测模型为签名模型。签名模型通过取变换域中的混合信号x的符号大致隔离前景的空间支持，然后将其转换回空间域，即通过计算重构图像表示X的DCT变换。图像签名IS(X)定义为式1：

IS(X)＝sign(DCT(X))(式1)

其中，sign()为符号函数，DCT()为DCT变换函数。

显著性图是通过平滑上面定义的平方重建图像形成的，表示为式2。

其中，g表示高斯内核。

图像签名是一个简单而强大的自然场景描述符，可用于近似隐藏在光谱稀疏背景中的稀疏前景的空间位置。与其他眼固定模型相比，图像签名具有更高效的实现，运行速度快于所有其他方法。为了将上一步中提出的突出区域与图像签名产生的显著性图像S_m进行组合，我们通过对其中所有像素的显著性进行平均值来分配所提出的突出区域的显著性值。为方便起见，我们将所得的显著性图表示为S_p。也就是说，对于初步标记为显著的区域p，其显著性值被定义为式3：

其中，A(p)表示第p个区域中的像素数。

步骤三、最大值归一化。

融合多个模型的显着性检测结果被认为是一项具有挑战性的任务，因为候选模型通常是基于不同的提示或假设而开发的。幸运的是，在我们的案例中，整合问题比较容易，因为我们只考虑两个路径的输出。既然没有先前的知识或其他的可以使用自上而下的指导，利用地图统计来确定每个路径的重要性更安全。在最终整合阶段，我们结合两个路径的结果，在Maxima归一化之后对它们进行求和(MN)。Maxima归一化算子N_max(·)最初被提出用于整合来自多个特征通道(Itti，Koch和Niebur>

步骤四、测地线技术优化。

我们提出的方法的最后一步是采用测地距离，进行最终结果的优化。首先根据线性频谱聚类方法将输入图像分割成多个超像素，并通过对其中所有像素的后验概率值Sp进行平均来计算每个超像素的后验概率。对于第j个超像素，如果其后验概率被标记为S(j)，则第q个超像素的显显著值通过测地距离被改善如式4：

其中，J是超像素的总数，w_qj将是基于测地距离的权重在第q个超像素和第j个超像素之间。首先，已经有一个无向的权重图连接所有相邻的超像素(ak，ak+1)并将其重量dc(ak，ak+1)分配为他们的显著性值之间的欧几里得距离。

然后，两者之间的测地距离超像素dg(p，i)可以定义为累积边图上最短路径的权重，表示为式5：

以这种方式，可以得到任何两个之间的测地距离图像中的超像素。

然后将权重δ_pi定义为式6：

式6中，δ_pi为第p个超像素和第i个超像素之间测地距离的权重值；σ_c为d_c>g(p,j)为像素p和j之间的测地距离。

通过以上步骤，我们能够得到最终的显著性检测结果图，实验对比图如图2所示。同时，本发明方法也适用于常规尺寸的图片，实验效果图如图3所示。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于区域增长和眼动模型的全景图像显著性检测方法 [P] . 中国专利： CN107730515B . 2019.11.22
2. 基于区域增长和眼动模型的全景图像显著性检测方法 [P] . 中国专利： CN107730515A . 2018-02-23
3. PANORAMIC IMAGE SALIENCY DETECTION METHOD BASED ON REGIONAL GROWTH AND EYE MOVEMENT MODEL [P] . 世界知识产权组织专利： WO2019071976A1 . 2019-04-18

机译：基于区域增长和眼动模型的全景图像清晰度检测方法
4. Kinect-based Object Detection Method at Wall-Floor Junction Using Region Growing Technique [P] . 韩国专利： KR101915893B1 . 2018-11-06

机译：基于区域增长技术的墙面结点基于Kinect的目标检测方法
5. EYE MOVEMENT SIMULATION SYSTEM, ROBOT FOR EYE MOVEMENT SIMULATION, AND EYE MOVEMENT SIMULATION SYSTEM USING VIRTUAL REALITY [P] . 日本专利： JP2006065094A . 2006-03-09

机译：眼动仿真系统，用于眼动仿真的机器人以及基于虚拟现实的眼动仿真系统