首页> 中国专利> 一种图像中不同区域视觉显著程度的检测方法

一种图像中不同区域视觉显著程度的检测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种图像中不同区域视觉显著程度的检测方法，包括：将输入图像切分成不重叠的图像块，并将每个图像块向量化；为了降低图像中的噪声和冗余信息，对步骤1所得到的所有向量通过PCA主成分分析方法进行降维；对于每个图像块，利用降维后的向量计算这个图像块与其他所有图像块的不相似度，再结合图像块之间的距离计算得到每个图像块的视觉显著性程度，得到显著图；对于显著图施加中央偏置，得到施加中央偏置后的显著图；对于施加中央偏置后的显著图通过二维高斯平滑算子进行平滑，得到最终反映图像各个区域显著程度的结果图像。与传统方法相比，本发明不用提取颜色、朝向、纹理等视觉特征，避免了特征选择的步骤。具有简单、高效的优点。

著录项

公开/公告号CN101984464A

专利类型发明专利
公开/公告日2011-03-09

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN201010522415.7
发明设计人段立娟;吴春鹏;苗军;卿来云;杨震;乔元华;
展开▼

申请日2010-10-22
分类号G06T7/00(20060101);G06T5/00(20060101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人楼艮基
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-12-18 01:43:44

法律信息

法律状态公告日

法律状态信息

法律状态
2012-05-30

授权

授权
2011-04-20

实质审查的生效 IPC(主分类):G06T7/00 申请日:20101022

实质审查的生效
2011-03-09

公开

公开

说明书

技术领域

本发明涉及图像处理中的局部区域分析，特别涉及图像中的视觉显著性区域检测方法。

背景技术

现代高速计算机的计算能力已达到惊人的程度，但计算机视觉系统却无法指导诸如过马路之类对人来说非常简单的视觉任务。这主要是因为同样面对海量的视觉信息输入，人眼可以在短时间内有选择地关注视觉场景中的显著变化区域，并进行分析判断，从而适应环境的变化。而计算机视觉系统只会不加选择地平等对待视觉场景中的各个区域，在无法理解场景变化的同时还会造成计算瓶颈。如果我们把人类视觉视觉系统的选择性注意功能引入到计算机视觉系统中，势必会提升现有计算机图像分析效率。

图像的视觉显著性区域检测有着广泛的应用，如图像智能裁剪缩放。当我们需要对一幅图像进行裁剪或缩放时，总希望保持图像中有意义的内容不被裁掉或扭曲，而只是对那些不重要的背景区域进行处理。如果我们使用某一个设备自动实现上述功能，就需要首先对一幅图像中各个区域的视觉显著程度进行判断从而确定图像中有意义的内容。

在有关视觉显著性程度检测的文献中，视觉显著区域通常被定义为那些在图像特征空间上具有全局稀有性的局部图像块。这种定义的一种常见实现方法是：把图像切分成若干个图像块，然后计算每个图像块相对其他所有图像块的不相似度，最后那些具有较高不相似度的图像块被认为是比较显著的区域。其中不相似度的比较方法可以是比较两个图像块在颜色、朝向、纹理等特征上的对比度。还有一种定义认为与邻域对比比较大的区域是比较显著的区域。这种定义的实现方式和上述全局稀有性定义的主要区别在于每个图像块之和它周围的图像块比较不相似度，而不是和当前图像中的所有图像块。

总体来说，上述两种方法主要考察的是图像块之间的不相似程度，但实际上图像块之间的距离也和视觉显著性程度有直接的关系。对人类知觉组织原则的相关研究表明，一幅图像中的显著区域会以比较紧凑的方式出现在图像中。也就是说，在一幅图像中，如果一个局部图像块和距离它比较近的那些图像块比较相似，那么这个图像块就越可能是显著的。如果两个图像块之间的距离比较大，那么即使它们比较相似，这两个图像块对于对方显著性程度的贡献也要下降。因此在一幅图像中，一个图像块对于另一个图像块在视觉显著性上的贡献随它们之间的不相似度增大而增大，随它们之间的距离增大而下降。

此外，对人类视觉系统的相关研究表明，在观察视觉场景时，人眼具有中央偏置特性。利用视点跟踪仪记录的人眼观察大量图像的视点分布统计结果也显示，即使个别图像在该图像的边缘区域具有比较显著的内容，但总体上来看，人眼对图像中一个区域的平均关注程度随该区域与图像中央区域的距离增大而下降。

发明内容

本发明的目的在于根据上述知觉组织原则以及中央偏置原则提出一种图像中不同区域视觉显著程度的检测方法，此处的“区域”对应下文中的图像块。

本发明的技术手段包括以下步骤：

步骤1，将输入图像切分成不重叠的图像块，并将每个图像块向量化。

步骤2，为了降低图像中的噪声和冗余信息，对步骤1所得到的所有向量(每个图像块对应一个向量)通过主成分分析(PCA)方法进行降维。

步骤3，对于每个图像块，利用步骤2所得到的所有降维后的向量计算这个图像块与其他所有图像块的不相似度，再结合图像块之间的距离计算得到每个图像块的视觉显著性程度，得到显著图。

步骤4，对于步骤3所得到的显著图施加中央偏置，得到施加中央偏置后的显著图。

步骤5，对于步骤4所得到的施加中央偏置后的显著图通过二维高斯平滑算子进行平滑，得到最终反映图像上各个区域显著程度的结果图像。

本发明的方法具有以下优点：

1、与传统方法相比，本发明不用提取颜色、朝向、纹理等视觉特征，避免了特征选择的步骤。

2、本发明在步骤(2)中所使用的主成分分析方法是统计学习中的经典方法，在许多数值计算平台中能够找到比较成熟的实现算法。

3、本发明的主要计算量集中在步骤(3)，但在该步骤中每个图像块的计算是相互独立的，因此可以采用并行计算策略来提高执行效率。

附图说明

图1是本发明所涉及方法全过程的流程图。

具体实施方式

下面结合具体实施方式对本发明做进一步的说明。

假设输入一幅3通道彩色图像I，其宽和高分别为W、H。

首先在步骤1中要把图像切分成图像块并进行向量化，步骤1共包含2个子步骤：

步骤1.1，将图像I按照从左至右从上至下的顺序切分成不重叠的图像块p_i(i＝1，2，...，L)，每个图像块是一个方块，宽和高都是k(k＜W，k＜H)，因此每个图像块中的像素个数是k²，图像I可以切分出的图像块总数L＝(W/k)·(H/k)。当图像的宽和高不是k的整数倍时，需要先对图像进行缩放，要保证图像的宽和高是k的整数倍，这里假定尺寸变化后图像的宽和高仍分别用W、H表示(不影响后文理解)。

步骤1.2，将每个图像块p_i向量化为列向量f_i，由于输入的是一幅3通道彩色图像I，因此每个图像块所对应的列向量f_i的长度是3·k²。

接下来在步骤2中对步骤1所得到的所有向量通过主成分分析进行降维，步骤2共包含4个子步骤：

步骤2.1，计算步骤(1)所得到的所有向量的均值向量如式(1)所示：

$\overline{f} = Σ_{i = 1}^{L} f_{i} - - - (1)$

步骤2.2，构成样本矩阵A，矩阵A的第i列对应步骤(1)所得到的列向量f_i减去均值向量后的值，其构成如式(2)所示：

$A = [(f_{1} - \overline{f}), (f_{2} - \overline{f}), . . ., (f_{L} - \overline{f})] - - - (2) .$

步骤2.3，计算样本矩阵A的散度矩阵G，矩阵G是一个L×L的矩阵，如式(3)所示：

$G = \frac{1}{L^{2}} \cdot (A^{T} A) - - - (3)$

步骤2.4，计算散度矩阵G的特征值和特征向量，挑选最大的d个特征值所对应的特征向量X₁，X₂，...，X_d构成矩阵U，矩阵U是一个d×L的矩阵，其第i列对应图像块p_i降维后的向量。矩阵U构成如式(4)所示：

U＝[X₁ X₂ ... X_d]^T (4)

然后根据知觉组织原则，在步骤3中计算每个图像块的视觉显著性程度，步骤(3)共包含2个子步骤：

步骤3.1对每个图像块p_i，其视觉显著性程度的计算公式如式(5)所示：

其中表示图像块p_i和p_j之间的不相似度，ω_ij表示图像块p_i和p_j之间的距离，式(5)中各参数的计算公式具体如式(6)-(9)所示：

M_i＝max_j{ω_ij}(j＝1，...，L) (6)

D＝max{W，H} (7)

$ω_{ij} = \sqrt{{(x_{pi} - x_{pj})}^{2} + {(y_{pi} - y_{pj})}^{2}} - - - (9)$

其中式(8)中的u_mn表示矩阵U第m行第n列的元素。式(9)中(x_pi，y_pi)、(x_pj，y_pj)分别代表图块p_i和p_j在原图像I上的中心点坐标。

步骤3.2，把所有图像块的视觉显著性程度取值按照原图像I上各图像块之间的位置关系组织成二维形式，构成显著图SalMap，这是一个J行N列的灰度图，J＝H/k，N＝W/k。显著图SalMap上第i行第j列的元素对应原图像I上切分出的图像块p_(i-1)·N+j(i＝1，..，J，j＝1，...，N)的显著程度取值，具体取值如式(10)所示：

SalMap(i，j)＝sal_(i-1)N+j(i＝1，..，J，j＝1，...，N) (10)

然后，根据人眼中央偏置原则，在步骤(4)中对上述步骤(3)中得到的显著图施加中央偏置，得到最终的结果图。步骤(4)共包含2个子步骤：

步骤4.1生成距离图DistMap，该图与显著图SalMap的大小一致，距离图DistMap具体取值如式(11)所示：

$DistMap (i, j) = \sqrt{{(i - (J + 1) / 2)}^{2} + {(j - (N + 1) / 2)}^{2}} (i = 1, . . ., J, j = 1, . . ., N) - - - (11)$

然后生成人眼平均关注程度权值图AttWeiMap，该图也与显著图SalMap的大小一致，具体取值如式(12)所示：

$AttWeiMap (i, j) = 1 - \frac{DistMap (i, j) - \min {DstMap}}{\max {DistMap} - \min {DstMap}} (i = 1, . . ., J, j = 1, . . ., N) - - - (12)$

其中max{DistMap}、min{DistMap}分别表示距离图上的最大值和最小值。

步骤4.2将显著图和人眼平均关注程度权值图进行点对点乘法，得到施加中央偏置后的显著图SalMap′，计算方法如式(13)所示：

SalMap′(i，j)＝SalMap(i，j)·AttWeiMap(i，j)(i＝1，..，J，j＝1，...，N) (13)

最后，在步骤5中对于施加中央偏置后的显著图通过二维高斯平滑算子进行平滑，得到最终反映图像上各区域视觉显著程度的结果图像，结果图上数值越大的区域就表示越显著。

本发明的上述操作到此已经实现了输入图像上各区域视觉显著性程度计算。在这一计算结果的基础上，还可以根据具体应用对所得到的结果图做进一步处理，如将最终得到的结果图扩大到与原始输入图像同样大小，或者通过设定阈值将结果图变换为二值图像。

为了测试本发明对于图像中各区域视觉显著性程度的检测效果，现采用视觉显著性区域检测领域公认的受试者操作特性曲线(ROC曲线)作为测试依据，ROC曲线是许多领域如临床实验室相关指标的常用分析工具。具体的测试过程如下：

1、选择视觉显著性区域检测领域公认的测试图像库，该图像库中的每幅图像应该配有一幅同样大小的人类视点图。人类视点图是一幅二值图像，人类视点图上各点的取值原则是：用视点跟踪仪记录多名被试观察图像库中对应图像时的若干关注点，关注点的中心像素在人类视点图上标记为1，人类视点图上的其他位置标记为0。

2、在测试图像库上运行某一种显著性检测方法(如本发明具体实施步骤中的方法或本领域的其他方法)，得到图像库上每幅图像对应的反映图像上各区域显著程度的图像(在本发明具体实施步骤中就是指最终的结果图像，在本领域其他方法中会有其他的名称，但作用是一样的)。

3、建立直角平面坐标轴，横轴对应假阳率，纵轴对应真阳率。对于测试图像库中每幅图像分别绘制各自的ROC曲线。一幅图像z所对应的ROC曲线在此坐标轴上的具体绘制过程如下：

3.1设定初始阈值为a(0＜a＜1)，阈值的步长定为b(0＜b＜1)

3.2利用阈值a将当前图像z所对应的反映图像上各区域显著程度的图像(第2步中已获得)阈值化为二值图像，然后计算此二值图像关于当前图像z对应的人类视点图(也是二值图像)的真阳率和假阳率，并将结果以坐标点的形式记录在坐标轴上。

3.3将阈值a修改为a+b，如果修改后的阈值a≥1，则执行下一步3.4，否则执行3.2

3.4将所有绘制的坐标点连接起来就是ROC曲线

4、计算测试图像库中每幅图像对应的ROC曲线与横轴(假阳率对应的轴)所夹的面积，再计算所有图像面积的平均值，该平均面积值就作为当前显著性检测方法的测试结果。面积越大，说明当前显著性检测方法对图像上各区域预测的显著性程度与人类实际观察者的视点分布越符合，效果也就越好。

本发明选择了法国INRIA实验室成员Bruce提供的图像库，该图像库是视觉显著性区域检测领域公认的测试图像库，共包括120幅彩色图像，每幅图像配有利用视点跟踪仪记录的人类视点图。将本发明具体实施步骤中的方法与本领域以下经典方法进行了对比：

1、美国Itti实验室成员Itti提出的基于特征整合理论的方法；

2、法国INRIA实验室成员Bruce提出的方法基于信息最大化的方法；

3、美国加州理工学院Harel提出的基于马尔可夫随机游走的方法；

4、美国加州理工学院Hou Xiaodi提出的基于编码长度增量的方法；

利用ROC曲线所得的测试结果表明，本发明具体实施步骤中所描述方法的测试结果是0.8339，比上述4种方法的测试结果都要好。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种图像中不同区域视觉显著程度的检测方法 [P] . 中国专利： CN101984464B . 2012.05.30
2. 一种图像中不同区域视觉显著程度的检测方法 [P] . 中国专利： CN101984464A . 2011-03-09
3. A general purpose image enhancement algorithm which augments the visual perception of detail in digital images [P] . AU2002322693A1 . 2003-02-17

机译：一种通用图像增强算法，可增强数字图像中细节的视觉感知
4. SYNTHETIC APERTURE BEAM FORMING METHOD FOR DETERMINING THE NUMBER OF SYNTHETIC BEAMS ACCORDING TO THE DEGREE OF MOTION BY SENSING MOTION IN AN IMAGE AND A DEVICE THEREOF [P] . 韩国专利： KR20120086992A . 2012-08-06

机译：一种合成孔径光束形成方法，用于通过图像中的运动来检测根据运动程度的合成光束的数目及其装置
5. A method of determining the extent of blocking artifacts in a digital image [P] . 欧洲知识产权局专利： EP1168823A3 . 2003-05-02

机译：一种确定数字图像中伪影程度的方法