首页> 中国专利> 基于显式和隐含信息的图像视觉显著度计算方法和装置

基于显式和隐含信息的图像视觉显著度计算方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明实施例提供了一种基于显式和隐含信息的图像视觉显著度计算方法和装置。该方法主要包括：从图像中提取视觉词汇，建立任意两个视觉词汇之间的隐含关系模型；根据所述隐含关系模型获取所述图像上任意两个宏块之间的隐含关系系数，在不同颜色通道上分别提取每个宏块的显式显著度；根据所述图像上任意两个宏块之间的隐含关系系数和每个宏块的显式显著度建立图模型，根据所述图模型计算出所述图像的视觉显著度。本发明实施例可以使用这种先验知识和图像的显式信息量来构建有向图，用有向图的随机游走结果来计算显著度能得到更干净、准确、稀疏的图像的视觉显著度，可以有效地区分图像中的目标和干扰物，更好地定位图像中的重要内容。

著录项

公开/公告号CN104899872A

专利类型发明专利
公开/公告日2015-09-09

原文格式PDF
申请/专利权人北京大学;
展开▼

申请/专利号CN201510253424.3
发明设计人田永鸿;李甲;方舒;
展开▼

申请日2015-05-18
分类号
代理机构北京市商泰律师事务所;
代理人毛燕生
地址 100871 北京市海淀区中关村颐和园路5号
入库时间 2023-12-18 10:55:13

法律信息

法律状态公告日

法律状态信息

法律状态
2017-11-03

授权

授权
2015-10-07

实质审查的生效 IPC(主分类):G06T7/00 申请日:20150518

实质审查的生效
2015-09-09

公开

公开

说明书

技术领域

本发明涉及图形学技术领域，具体涉及一种基于显式和隐含信息的图像视觉显著度计算方法和装置。

背景技术

使计算机像人类视觉系统那样感知、分析图像内容为目标的感知图像处理是近年来的热门研究领域。其第一步是模拟人类的视觉注意机制来定位输入图像中的重要内容，即估计显著的目标(重要内容)同时抑制干扰物(不重要的内容)。

目前，有许多关于预测静态图像显著度的方法，大致分为两类：自底向上方法和自顶向下方法。自底向上方法主要从图像数据内容本身来分析并计算显著度，通常这些方法认为具有局部高对比度、全局稀有性和不规则性的图像内容是显著的。自顶向下的方法除了从图像本身的信息出发还利用了一些先验知识来调整显著度，例如，使用各种对象检测器来检测对象从而增加检测到的对象的显著度、认为在新的子空间中能更好地区分目标和干扰物并用线下训练好的码本来重新表示图像内容、学习从特征到显著度的映射函数等。

上述自底向上方法和自顶向下方法在仅靠图像数据无法区分目标和干扰物时，不能很好地预测图像显著度。

发明内容

本发明的实施例提供了一种基于显式和隐含信息的图像视觉显著度计算方法和装置，以实现有效地计算出图像的视觉显著度。

为了实现上述目的，本发明采取了如下技术方案。

根据本发明实施例的一个方面，提供了一种基于显式和隐含信息的图像视觉显著度计算方法，包括：

从图像中提取视觉词汇，建立任意两个视觉词汇之间的隐含关系模型；

根据所述隐含关系模型获取所述图像上任意两个宏块之间的隐含关系系数，在不同颜色通道上分别提取每个宏块的显式显著度；

根据所述图像上任意两个宏块之间的隐含关系系数和每个宏块的显式显著度建立图模型，根据所述图模型计算出所述图像的视觉显著度。

优选地，所述的从图像中提取视觉词汇，建立任意两个视觉词汇之间的隐含关系模型，包括：

将图像缩放到统一大小，提取缩放后的图像中不重叠的宏块，并对每个宏块提取视觉特征；

对图像中所有的视觉特征使用聚类算法聚类，得到若干视觉词汇，计算出任意两个视觉词汇之间的相关性，得到任意两个视觉词汇之间的隐含关系模型，并对隐含关系模型进行归一化处理。

优选地，所述的计算出任意两个视觉词汇之间的相关性，包括：

计算出每个视觉词汇的单独出现频率、任意两个视觉词汇的共同出现频率和两个视觉词汇之间的相关性；

每个视觉词汇的单独出现频率＝包含这个视觉词汇的图像数目/所有图像的数目；

任意两个视觉词汇的共同出现频率＝同时包含这两个视觉词汇的图像数目 /所有图像的数目；

两个视觉词汇之间的相关性＝log(共同出现频率/两个词汇的单独出现频率的乘积)。

优选地，所述的根据所述隐含关系模型获取所述图像上任意两个宏块之间的隐含关系系数，在不同颜色通道上分别提取每个宏块的显式显著度，包括：

将图像缩放到统一大小，提取缩放后的图像中不重叠的宏块，并对每个宏块提取视觉特征；

用聚类算法将视觉特征归类到视觉词汇，并根据所述任意两个视觉词汇之间的隐含关系模型提取图像上任意两个宏块之间的隐含关系系数；

在不同颜色通道上分别提取宏块的显式显著度。

优选地，所述的根据所述图像上任意两个宏块之间的隐含关系系数和每个宏块的显式显著度建立图模型，根据所述图模型计算出所述图像的视觉显著度，包括：

分别计算出不同宏块之间的有向图，宏块A指向任意其他的宏块B的有向图由宏块A的类型、宏块B的显式显著度、宏块AB间的隐含关系系数和高斯距离决定，所述宏块A的类型包括干扰宏块类别的宏块、目标类别的宏块和无法确定类别的宏块；

在每个有向图上随机游走，在随机游走结束后，将每个宏块的访问次数作为该宏块的图像显著度，并对宏块的图像显著度进行归一化处理；

将所有宏块的图像显著度加权平均之后的值作为最终的图像视觉显著度。

根据本发明实施例的另一个方面，提供了一种基于显式和隐含信息的图像视觉显著度计算装置，其特征在于，包括：

隐含关系模型建立模块，用于从图像中提取视觉词汇，建立任意两个视觉词汇之间的隐含关系模型；

宏块的隐含关系和显式显著度获取模块,用于根据所述隐含关系模型获取所述图像上任意两个宏块之间的隐含关系系数，在不同颜色通道上分别提取每个宏块的显式显著度；

图像的视觉显著度计算模块，用于根据所述图像上任意两个宏块之间的隐含关系系数和每个宏块的显式显著度建立图模型，根据所述图模型计算出所述图像的视觉显著度。

优选地，所述的隐含关系模型建立模块，具体用于将图像缩放到统一大小，提取缩放后的图像中不重叠的宏块，并对每个宏块提取视觉特征；

优选地，所述的隐含关系模型建立模块，具体用于计算出每个视觉词汇的单独出现频率、任意两个视觉词汇的共同出现频率和两个视觉词汇之间的相关性；

每个视觉词汇的单独出现频率＝包含这个视觉词汇的图像数目/所有图像的数目；

任意两个视觉词汇的共同出现频率＝同时包含这两个视觉词汇的图像数目 /所有图像的数目；

两个视觉词汇之间的相关性＝log(共同出现频率/两个词汇的单独出现频率的乘积)。

优选地，所述的宏块的隐含关系和显式显著度获取模块,具体用于将图像缩放到统一大小，提取缩放后的图像中不重叠的宏块，并对每个宏块提取视觉特征；

用聚类算法将视觉特征归类到视觉词汇，并根据所述任意两个视觉词汇之间的隐含关系模型提取图像上任意两个宏块之间的隐含关系系数；

在不同颜色通道上分别提取宏块的显式显著度。

优选地，所述的图像的视觉显著度计算模块，具体用于分别计算出不同宏块之间的有向图，宏块A指向任意其他的宏块B的有向图由宏块A的类型、宏块B的显式显著度、宏块AB间的隐含关系系数和高斯距离决定，所述宏块A的类型包括干扰宏块类别的宏块、目标类别的宏块和无法确定类别的宏块；

在每个有向图上随机游走，在随机游走结束后，将每个宏块的访问次数作为该宏块的图像显著度，并对宏块的图像显著度进行归一化处理；

将所有宏块的图像显著度加权平均之后的值作为最终的图像视觉显著度。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例通过获取图像上任意两个宏块之间的隐含关系系数，提取每个宏块的显式显著度，可以使用这种先验知识和图像的显式信息量来构建有向图，用有向图的随机游走结果来计算显著度能得到更干净、准确、稀疏的图像的视觉显著度，可以有效地区分图像中的目标和干扰物，更好地定位图像中的重要内容。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于显式和隐含信息的图像视觉显著度计算方法的实现原理示意图；

图2为本发明实施例提供的一种基于显式和隐含信息的图像视觉显著度计算方法的处理流程图；

图3为本发明实施例提供的一种基于显式和隐含信息的图像视觉显著度计算装置的具体实现结构图，图中，隐含关系模型建立模块31，宏块的隐含关系和显式显著度获取模块32和图像的视觉显著度计算模块33。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被 “连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语 (包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

实施例一

图像数据之间存在隐含的相关性,这种相关性能将外表很不同的图像数据连接在一起成为对象，它可以作为有效区分目标和干扰物的先验知识。使用这种先验知识和图像的显式信息量来构建有向图，用有向图的随机游走结果来计算显著度，能得到更干净、准确、稀疏的显著度图，更好地定位图像中的重要内容。

本发明实施例提供了一种基于显式和隐含信息的图像视觉显著度计算方法的实现原理示意图如图1所示，首先学习图像数据间的隐含关系，得到隐含关系模型；提取图像数据间的隐含关系和各自的显式显著度；基于显式和隐含信息建立图模型，计算图像显著度。上述方法的具体处理过程如图2所示，包括如下的处理步骤：

步骤S210、从图像中提取视觉词汇，建立任意两个视觉词汇之间的隐含关系模型。

将每张参考图像缩放到统一大小，提取不重叠的宏块，并对每个宏块提取视觉特征。在本发明实施例中，共收集图像1千万张，每张图统一大小为长边缩放到320，长宽比例保持不变。宏块大小为8*8；视觉特征为HOG (Histogram of Oriented Gradient，方向梯度直方图)特征。

对图像中所有的视觉特征使用聚类算法聚类，得到若干视觉词汇。在实施例中，聚类算法为Kmeans；视觉词汇的个数为1000。

将图像中所有的视觉特征用视觉词汇代替后，统计任意两个视觉词汇之间的相关性，得到任意两个视觉词汇之间的隐含关系模型，并对隐含关系模型进行归一化处理。在本发明实施例中，归一化到[-5,5]，保证93％的视觉词汇之间的隐含关系落在[-1,1]之间。

所述统计任意两个视觉词汇的相关性方法包括：

A)计算每个视觉词汇的单独出现频率＝包含这个视觉词汇的图像数目/所有图像的数目；

B)计算任意两个视觉词汇的共同出现频率＝同时包含这两个视觉词汇的图像数目/所有图像的数目；

C)两个视觉词汇之间的相关性＝log(共同出现频率/两个词汇的单独出现频率的乘积)。

将得到的词汇相关性存入一个对称的“相关性矩阵”M中，矩阵M的每一个元素M(i,j)为任意两个视觉词汇(word_i,word_j)的相关性值。对一张待测图像，计算每个宏块的视觉词汇(word_k,word_m)。

步骤S220、提取图像数据的宏块之间的隐含关系和宏块的显式显著度。

将图像缩放到统一大小，并提取不重叠的宏块；在实施例中，统一大小为长边缩放到320，长宽比例保持不变；宏块大小为8*8；

对每个宏块提取视觉特征，用聚类算法将视觉特征归类到视觉词汇，并根据上述S210步骤建立的任意两个视觉词汇之间的隐含关系模型提取图像上任意两个宏块之间的隐含关系系数。

两个视觉词汇之间的隐含关系系数＝两个视觉词汇之间的相关性。那么任意两个宏块都可以在“相关性矩阵”M中查到他们的视觉词汇对应的相关性值 M(k,m)，即为这两个宏块的隐含关系系数。

在不同颜色通道上分别提取宏块的显式显著度，在实施例中，显式显著度为小波能量(wavelet energy),归一化到[0,1]；在实施例中，颜色通道为LAB(lightness and two color-opponents，亮度、颜色对立)颜色空间的L，a和b通道。

步骤S230、基于图像数据的宏块之间的隐含关系和各自的显式显著度建立图模型，计算图像的视觉显著度。

基于每种显式显著度和相同的隐含关系构建有向图。

A：随机选取位于边缘区域(0.7*当前图像的面积)且显式显著度小于某一阈值(0.3)的若干(0.2*当前图像上的宏块数目)宏块，将这些宏块归属为可能干扰宏块类别。

计算出这种可能干扰宏块与其他宏块连接的边权值：

边权值＝两个宏块之间的高斯距离*max(其他宏块的显式显著度-两个宏块之间的隐含相关性系数*调整项，0)；

B、将显式显著度大于某一阈值(0.8)的宏块归属为可能目标宏块类别，定义从这些可能目标宏块与其他宏块连接的边权值：

边权值＝两个宏块之间的高斯距离*max(其他宏块的显式显著度+两个宏块之间的隐含相关性系数*调整项，0)；

C、当前图像中剩余的宏块归为无法确定宏块类别，计算出这些无法确定宏块与其他宏块连接的边权值：

边权值＝两个宏块之间的高斯距离*其他宏块的显式显著度。

假设当前图像上划分得到N个宏块，那么对应有向图上包含N个结点，每个结点对应当前图像的一个宏块。结点之间的边的权值由上述规则确定。具体来说，结点A(宏块A)指向(任意其他)结点B(宏块B)的边权值由宏块A 的类型(可能干扰，可能目标或者无法确定)以及宏块B的显式显著度、宏块 AB间的隐含关系系数和高斯距离决定。同理，结点B(宏块B)指向(任意其他)结点A(宏块A)的边权值由宏块B的类型(可能干扰，可能目标或者无法确定)以及宏块A的显式显著度、宏块AB间的隐含关系系数和高斯距离决定。按照这种规则就能定义出任意两个结点的有向边权值，该有向边权值也称为有向图。

在每个有向图上随机游走，综合所有随机游走的结果，计算图像显著度。在每个图随机游走结束后，将每个节点(宏块)的访问次数作为该节点的图像显著度，并对图像显著度进行归一化处理，归一化到[0,1]。

将所有宏块的图像显著度加权平均之后的值作为最终的图像视觉显著度。

在实施例中，不同显著度结果的权值相等。由于亮度和颜色信息对视觉感知的重要性相当，我们认为亮度和颜色通道的显著度检测结果同等重要。

实施例二

该实施例提供了一种基于显式和隐含信息的图像视觉显著度计算装置，其具体实现结构如图3所示，具体可以包括如下的模块：

隐含关系模型建立模块31，用于从图像中提取视觉词汇，建立任意两个视觉词汇之间的隐含关系模型；

宏块的隐含关系和显式显著度获取模块32,用于根据所述隐含关系模型获取所述图像上任意两个宏块之间的隐含关系系数，在不同颜色通道上分别提取每个宏块的显式显著度；

图像的视觉显著度计算模块33，用于根据所述图像上任意两个宏块之间的隐含关系系数和每个宏块的显式显著度建立图模型，根据所述图模型计算出所述图像的视觉显著度。

进一步地，所述的隐含关系模型建立模块31，具体用于将图像缩放到统一大小，提取缩放后的图像中不重叠的宏块，并对每个宏块提取视觉特征；

进一步地，所述的隐含关系模型建立模块31，具体用于计算出每个视觉词汇的单独出现频率、任意两个视觉词汇的共同出现频率和两个视觉词汇之间的相关性；

每个视觉词汇的单独出现频率＝包含这个视觉词汇的图像数目/所有图像的数目；

任意两个视觉词汇的共同出现频率＝同时包含这两个视觉词汇的图像数目 /所有图像的数目；

两个视觉词汇之间的相关性＝log(共同出现频率/两个词汇的单独出现频率的乘积)。

进一步地，所述的宏块的隐含关系和显式显著度获取模块32,具体用于将图像缩放到统一大小，提取缩放后的图像中不重叠的宏块，并对每个宏块提取视觉特征；

用聚类算法将视觉特征归类到视觉词汇，并根据所述任意两个视觉词汇之间的隐含关系模型提取图像上任意两个宏块之间的隐含关系系数；

在不同颜色通道上分别提取宏块的显式显著度。

进一步地，所述的图像的视觉显著度计算模块33，具体用于分别计算出干扰宏块类别的宏块与其他宏块连接的边权值、目标类别的宏块与其他宏块连接的边权值、无法确定类别的宏块与其他宏块连接的边权值，根据所述边权值构建有向图；(定义了结点和边权值之后，有向图就构建完毕了)

在每个有向图上随机游走，在随机游走结束后，将每个宏块的访问次数作为该宏块的图像显著度，并对宏块的图像显著度进行归一化处理；

将所有宏块的图像显著度加权平均之后的值作为最终的图像视觉显著度。

用本发明实施例的装置进行基于显式和隐含信息的图像视觉显著度计算的具体过程与前述方法实施例类似，此处不再赘述。

综上所述，本发明实施例通过获取图像上任意两个宏块之间的隐含关系系数，提取每个宏块的显式显著度，可以使用这种先验知识和图像的显式信息量来构建有向图，用有向图的随机游走结果来计算显著度能得到更干净、准确、稀疏的宏块的图像的视觉显著度，可以有效地区分图像中的目标和干扰物，更好地定位图像中的重要内容。

这个算法最直接的目的就是定位图像中的重要内容。其他的有益效果还能从“定位图像中的重要内容”的应用角度去看。比如，视频压缩(对重要的图像内容使用更多比特)，图像检索(先提取重要的图像内容，利用提取好的特征做检索，能抑制对图像检索效果有干扰的噪音)和针对手机的重新定义显示区域(即re-targeting，检测最显著的图像区域，在手机里可以只显示这部分图像内容，提升用户的视频观看体验)。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于显式和隐含信息的图像视觉显著度计算方法和装置 [P] . 中国专利： CN104899872B . 2017.11.03
2. 基于显式和隐含信息的图像视觉显著度计算方法和装置 [P] . 中国专利： CN104899872A . 2015-09-09
3. METHOD FOR PROVIDING ROBOT SERVICE BASED ON META FILE COMBINING EXPLICIT INTENT AND IMPLIED INTENT AND APPARATUS USING THE SAME [P] . KR20210051226A . 2021-05-10

机译：基于元文件提供基于Meta文件的机器人服务的方法组合显式意图和隐含的意图和使用相同的装置
4. "method of adding image definition information to an image signal to an input image signal, image analysis apparatus for adding image definition information to the image pixel information of an input image signal, method processing an input image signal to be rendered based on image definition information related to the input image signal, apparatus for processing an input image signal to be rendered based on image definition information related to the input image signal. input image signal and image signal " [P] . BR112012021792A2 . 2017-02-21

机译： “将图像定义信息添加到输入信号的图像信号的方法，用于将图像定义信息添加到输入图像信号的图像像素信息的图像分析装置，基于图像定义信息处理要渲染的输入图像信号的方法关于与输入图像信号有关的信息，用于基于与输入图像信号有关的图像定义信息来处理要渲染的输入图像信号的装置。
5. IMAGE GRADIENT COMBINED OPTIMIZATION-BASED BINOCULAR VISUAL SENSE MILEAGE CALCULATING METHOD [P] . 世界知识产权组织专利： WO2019029099A1 . 2019-02-14

机译：基于图像梯度组合优化的双目视觉传感里程计算方法