首页> 中国专利> 基于图片语义和视觉散列的图片检索方法

基于图片语义和视觉散列的图片检索方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了基于图片语义和视觉散列的图片检索方法，该方法能同时表征图片语义相似性和视觉相似性的新颖的散列函数。本发明方法包括以下步骤：首先利用图片特性和视觉特性训练语义散列函数；然后，利用最大熵原则，获得紧凑的二进制码；最后，利用函数衰减原理，消除视觉特征的噪声。本发明能满足两方面的一致性：一是能满足散列二进制码和图片语义表示间的一致性，二是能满足散列二进制码和图片视觉表征的一致性。本发明可以方便人们在公共图片库中检索感兴趣的图片，在公共视频库中具有良好的检测性能。

著录项

公开/公告号CN105808723A

专利类型发明专利
公开/公告日2016-07-27

原文格式PDF
申请/专利权人南京邮电大学;
展开▼

申请/专利号CN201610128827.X
发明设计人朱松豪;孙娴;金栋梁;荆晓远;岳东;
展开▼

申请日2016-03-07
分类号G06F17/30(20060101);
代理机构32207 南京知识律师事务所;
代理人汪旭东
地址 210023 江苏省南京市栖霞区文苑路9号
入库时间 2023-06-19 00:12:25

法律信息

法律状态公告日

法律状态信息

法律状态
2019-06-28

授权

授权
2019-06-25

著录事项变更 IPC(主分类):G06F16/583 变更前: 变更后: 申请日:20160307

著录事项变更
2016-08-24

实质审查的生效 IPC(主分类):G06F17/30 申请日:20160307

实质审查的生效
2016-07-27

公开

公开

说明书

技术领域

本发明一种基于图片语义和视觉散列的图片检索方法，属于图像处理技术领域。

背景技术

近几年，随着上传到共享网站上图片数量的急剧增加，越来越多的用户开始为图片提供标签，从而导致在巨大的图片库中检索感兴趣图片要付出可观的代价。

由于二进制散列编码具有良好的计算能力和高校的存储效率，逐渐在计算机视觉、信息检索和数据挖掘等领域成为研究热点。散列方法的重要原理在于汉明空间(即汉明距离)中对高维图片数据进行紧凑的二进制编码，如能尽量保持原始特征空间的度量相似性或基于标签的语义相似性。经过散列编码处理后，即可通过简单计算紧凑二进制码向量间的汉明距离，在生成的低维码空间中进行高效的相似性搜索。

包括局部敏感散列算法、最小对散列算法、核局部敏感散列算法等在内的早期散列编码的数据是独立的，这些随机散列方法在大规模图片搜索中的准确性通常较低。

为提高图片检索的准确性，有学者将数据的相关性引入到散列函数的构造中，且这类散列函数的构造方法分为以下两种类型：无监督和监督(即包含半监督)方法。一方面，无监督构造方法旨在利用数据分布信息来构造散列函数，包括谱散列法、各向同性散列法、迭代量化法、球形散列法等；另一方面，有监督构造方法旨在利用标签信息来构造散列函数，包括有监督散列法、二进制重建嵌入法、半监督散列法、多指标散列法、加权分量散列法等。

尽管目前很多基于数据相关的散列方法都可有效地完成大规模的图片检索任务，但是，目前这类方法能否应用于网络图片的检索仍存在很大争议。因此，如何构造融合视觉表示和语义表示的散列编码是很有意义和必要的。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于解决了现有技术中当构建语义散列函数时，未能很好利用视觉相似性属性的问题，提供了一种基于基于图像语义和视觉散列的图像检索方法，该方法构建能同时表征图片语义相似性和视觉相似性的新颖的散列函数，不仅符合人们的逻辑思维，还具有更强的图片检索性能。

本发明解决其技术问题所采取的技术方案是：本发明是基于图像语义和视觉散列的图像检索方法，该方法包括以下步骤：

步骤1：利用图片特性和视觉特性训练语义散列函数；

步骤2：利用最大熵原则，获得紧凑的二进制码；

步骤3：利用函数衰减原理，消除视觉特征的噪声。

本发明所述步骤1包括：

1、散列函数定义

本发明利用图片特性和视觉特性训练语义散列函数，散列函数如下定义：

I’＝{I_i}Ni＝1表示一个含有N幅图片的数据集，X＝{x_i}Ni＝1表示对应的特征矩阵，其中x_i∈R^d为第i个图片I_i的d维特征描述子)，且本发明对X进行归一化。此外， Y＝{y_i}^M×N为该N幅图片间的类别向量，其中M表示类别总数。Y_i＝1表示某个类别出现， y_i＝0表示某个类别未出现。本发明研究如何利用一系列散列函数H＝[h₁,h₂,…,h_c]∈R^d×c，在保留图片语义和视觉相似性的条件下，将每个图片特征x_i映射到到用C比特的二进制码b＝[b₁,b₂,…,b_c]∈{0,1}^c。

本发明的散列函数表示如下：

$h_{c} (x_{i}) = s g n (w_{c}^{T} x_{i} - w_{c}^{T} m)$ 式1

上式中的sgn(v)为符号函数：当v＞0时，函数值为1；否则，函数值为-1。 W＝[w₁,w₂,…,w_c]∈R^d×c为一系列适当的预测函数。选择图片投影的均值作为偏差项 m＝∑^N_i＝1(x_i/N)，为的是让每个散列比特b_c(x_i)接近平衡，且有最大熵：

B_c(x_i)＝0.5(h_c(x_i)+1)式2

上式中的h_c(x_i)＝1时B_c(x_i)＝1，h_c(x_i)＝-1时B_c(x_i)＝0。

由H＝[h₁,h₂,…,h_c]∈R^d×c，所以x_i的相关性散列码可表示为：

H(x_i)＝sgn(W^Tx_i-W^Tm)式3

由于对X进行了归一化，所以H(x_i)可写为如下形式：

H(x_i)＝sgn(W^Tx_i)式4

由于图片X＝{x_i}Ni＝1，所以相关性散列码H(X)可表示成如下形式：

H(X)＝sgn(W^TX)式5

2、邻域信息保存

为探索原始数据的潜在信息，应尽量保留原始数据的邻域结构特征。所以，本发明构建元素为S_ij的N×N相似矩阵S时，就充分利用了图片数据的局部邻域信息：

$S_{i j} = (\begin{matrix} 1, & i f >x_{i}\inK(x_{j})or>x_{j}\inK(x_{i})0, & o t h e r w i s e \end{matrix})$ 式6

上式中的K(x_i)表示特征向量x_i的k近邻。

两幅图片I_i和I_j间的汉明距离d(h(x_i),h(x_j))，是计算它们各自散列二进制码h(x_i)和 h(x_j)不同的比特数：

$d (h (x_{i}), h (x_{j})) = Σ_{c = 1}^{C} | | h_{c} (x_{i}) - h_{c} (x_{j}) | |^{2}$ 式7

接着，图片I_i和I_j间的相似性S_H(I_i,I_j)可定义为h(x_i)和h(x_j)间汉明距离的均值：

$S_{H} (I_{i}, I_{j}) = 1 - \frac{1}{C} d (h (x_{i}), h (x_{j}))$ 式8

上式中，当I_i和I_j完全相同时S_H(I_i,I_j)＝1,当I_i和I_j完全不同时S_H(I_i,I_j)＝0。

基于邻域信息，图片I_i和I_j间的相似性可表示为：

$S_{H} (I_{i}, I_{j}) = 1 - \frac{1}{C} S_{i j} d (h (x_{i}), h (x_{j}))$ 式9

从式9中可看出以下两点：式1当且仅当h(x_i)＝h(x_j)且I_i和I_j为k近邻时，S_H(I_i,I_j) 才为1；式2当h(x_i)＝h(x_j)，但I_i和I_j不是k近邻，此时S_H(I_i,I_j)仍然等于0。也就是说，式9可用于有效地保存邻域信息，这将在后面的实验中得到验证。

3、散列函数研究

正如上述所言，利用语义和视觉信息是为了确保汉明空间中，相似的图片映射到相似的散列码上，且此时的目标函数表示为：

$\underset{W}{m i n} ({|| S_{H} - S_{S} ||}^{2} + λ {|| S_{H} - S_{V} ||}^{2})$ 式10

上式中的S_H、S_S、S_V分别表示汉明空间、语义空间、视觉空间中的相似性，分别定义为：

$(\begin{matrix} {|| S_{H} - S_{S} ||}^{2} = Σ_{i = 1}^{N} Σ_{j = 1}^{N} {(S_{H} (I_{i}, I_{j}) - S_{S} (I_{i}, I_{j}))}^{2} \\ S_{S} (I_{i}, I_{j}) = \frac{y_{i} \cdot y_{j}}{| | y_{i} | | | | y_{j} | |} \end{matrix})$ 式11

$(\begin{matrix} {|| S_{H} - S_{V} ||}^{2} = Σ_{i = 1}^{N} Σ_{j = 1}^{N} {(S_{H} (I_{i}, I_{j}) - S_{V} (I_{i}, I_{j}))}^{2} \\ S_{V} (I_{i}, I_{j}) = e^{- \frac{| | x_{i} - x_{j} | |^{2}}{2 μ^{2}}} \end{matrix})$ 式12

上式中的μ为‖x_i-x_j‖的中值。

除保留映射相似性外，二进制散列码还具有紧凑性和判别性。二进制散列码的紧凑性，表现为每个二进制散列码只可能是-1或1，这可通过最小化如下所示的函数得到：

$Σ_{i = 1}^{N} | | m e a n h (x_{i}) | |^{2}$ 式13

这类似于最大化二进制码向量的熵。二进制散列码的判别性，表现为每个二进制散列码都应尽可能接近-1或1，这可通过最大化如下所示的函数得到：

$Σ_{i = 1}^{N} h (x_{i})$ 式14

因此，二进制散列码紧凑性和判别性的最优化为：

$(\begin{matrix} \max_{W} (Σ_{i = 1}^{N} Σ_{c = 1}^{C} h_{c} (x_{i}) - Σ_{i = 1}^{N} \frac{1}{C} Σ_{c = 1}^{C} h_{c} (x_{i})) \\ = \max_{W} (\frac{C - 1}{C} Σ_{i = 1}^{N} Σ_{c = 1}^{C} h_{c} (x_{i})) \\ = \max_{W} (\frac{C - 1}{C} Σ_{i = 1}^{N} Σ_{c = 1}^{C} sgn ({w_{c}}^{T} x_{i})) \\ = \max_{W} (\frac{C - 1}{C} Σ_{c = 1}^{C} sgn ({w_{c}}^{T} X)) \\ = \max_{W} (\frac{C - 1}{C} T r (W^{T} {XX}^{T} W)) \end{matrix})$ 式15

本发明包括矩阵熵，该矩阵熵的最大值等价于矩阵方差的最大值，且散列函数方差的最大值小于投影数据方差的上界，由此可得到下面的等式，即：

$(\begin{matrix} \max_{W} (\frac{C - 1}{C} Σ_{i = 1}^{N} Σ_{c = 1}^{C} var (h_{c} (x_{i}))) \\ = \max_{W} (\frac{C - 1}{C} var (T r (W^{T} {XX}^{T} W))) \\ \geq μ T r (W^{T} {XX}^{T} W) \end{matrix})$ 式16

为消除视觉信息噪声，引入函数衰减原理，即：

$| | W | |^{2} = Σ_{c = 1}^{C} | | w_{c} | |^{2}$ 式17

上式中，当相关视觉特征是噪声时‖w_c‖＝0。

利用公式式10的相似性保持、公式式15的二进制散列码的紧凑性和判别性、公式式17的视觉特征噪声消除这三个条件，得到图片检索最优的目标函数：

式18

上式中的λ、μ、ν为控制每一项权重的参数。

本发明更新速率为ζ的随机梯度下降迭代算法，用于求解目标函数：

式19

上式中的∏∈R^c×d是一个对角矩阵，其元素为∏_c＝1/‖w_c‖²。

有益效果：

1、本发明能够有效地提高图片检索的速度。

2、本发明能够有效地提高图片检索的精度。

3、本发明能够很好地应用于大型图片库的检索。

附图说明

图1为本发明显示了来自“鸟”和“日落”的图片示例图。

其中，(a)表示来自类别“鸟”的图片样例；(b)表示来自类别“日落”的图片样例。

图2为本发明显示了不同长度的二进制散列码下，不同方法的平均检索精度和32 位二进制散列码时，不同方法的检索精度示意图。

图3为本发明显示了汉明半径为2时，各种方法在不同长度二进制散列码下的检索精度示意图。

图4为本发明的方法流程图。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明。

如图4所示，本发明是利用文本信息和视觉信息表征图片间的语义信息，进行图像检索。

本发明提出了一种新的散列函数构造方法，该方法通过优化目标函数，可最大化二进制散列码，且消除视觉噪声，其具体实现过程包括：

1.数据集

本发明的所有实验都在NUS-WIDE图片集上进行。该NUS-WIDE图片集含有81 类别的270,000幅图片，以及5018个用户上传的标签。由于许多用户提供的标签存在错误或无意义，因此，有必要对这些标签进行处理。更具体地说，只有在维基百科中出现的标签才保留。结果这样的处理后，共得到3,226个标签。

2.特征选择

近几十年来，特征选择问题一直是个研究课题，这是因为特征选择会影响最终的检索结果。本发明提取颜色特征和纹理特征作为低层描述子，同时提取语义特征和文本特征作为视觉描述子。具体描述如下：

·在HSV空间中，提取色度为8位、饱和度和纯度均为4位的128维颜色直方图；

·在HSV空间中，提取44维的自相关矩阵；

·在LAB色彩空间中，分别从5*5网格的子块中提取9维、共计225维的颜色矩阵；

·在HSV色彩空间中，分别在水平和垂直方向提取9维、共计18维量的边界方向直方图；

·提取6级、36维的金字塔小波纹理超；

·从标签中提取一组文本特征，且依据标签出现的次数得到对应的词袋；

本发明基于图像语义和视觉散列的图像检索方法的一个优选实施方式，具体包括以下步骤：

步骤1：利用图片特性和视觉特性训练语义散列函数。

利用语义和视觉信息是为了确保汉明空间中，相似的图片映射到相似的散列码上，且此时的目标函数表示为：

$\underset{W}{m i n} ({|| S_{H} - S_{S} ||}^{2} + λ {|| S_{H} - S_{V} ||}^{2})$ 式10

上式中的S_H、S_S、S_V分别是汉明空间、语义空间、视觉空间中的相似性，分别定义为：

$(\begin{matrix} | | S_{H} - S_{S} | |^{2} = Σ_{i = 1}^{N} Σ_{j = 1}^{N} {(S_{H} (I_{i}, I_{j}) - S_{S} (I_{i}, I_{j}))}^{2} \\ S_{S} (I_{i}, I_{j}) = \frac{y_{i} \cdot y_{j}}{| | y_{i} | | | | y_{j} | |} \end{matrix})$ 式11

$(\begin{matrix} {|| S_{H} - S_{V} ||}^{2} = Σ_{i = 1}^{N} Σ_{j = 1}^{N} {(S_{H} (I_{i}, I_{j}) - S_{V} (I_{i}, I_{j}))}^{2} \\ S_{V} (I_{i}, I_{j}) = e^{- \frac{{|| x_{i} - x_{j} ||}^{2}}{2 μ^{2}}} \end{matrix})$ 式12

上式中的μ为‖x_i-x_j‖的中值。

步骤2：利用最大熵原则，获得紧凑的二进制码；

$Σ_{i = 1}^{N} {|| m e a n h (x_{i}) ||}^{2}$ 式13

这类似于最大化二进制码向量的熵。二进制散列码的判别性，表现为每个二进制散列码都应尽可能接近-1或1，这可通过最大化如下所示的函数得到：

$Σ_{i = 1}^{N} h (x_{i})$ 式14

因此，二进制散列码紧凑性和判别性的最优化为：

$(\begin{matrix} \max_{W} (Σ_{i = 1}^{N} Σ_{c = 1}^{C} h_{c} (x_{i}) - Σ_{i = 1}^{N} \frac{1}{C} Σ_{c = 1}^{C} h_{c} (x_{i})) \\ = \max_{W} (\frac{C - 1}{C} Σ_{i = 1}^{N} Σ_{c = 1}^{C} h_{c} (x_{i})) \\ = \max_{W} (\frac{C - 1}{C} Σ_{i = 1}^{N} Σ_{c = 1}^{C} sgn ({w_{c}}^{T} x_{i})) \\ = \max_{W} (\frac{C - 1}{C} Σ_{c = 1}^{C} ({w_{c}}^{T} X)) \\ = \max_{W} (\frac{C - 1}{C} T r (W^{T} {XX}^{T} W)) \end{matrix})$ 式15

矩阵熵的最大值等价于矩阵方差的最大值，且散列函数方差的最大值小于投影数据方差的上界，由此可得到下面的等式：

上式3为二进制码位数，N为数据集中图像个数，此处C＝32，N＝2,000。

步骤3：利用函数衰减原理，消除视觉特征的噪声。

为消除视觉信息噪声，引入函数衰减原理：

${|| W ||}^{2} = Σ_{c = 1}^{C} {|| w_{c} ||}^{2}$ 式17

上式中，当相关视觉特征是噪声时‖w_c‖＝0。

利用公式式10的相似性保持、公式式15的二进制散列码的紧凑性和判别性、公式式17的视觉特征噪声消除这三个条件，得到图片检索最优的目标函数：

式18

上式中的λ、μ、ν为控制每一项权重的参数。

本发明包括更新速率为ζ的随机梯度下降迭代算法，用于求解目标函数：

式19

上式中的∏∈R^c×d是一个对角矩阵，其元素为∏_c＝1/‖w_c‖²。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于图片语义和视觉散列的图片检索方法 [P] . 中国专利： CN105808723B . 2019.06.28
2. 基于图片语义和视觉散列的图片检索方法 [P] . 中国专利： CN105808723A . 2016-07-27
3. HYBRID BLOCKCHAINS AND STREAMCHAINS WITH NON-CRYPTOGRAPHICAL HASH FOR THE SAFETY OF AUDIO, VIDEO, PICTURE AND LANGUAGE-BASED TRANSACTIONS AND TRANSACTIONS [P] . DE112020000767T5 . 2021-11-04

机译： Hybrid Blockchains和Streamchains与非加密散列的音频，视频，图片和基于语言的事务和交易
4. SEMANTIC VISUAL HASH INJECTION INTO USER ACTIVITY STREAMS [P] . 美国专利： US2017060580A1 . 2017-03-02

机译：语义视觉散列注入用户活动流
5. Picture and semantic visual templet occurrence method and system for video verification [P] . 日本专利： JP2002506255A . 2002-02-26

机译：用于视频验证的图片和语义视觉模板发生方法和系统