首页> 中国专利> 基于结合生成对抗网络的哈希算法的大规模数据检索方法

基于结合生成对抗网络的哈希算法的大规模数据检索方法

摘要

本发明是一种基于结合生成对抗网络的哈希算法的大规模数据检索方法。本发明主要由两个主要部分组成:有条件的WGAN,它将训练图像和成对相似度作为输入,并共同学习生成器和判别器:生成器接受随机噪声和编码相似度信息的嵌入向量的连接作为输入,以合成接近真实的图像;判别器试图使用对抗性损失来区分真实和合成图像;哈希编码器,在贝叶斯学习框架下为所有图像生成紧凑的二进制哈希代码:该框架通过余弦交叉熵损失共同保存真实图像和合成图像的相似性信息,并通过余弦量化损失控制量化误差。经验证,本发明所提出的双块框架具有优越的检索性能。

著录项

  • 公开/公告号CN113204522A

    专利类型发明专利

  • 公开/公告日2021-08-03

    原文格式PDF

  • 申请/专利权人 中国海洋大学;

    申请/专利号CN202110756991.6

  • 发明设计人 曹媛;吴翔宇;桂杰;

    申请日2021-07-05

  • 分类号G06F16/13(20190101);G06F16/53(20190101);G06F16/583(20190101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构37201 青岛海昊知识产权事务所有限公司;

  • 代理人刘艳青

  • 地址 266100 山东省青岛市崂山区松岭路238号

  • 入库时间 2023-06-19 12:05:39

说明书

技术领域

本发明属于深度学习技术领域,具体涉及一种结合生成对抗网络的基于哈希算法的大规模数据检索方法。

背景技术

近似近邻(ANN)搜索在机器学习和信息检索等相关应用中发挥着基础作用。由于其存储成本低、检索速度快,哈希算法最近引起了ANN研究界的广泛关注。哈希的目的是将数据点从原始空间映射到二进制代码的汉明空间,其中原始空间和汉明空间之间的相似性得以保留。通过使用二进制哈希码来表示原始数据,可以极大地降低存储成本。此外,通过使用哈希码构建索引,可以实现搜索的恒定或亚线性时间复杂性。因此,哈希算法在大规模数据集的ANN搜索中变得越来越流行。

哈希由于其存储和搜索效率,经常被用于近似近邻搜索中。考虑到传统的哈希学习方法的瓶颈,基于深度的哈希学习最近在研究者中获得了相当的欢迎。虽然这类方法通过利用深度神经网络的端到端训练过程来生成紧凑的二进制代码,显示了有希望的性能增益,但组件之间的内在联系使得显著优化架构是不可行的。受噪声干扰和训练数据不完整的相似性标签的影响,正常的深度模型在表示学习阶段甚至带有明显的偏差。

现有的哈希方法可以分为独立于数据的方法和依赖数据的方法。在独立于数据的方法中,哈希函数通常是随机生成的,与任何训练数据无关。有代表性的独立于数据的方法包括位置敏感哈希(LSH)和它的变体。数据依赖型方法试图从一些训练数据中学习哈希函数,这也被称为学习哈希(L2H)方法。与独立于数据的方法相比,L2H方法可以在较短的哈希代码中达到相当或更好的精度。因此,在实际应用中,L2H方法已经比独立于数据的方法越来越受欢迎。其中依赖于数据的方法包括无监督的和有监督的哈希。无监督哈希方法通过对未标记的数据进行训练来学习将数据编码为二进制代码的哈希函数。有监督的哈希方法进一步探索有监督的信息(例如成对的相似性或相关性反馈),以生成紧凑的哈希代码。最近,深度学习哈希方法通过融合深度学习的力量在图像检索数据集上产生了突破性的结果。特别是,DHN是第一个联合保留配对相似性和控制量化误差的端到端框架。HashNet通过平衡训练数据中的正负对来交换精度与召回率,并通过延续技术来降低量化误差,从而改进了DHN,在几个基准数据集上获得了最先进的性能。

在CNN带来了超越DNN方法的巨大性能提升之后,GAN的到来成为了包括计算机视觉、模式识别等领域的另一个重要里程碑。生成对抗网络(GANs)是一种强大的模型,可以在不需要监督信息的情况下以最小化的博弈机制生成图像。目前最先进的用于图像合成的无监督生成模型包括深度卷积GANs(DCGANs)和Wasserstein GANs(WGANs)。最近,一个更强大的生成模型家族通过对监督信息(如类标签或文本描述)的进一步调节,将图像与GANs合成。辅助分类器GAN(AC-GAN)是最先进的解决方案,通过将监督信息送入生成器并增加损失函数来说明判别器中的监督信息。

现有的监督生成模型只纳入了点状监督信息,如类标签或文本描述。然而,在许多实际的检索应用中,只有成对的相似性信息来训练哈希模型。Deep Semantic Hashing是第一个探索GANs用于图像合成的哈希方法,但它只能纳入点状侧信息(类标签),这在在线图像检索应用中往往是不可用的。

发明内容

本发明的目的是提供一种结合生成对抗网络的基于哈希算法的大规模数据检索方法,以弥补现有技术的不足。

基于深度学习的哈希方法表明,使用深度神经网络可以更有效地进行特征表示和哈希编码的端到端学习,它可以自然地编码任何非线性哈希函数。这些深度学习到哈希方法在许多基准上表现出最先进的性能。特别是,事实证明,共同学习保全相似性的表征和控制将连续表征二进制化为二进制代码的量化误差至关重要。然而,这些深度学习到哈希方法的一个关键缺点是,它们需要首先学习连续的深度表征,在分离的符号阈值后步骤中将其二进制化为哈希编码。通过连续松弛,即用连续优化解决哈希码的离散优化,所有这些方法本质上解决了一个明显偏离哈希目标的优化问题,因为它们在优化过程中不能准确地学习二进制哈希码。因此,现有的深度哈希方法可能无法生成紧凑的二进制哈希码来进行有效的相似性检索。

通过整合生成对抗网络(GAN),本发明提出了一种新型的深度学习哈希架构(GDPSH),用于从原始图像的扩展集中生成紧凑的哈希代码;本发明从真实图像和大规模合成图像中学习紧凑的二进制哈希代码。本发明包括一个专门设计的GAN,能够纳入成对的相似性信息,以及一个用真实和合成图像训练的深度哈希网络,以生成几乎无损的哈希代码;这里提出了明确的损失函数,包括余弦交叉熵损失和余弦量化损失,用于相似性保护的学习和量化误差控制。

在图像检索应用中,假设得到了

为达到上述目的,本发明采取的具体技术方案为:

一种基于结合生成对抗网络的哈希算法的大规模数据检索方法,该方法包括以下步骤:

S1:收集图片数据,并进行预处理,得到特征一;

S2:根据对抗网络(GANs)对所述特征一进行处理;将上述获得的特征一并输入到对抗生成网络的生成器当中生成人工合成的图片;将该图片放入生成对抗网络的判别器当中,并用构造的交叉熵损失(cross-entropy loss)以及和真正图片的对抗损失(adversarial loss)来辅助训练,不断更新生成器以及判别器的网络参数,直到能够生成符合目标的人工合成图片;

S3:将S2中人工合成图片集和原始图片集相结合的融合数据集输入至卷积神经网络一,根据提出的目标损失函数来计算相似度矩阵;

S4:将所述融合数据集,以及所述相似度矩阵,输入至卷积神经网络二,根据提出的余弦交叉熵损失和量化损失来训练网络参数,最后得到效果满意的哈希编码,同样得到训练好的哈希架构(GDPSH);

S5:待测数据集输入至S4训练好的哈希架构(GDPSH)进行处理,最后输出检索结果。

进一步的,所述S1中的预处理为:首先从数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征,再将它和随机噪声链接起来,得到特征一。

进一步的,所述S2中的生成对抗网络(GANs)中:

通过相似性嵌入的方法降低了点状监督信息

其中C单独表示和判别器D共享前面网络层的概率网络,公式4第一行和第二行表示对抗损失,第三行和第四行是概率

进一步的,所述S3中:

所述相似度矩阵的提取,以全面了解数据点的关系,然后在设计损失函数时帮助二进制代码生成方案顺利进行;定义一个相似性矩阵

其中

对于相似性模糊的图像对,即

因此,两幅图像之间的相似度可以分为三种类型:完全相似的

进一步的,所述S4中,构建了一个哈希编码器网络

更进一步的,得到学习紧凑哈希码的哈希编码器

其中

本发明的优点和技术效果:

本发明提出的基于深度学习的哈希架构,用合成的图像指导矩阵生成和代码学习,它利用机器解释高层语义理解到图像中。GDPSH的架构,它由两个主要部分组成:(1) 有条件的WGAN,它将训练图像和成对相似度作为输入,并共同学习生成器

经验证,本发明提供的检索方法不仅仅性能远优于非深度学习的哈希方法,而且始终优于其他两种常用的深度学习方法,这充分证明了本发明所提出的双块框架的优越的检索性能。

附图说明

图1为本发明的整体流程框图。

图2 为实施例2中NUSWIDE数据集的精度-召回曲线对比图。

图3为实施例2中CIFAR-10数据集上的精度-召回曲线对比图。

图4为实施例2中 MS-COCO数据集上的精度-召回曲线对比图。

具体实施方式

以下通过具体实施例进一步解释和说明本发明。

实施例1:

本实施例提出的基于深度学习的哈希架构,用合成的图像指导矩阵生成和代码学习,它利用机器解释高层语义理解到图像中。图1显示了GDPSH的架构,它由两个主要部分组成。(1) 有条件的WGAN,它将训练图像和成对相似度作为输入,并共同学习生成器

一种基于结合生成对抗网络的哈希算法的大规模数据检索方法,包括如下步骤:

步骤1:首先从原始数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征,再将它和随机噪声链接起来。

步骤2:将上述获得的特征一并输入到对抗生成网络的生成器当中(如图1中的Generator)生成人工合成的图片。

步骤3:将生成的图片放入生成对抗网络的判别器当中(如图1中的Discriminator)并用构造的交叉熵损失(cross-entropy loss)以及和真正图片的对抗损失(adversarial loss)来辅助训练,不断更新生成器以及判别器的网络参数,直到能够生成符合目标的人工合成图片。

步骤4:将输出的图片集和原始数据集结合起来经过卷积神经网络1,根据11提出的目标损失函数来计算一个相似度矩阵。

步骤5:将之前提到的融合之后的数据集,以及步骤4得到的相似度矩阵,放入一个另外的独立的卷积神经网络2,根据16提出的余弦交叉熵损失和量化损失来训练网络参数,最后得到效果满意的哈希编码。

具体的:

所述步骤1中的预处理为:首先从数据集的特征矩阵的乘积计算中获得要用到的手工构造的特征,再将它和随机噪声链接起来,得到特征一。

所述步骤2中的生成对抗网络(GANs)中:

生成对抗网络(GANs)的训练策略定义了两个相互竞争的网络之间的最小值博弈:一个是生成器网络,它捕捉真实图像的基本数据分布,用于合成图像;另一个是判别器网络

其中

其中

提出了一个新的WGAN的扩展,以从具有成对监督信息

其中

每个生成的点除了随机噪声

其中C单独表示和判别器D共享前面网络层的概率网络,公式4第三行和第四行是概率

注意

所述步骤3中相似度矩阵生成 cnn1

结合原始数据集,首先提取一个整体特征(即相似度矩阵),以全面了解数据点的关系,然后在设计损失函数时帮助二进制代码生成方案顺利进行。因此,在这一部分,首先从每个图像

其中

然后,利用近邻图上的随机行走来测量数据点之间的流形相似度。近邻图是无定向的加权图,它是以

K中的

其中

其中

然后,通过构建的

其中

此外,丰富的语义信息包含在由预训练的CNN提取的特征中。这意味着可以从图像的特征中挖掘出一些语义相似性信息。因此,对于相似性模糊的图像对,即

因此,两幅图像之间的相似度可以分为三种类型:完全相似的

所述步骤4中哈希学习框架:

以高质量的合成图像与上面得到的相似性矩阵为例,它们可以用来提升深度学习的性能,在相似性标签不足的图像上进行哈希。因此,构建了一个哈希编码器网络

给定训练数据

其中N是训练数据量,M是人工生成数据量,

其中

其中

由于公式12的二元约束

其中

通过将方程14和15纳入方程12中的MAP估计,得到学习紧凑哈希码的哈希编码器

其中

实施例2:检索结果测试

本实施例在三个广泛使用的基准数据集上评估了所提出的哈希方法,包括CIFAR-10、NUS-WIDE和MS-COCO,这些数据集经常用于物体检测应用。NUS-WIDE是一个网络图像数据集,包括269648张图像和来自Flickr的相关标签。它有5018个独特的标签和81个地面真实的概念。在本发明中,随机抽取5000张图片作为查询点,其余的图片作为数据库,并从数据库中随机抽取10000张图片作为训练点。CIFAR-10是一个包含60,000张图片的10类数据集。随机选择每类100张图片作为查询集,每类500张图片作为训练集,其余的图片作为数据库。MS-COCO是一个最近在图像识别、分割和字幕领域被广泛使用的图像数据集。它包含82,783张训练图像和40,504张验证图像,其中每张图像都由80个语义概念中的某些概念来标注。随机抽取5,000张图片作为查询点,其余的作为数据库,并从数据库中随机抽取10,000张图片进行训练。

对比方法:

本实施例选用对八种最先进的监督哈希方法进行了广泛的实验,包括监督浅层哈希方法ITQ-CCA、SDH,以及监督深层哈希方法CNNH和DNNH。此外,在给出结论之前,深入研究了模型的设置细节,并展示了性能结果。

实验设置:

通过使用广泛认可的评估协议,用于哈希函数学习和地面真实评估的相似性测量是通过利用图像标签构建的:如果两幅图像至少共享一个标签,则认为它们相似,

对于传统的哈希方法,使用4096维的特征作为图像特征。对于深度哈希方法,使用原始图像作为输入,并采用VGG16作为骨干架构。遵循并采用四层ResNet架构作为本发明方法中的判别器和生成器,这被证明可以生成64×64像素的高质量图像。采用AlexNet作为哈希编码器,对所有层进行微调,但最后一层是从预训练的AlexNet中复制的。由于最后一层是从头开始训练的,将其学习率设定为低层的10倍。使用0.9动量的小批量随机梯度下降法(SGD)作为求解器,并用

评估标准:

实验主要以两个标准评价指标进行评估。平均精度(MAP),精度-召回曲线(PR)。对于那些基于汉明排名的标准,它根据数据点与查询的汉明距离进行排名;对于为了与已公布的结果直接比较,所有方法都使用相同的训练集和测试集。遵循HashNet和DHN,对NUS-WIDE数据集采用MAP@5000,对MSCOCO数据集采用MAP@5000,而对CIFAR-10数据集采用MAP@54000。

表1显示了GDPSH和所有基线方法在MS-COCO、NUSWIDE和CIFAR-10上的结果,哈希代码数量从16到64不等。图2、图3和图4分别展示了在精度-召回曲线(PR)和精度曲线方面的检索性能,与不同的顶级返回样本数(P@N)有关。

表1 在三个图像数据集上,不同位数的汉明排序的平均均值精度(MAP)

首先展示了本发明和所有基线方法在三个数据集上的不同哈希码长度的MAP值,作为全局评估。然后,在哈希码长度为32的情况下画出精度-召回和P@N曲线作为更全面的比较。为了研究哈希码长度的影响,本发明在哈希码长度为[16,32,48,64]的情况下对所提方法进行了评估,并在MAP评估中展示了结果。

从不同数据集看,本发明在检索时间上基本优于其他基于深度的哈希方法,明显优于传统哈希算法,在训练时间上和其他深度哈希方法相似。实验表明,本发明优于现有的图像检索模型,并能无缝生成高质量的二进制哈希代码。本发明能够通过最小优化机制中的反向传播进行端到端的训练。大量的实验表明,所提出的模型可以生成高质量的二进制哈希代码,并在三个数据集(NUS-WIDE、CIFAR-10和MS-COCO)上产生先进的多媒体检索性能(如图2、3和4所示)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号