首页> 中国专利> 一种基于n元图片索引结构的图片检索方法与系统

一种基于n元图片索引结构的图片检索方法与系统

摘要

本发明公开了一种基于n元图片索引结构的图片检索方法与系统,涉及图像检索技术领域。本发明公开的方法包括:收到用户的检索操作时,判断用户输入的检索内容的形式为文本形式,则对用户输入的文本进行基于n元图片索引的文本内部向量化处理,利用处理结果在文本标签内的索引下进行图片检索,用户输入的检索内容的形式为图片形式时,对用户输入的图片进行基于n元图片索引结构的图片语义自动标注,提取n元图片,针对提取的n元图片的TF-IDF特征向量在语义标注的文本标签内的索引中进行图片检索,最后将检索到的图片按照相似度排序并输出。本发明还公开了基于n元图片索引结构的图片检索系统。本申请技术方案提高了检索效率和效果。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-17

    授权

    授权

  • 2015-01-21

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121207

    实质审查的生效

  • 2014-06-11

    公开

    公开

说明书

技术领域

本发明涉及图像检索方法与系统,具体涉及一种基于n元(n-gram)图 片索引的图片检索方法与系统,主要应用于图像检索领域。

背景技术

目前,图片检索主要分为两种方式,基于文本的图片检索(text-based  image retrieval)和基于内容的图片检索(content-based image retrieval)。在 传统的基于文本的图片检索系统(TBIR)中,图片通常是经过人工标注后, 用户通过关键词检索所需要的图片。这种方式的明显缺点是图片必须通过人 工进行标注,在信息大爆炸的今天,这种方式是不现实的。为克服基于文本 的图片检索的缺点,基于内容的图片检索方式在上世纪八十年代应运而生, 其中1984年Chang在这方面做了开创性的工作。所谓基于内容的图片检索 (CBIR),是指通过提取图片原始的底层视觉特征(如颜色特征,纹理特征, 形状特征等)对图片进行索引,并最终通过图片的底层特征进行图片搜索的 方式。较为著名的商业性的基于内容的图片检索工具有QBIC、Photobook、 Virage、VisualSEEK、Netra和SIMPLIcity。

当前常用的图片检索系统,大多都是对图片数据集中的图片提取高维底 层特征向量,通过对这些高维底层特征向量建立索引,或者对带有图片标注 的图像,通过文本标签对图像建立索引。用户则通过提交文本或者示图像对 索引系统进行检索。然而,通过这种方法的检索系统的检索效果和效率并不 理想,其主要原因是通过底层特征进行检索本身就存在“语义鸿沟”问题, 而且通过对高维底层特征建立的索引系统随着索引图片的数量的急剧增长, 的检索效率非常低下,因此当前图片搜索引擎的索引图片数量也有限,其用 户检索的图片效果不理想。并且当前大多数图片检索系统都没有利用到图片 中带有的空间特征信息。当前解决“语义鸿沟”问题的主要方法是通过对图 片进行自动标注,而当前大多数图片搜索引擎并没有将图片自动标注技术成 功运用到图片检索系统中。

然而,当前文本检索的发展已相当成熟,其索引建立以及检索技术都有 一定的积累,因此可以从文本检索方面借鉴相关技术,改进当前的图片检索 系统的性能。

发明内容

本发明所要解决的技术问题是,提供一种基于n-gram图片索引结构的图 片检索方法与系统,以提高图片检索效率和效果。

为了解决上述技术问题,本发明公开了一种基于n元图片索引结构的图 片检索方法,包括:

收到用户的检索操作时,判断用户输入的检索内容的形式;

当用户输入的检索内容的形式为文本形式时,对用户输入的文本进行基 于n元图片索引的文本内部向量化处理,利用文本内部向量化处理结果在文 本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出;

当用户输入的检索内容的形式为图片形式时,对用户输入的图片进行基 于n元图片索引结构的图片语义自动标注,基于n元模型提取n元图片,针 对提取的n元图片的词频-逆向文件频率(TF-IDF)特征向量在语义标注的 文本标签内的索引中进行图片检索,将检索到的图片按照相似度进行排序并 输出。

较佳地,上述方法还包括:

在用户进行检索操作前,构建基于n元图像的索引,所构建的索引包括 以图像n元为索引,以图像标注和图片详细信息为索引对象的索引结构,以 及以图片标注为索引,以图像n元以及图片详细信息为索引对象的索引结构。

较佳地,上述方法中,构建基于n元图像的索引的过程如下:

对带有文本标注的图片数据集进行预处理,从预处理后的图像数据集中 提取“图像词元”;

根据所提取的“图像词元”构建相应的包含图像n元的图像词典;

根据所构建的图像词典,对带有文本标注的图片数据集中的图片进行切 割,提取相应的图像n元,建立基于n元模型的图片索引。

较佳地,上述方法,对用户输入的文本进行基于n元图片索引的文本内 部向量化处理指:

根据用户输入的文本内容,基于n元图片索引结构进行检索,根据检索 到的图像n元的概率权值,对文本内容进行内部向量化处理。

较佳地,上述方法,利用文本内部向量化处理结果在文本标签内的索引 下进行图片检索,将检索到的图片按照相似度排序并输出指:

对用户输入的文本进行向量化后,根据向量化处理后的值对文本标签内 的索引下的图片进行相似度计算,按照计算得到的相似度的大小对检索到的 图片排序并输出。

本发明还公开了一种基于n元图片索引结构的图片检索系统,包括判断 单元、第一索引单元和第二索引单元,其中:

所述判断单元,收到用户的检索操作时,判断用户输入的检索内容的形 式,当用户输入的检索内容的形式为文本形式时,将用户输入的文本发送给 所述第一索引单元,当用户输入的检索内容的形式为图片形式时,将用户输 入的图片发送给所述第二索引单元;

所述第一索引单元,对用户输入的文本进行基于n元图片索引的文本内 部向量化处理,利用文本内部向量化处理结果在文本标签内的索引下进行图 片检索,将检索到的图片按照相似度排序并输出;

所述第二索引单元,对用户输入的图片进行基于n元图片索引结构的图 片语义自动标注,基于n元模型提取n元图片,针对提取的n元图片的词频- 逆向文件频率(TF-IDF)特征向量在语义标注的文本标签内的索引中进行 图片检索,将检索到的图片按照相似度进行排序并输出。

较佳地,上述系统还包括:基于n元图片索引构建单元,建立基于n元 图像的索引,该索引包括以图像n元为索引,以图像标注和图片详细信息为 索引对象的索引结构,以及以图片标注为索引,以图像n元以及图片详细信 息为索引对象的索引结构。

较佳地,上述系统中,所述基于n元图片索引构建单元分为:

“图像词典”构建部件,对带有文本标注的图片数据集进行预处理,从 预处理后的图像数据集中提取“图像词元”,根据所提取的“图像词元”构 建相应的包含图像n元的图像词典;

索引构建部件,根据所述“图像词典”构建部件所构建的图像词典,对 带有文本标注的图片数据集中的图片进行切割,提取相应的图像n元,建立 基于n元模型的图片索引。

较佳地,上述系统中,所述第一索引单元对用户输入的文本进行基于n 元图片索引的文本内部向量化处理指:

根据用户输入的文本内容,基于n元图片索引结构进行检索,根据检索 到的图像n元的概率权值,对文本内容进行内部向量化处理。

较佳地,上述系统中,所述第一索引单元利用文本内部向量化处理结果 在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输 出指:

对用户输入的文本进行向量化后,根据向量化处理后的值对文本标签内 的索引下的图片进行相似度计算,按照计算得到的相似度的大小对检索到的 图片排序并输出。

本申请技术方案,可以有效的将基于文本的图片检索和基于内容的图片 检索方式结合起来,有效的提高了检索效率和效果。

附图说明

图1为本实施例基于n-gram图片索引结构的图片检索流程示意图;

图2为本实施例中提取“图像词元”的流程图;

图3为本实施例中图像切割以及提取n-gram的示例图;

图4为以图像n-gram为索引,以语义标签和图像为索引内容的图像索引 结构示例图;

图5为以图像语义标签为索引,以图像n-gram和图像为索引内容的图像 索引结构示例图;

图6为基于n-gram图片索引结构的图片语义自动标注流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对 本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本 申请的实施例和实施例中的特征可以任意相互组合。

实施例1

本实施例提供一种基于n-gram图片索引结构的图片检索方法,该方法包 括两种检索方式:即文本形式的图片检索以及图片形式的图片检索。该方法 的实施原理如图1所示。具体包括如下步骤100到400:

步骤100,收到用户的检索操作时,判断用户输入的检索内容的形式, 若为文本形式则进入步骤200(a),若为图片形式则进入步骤200(b);

步骤200(a),对用户输入的文本进行基于n-gram图片索引的文本内 部向量化处理,进入步骤300(a)。

具体地,本步骤根据用户输入的文本内容,对基于n-gram图片索引结构 进行检索,根据检索得到的图像n-gram的概率权值,对文本内容进行内部向 量化处理。

步骤200(b),对用户输入的图片进行基于n-gram图片索引结构的图 片语义自动标注,基于n-gram模型提取n-gram图片,进入步骤300(b)。

该步骤先对用户输入的图片进行提取图像n-gram的操作,进而提取图片 的特征向量,再对图片进行基于n-gram图片索引结构的语义标注处理。

步骤300(a),利用用户输入的文本内部向量化结果在文本标签内的索 引中进行图片检索,计算检索到的图片的相似度,进入步骤400。

本步骤中,对用户输入的文本进行向量化后,根据向量化后的值对相应 的文本索引下的图片进行相似度计算。

步骤300(b),针对提取的n-gram图片的TF(Term Frequency Term  Frequency,词频)-IDF(Inverse Document Frequency,逆向文件频率)特征 向量在语义标注的文本标签内的索引中进行图片检索,将检索到的图片按照 相似度进行排序并输出。

该步骤对用户输入的图片进行语义自动标注之后,对图片提取的特征向 量,在语义标注的文本索引下的图片中进行相似度计算。

步骤400,在进行相似度计算后,对检索到的图片按照相似度的大小排 序并按照此排序向用户返回检索到的图片列表。

还要说明的是,在上述方法的基础上,还有一些优选方案,在用户进行 检索操作前,还构建基于n-gram图像的索引,所构建的索引包括以图像n 元为索引,以图像标注和图片详细信息为索引对象的索引结构,以及以图片 标注为索引,以图像n元以及图片详细信息为索引对象的索引结构。

具体地,构建基于n-gram图像的索引的过程如下:

对带有文本标注的图片数据集进行预处理,从预处理后的图像数据集中 提取“图像词元”;

根据所提取的“图像词元”构建相应的包含图像n元的图像词典;

根据所构建的图像词典,对带有文本标注的图片数据集中的图片进行切 割,提取相应的图像n元,建立基于n元模型的图片索引。

下面以优选的包括有构建基于n-gram图像的索引操作的方案为例,详细 说明上述基于n-gram图片索引结构的图片检索过程。

第一步,通过随机选取的图片数据集学习图像词元,然后通过学习得到 的“图像词元”构建“图像词典”。

其中,学习“图像词元”的过程如图2所示,包括如下步骤:

首先、对选取的图片进行文本化切分,文本化切分的方式可以根据不同 的应用需求进行设计。本发明实施例中给出的一种图片文本化切分方法的范 例是将图片均匀分割成大小为m*n的图像小块(如图3),每一小块可以看 作类似文本处理中的一个“单词”,而每幅图像可以看作相应的“文章”, 对图片进行文本化切割的方法不限于此。

其次、提取切分成的大小相等的图像小块的图像底层特征包括但不限于 图像颜色特征,图像纹理特征。并将其多个底层特征进行融合,从而得到一 个能反应图像小块多种底层特征的特征向量。

然后,对得到的每个图像小块的特征向量,采用聚类方法进行聚类操作, 最后通过选取代表相应簇类的典型数据点作为“图像词元”。对获取的“图 像词元”赋予相应的编号(如图3)。本发明采用的一种实施例(如图2), 是通过对所有图像小块的特征向量做k-means聚类操作,预先确定聚类簇的 数量,通过获取k-means聚类结果的质心得到“图像词元”。

最后,学习得到“图像词元”后,就是通过构造“图像词典”,为了进 一步表示图像的空间特征,在“图像词典”中加入了n-gram项,对于任一个 “图像词元”,与其相邻的n-1个“图像词元”构成一个“图像词元”序列, 将所有这些“图像词元”序列都作为一个项加入“图像词典”中,同时加入 其长度小于n的其他“图像词元”序列,构成“图像词典”。例如,假设提 取的“图像词元”为1、2、3,选取n为2,那么得到的“图像词典”包含的 “图像词典”项为:(1)、(2)、(3)、(1,1)、(1,2)、(1,3)、(2,1)、(2,2)、 (2,3)、(3,1)、(3,2)、(3,3)。对于提取“图像词元”数量为K,选用n为2的 实施例中,“图像词典”包含的gram数量为K*K+K。

第二步,判断用户输入的检索内容的形式;

其中,本步骤之所以对用户输入的检索内容的形式进行判断,是为了确 定系统应采取的下一步操作,并对相应的输入做适当的预处理。如果用户输 入的是文本内容,则需要对文本内容作分词以及去掉停用词的处理;如果用 户输入的是图片,那么则需要对图片进行相应的格式转化和大小归一化处理。

第三步、判断出用户输入的为文本形式时,进行基于n-gram图片索引结 构的文本内部向量化处理,或者判断用户输入的为图片形式时,进行基于 n-gram图片索引结构的图片语义自动标注;

第四步、利用用户输入的文本内部向量化结果或者基于n-gram模型的图 片特征向量,在文本标签索引的图片中进行检索;

该步骤中、如果用户输入的是文本形式,则对用户输入的文本进行基于 n-gram图片索引的文本内部向量化处理,具体地文本内部向量化的方法是: 首先在如图5的索引结构中进行检索,将相应的n-gram的Nweight值作为该 文本向量化的向量分量权值,对于含有多个分词的文本,将最后的向量各分 量值进行相加,得到用户输入的文本的内部向量化表示。

如果用户输入的是图片,则对用户输入的图片数据进行如图6所示的图 片语义自动标注,并提取图片的TF-IDF特征向量,本实施例使用的TF-IDF 计算方式如下:

tfi.j=ni,jΣknk,j

式中ni,j——“图像词典”项在图像dj中的出现频数;

knk,j——图像dj中所有项出现频数总和。

idfi=log|D|1+|{j:tidj}|

式中|D|——图片库的图像总数;

|{j:ti∈dj}|——包含该“图像词典”项ti的图像数量(即ni,j≠0的文件数目)。

第五步、最后对检索的结果按照相似度进行排序,并输出检索结果。

该步骤中,如果用户输入的是文本形式,则对用户输入的文本进行文本 向量化表示后,对得到的向量在用户输入的相应的文本标签索引下的图片中 进行相似度计算;

如果用户输入的是图片形式,则对用户输入的图片进行语义自动标注后, 在标注后的标签索引下的图片中进行相似度计算,并返回相似度计算的权值。

最后对检索得到的所有图片按照相似度计算的权值大小进行排序,将按 照排序将图片列表返回给用户。

实施例2

本实施例介绍一种基于n-gram图片索引结构的图片检索系统,该系统至 少包括判断单元、第一索引单元和第二索引单元。

判断单元,收到用户的检索操作时,判断用户输入的检索内容的形式, 当用户输入的检索内容的形式为文本形式时,将用户输入的文本发送给第一 索引单元,当用户输入的检索内容的形式为图片形式时,将用户输入的图片 发送给第二索引单元;

第一索引单元,对用户输入的文本进行基于n-gram图片索引的文本内部 向量化处理,利用文本内部向量化处理结果在文本标签内的索引下进行图片 检索,将检索到的图片按照相似度排序并输出;

其中,第一索引单元对用户输入的文本进行基于n-gram图片索引的文本 内部向量化处理时,根据用户输入的文本内容,基于n-gram图片索引结构进 行检索,根据检索到的图像n-gram的概率权值,对文本内容进行内部向量化 处理。

而第一索引单元利用文本内部向量化处理结果在文本标签内的索引下进 行图片检索,将检索到的图片按照相似度排序并输出时,主要是对用户输入 的文本进行向量化后,根据向量化处理后的值对文本标签内的索引下的图片 进行相似度计算,按照计算得到的相似度的大小对检索到的图片排序并输出。

第二索引单元,对用户输入的图片进行基于n-gram图片索引结构的图片 语义自动标注,基于n-gram模型提取n-gram图片,针对提取的n-gram图片 的TF-IDF特征向量在语义标注的文本标签内的索引中进行图片检索,将检 索到的图片按照相似度进行排序并输出。

还有一些优选方案,在上述系统的基础上,增加有基于n-gram图片索引 构建单元,该单元建立基于n-gram图像的索引,所建立的索引包括以图像 n-gram为索引,以图像标注和图片详细信息为索引对象的索引结构,以及以 图片标注为索引,以图像n-gram以及图片详细信息为索引对象的索引结构。

具体地,基于n-gram图片索引构建单元又可以分为,“图像词典”构建 部件和索引构建部件。

“图像词典”构建部件,该部件的主要功能是根据图像数据集,学习包 含图像n-gram的图像词典,具体地,该部件对带有文本标注的图片数据集进 行预处理,从预处理后的图像数据集中提取“图像词元”,根据所提取的“图 像词元”构建相应的包含图像n-gram的图像词典;

其中,构建“图像词典”首先需要通过随机选取的图片数据集学习图像 词元,然后通过学习得到的“图像词元”构建“图像词典”。

学习“图像词元”的方法步骤如图2所示,具体步骤如下描述:

第一步、对选取的图片进行文本化切分,文本化切分的方式可以根据不 同的应用需求进行设计。本发明实施例中给出的一种图片文本化切分方法的 范例是将图片均匀分割成大小为m*n的图像小块(如图1),每一小块可以 看作类似文本处理中的一个“单词”,而每幅图像可以看作相应的“文章”, 对图片进行文本化切割的方法不限于此。

第二步、提取切分成的大小相等的图像小块的图像底层特征包括但不限 于图像颜色特征,图像纹理特征。并将其多个底层特征进行融合,从而得到 一个能反应图像小块多种底层特征的特征向量。

第三步,对得到的每个图像小块的特征向量,采用聚类方法进行聚类操 作,最后通过选取代表相应簇类的典型数据点作为“图像词元”。对获取的 “图像词元”赋予相应的编号(如图1)。本发明采用的一种实施例(如图2), 是通过对所有图像小块的特征向量做k-means聚类操作,预先确定聚类簇的 数量,通过获取k-means聚类结果的质心得到“图像词元”。

而学习得到“图像词元”后,就是通过构造“图像词典”,为了进一步 表示图像的空间特征,在“图像词典”中加入了n-gram项,对于任一个“图 像词元”,与其相邻的n-1个“图像词元”构成一个“图像词元”序列,将 所有这些“图像词元”序列都作为一个项加入“图像词典”中,同时加入其 长度小于n的其他“图像词元”序列,构成“图像词典”。例如,假设提取 的“图像词元”为1、2、3,选取n为2,那么得到的“图像词典”包含的“图 像词典”项为:(1)、(2)、(3)、(1,1)、(1,2)、(1,3)、(2,1)、(2,2)、 (2,3)、(3,1)、(3,2)、(3,3)。对于提取“图像词元”数量为K,选用n为2的 实施例中,“图像词典”包含的gram数量为K*K+K。

索引构建部件,该部件的主要功能是依据“图像词典”对图像数据集, 建立基于n-gram的图像索引。具体地,根据“图像词典”构建部件所构建的 图像词典,对带有文本标注的图片数据集中的图片进行切割,提取相应的图 像n元,建立基于n元模型的图片索引。而建立的基于n-gram的图像索引包 括两类索引结构:一种是以图像n-gram为索引,以图像标注和图片详细信息 为索引对象的索引结构;另一种是以图片标注为索引,以图像n-gram以及图 片详细信息为索引对象的索引结构。

下面再以构建的包括有上述两种索引结构的基于n-gram的图像索引为 例,说明图片检索的具体过程。

1.以图像n-gram为索引,以图像标注和图像详细信息为索引对象,如图 4所示,图中Mnode为主索引节点,主索引节点中为“图像词典”中的项,包 括unigram和bigram。(1,1)为图像bigram,主索引节点索引的内容包括两 部分:1、包含主索引节点中的“图像词典”项的所有图片的详细信息,以 Mnode为例,其下索引的图片是包含“图像词典”项(1,1)的所有图片的详 细信息;2、包含文本标注标签(sun)以及其对应权值(Lweightsun)的子索引 节点(Cnodel)。以Cnodel为例,子索引节点中包括图像数据中出现的文本 标签sun以及通过计算得到的对应权值Lweightsun。Lweightsun反应的是 主索引节点中的“图像词典”项与子索引节点中的文本标签的关系,本发明 采用的计算方法如下:

Lweightsun=p(sun|(1,1))=p(sun,(1,1))p((1,1))=p((1,1)|sun)·p(sun)p((1,1))

其中:

p((1,1)|sun)=p(sun,(1,1))p(sun)N((1,1)+|sun)N(n-gram|sun)

p(sun)=Nimg(sun)Nimg(All)

p((1,1))=N((1,1))N(n-gram)

式中N((1,1)|sun)——带有sun标签的所有图片中,包含(1,1)的个数;

N(n-gram|sun)——带有sun标签的索引图片中,包含所有的n-gram 的个数;

Nimg(sun)——带有sun标签的所有图片的个数;

Nimg(All)——数据集中所有图片的数量;

N((1,1))——图片数据集中所有(1,1)的数量;

N(n-gram)——图片数据集中所有n-gram的数量

子索引节点下索引的是既包含主索引节点(Mnode)中的“图像词典” 项,同时又带有子索引节点中的文本标签的所有图片的详细信息,以Cnodel 为例,其下索引的图片包含(1,1)“图像词典”项,同时又带有sun标签。

2.以图像语义标签为索引,以图像n-gram和图像为索引内容,如图5 所示,图中Mnode为主索引节点,主索引节点中为图片数据集中的文本标签, 如图4所示,sun为图像数据集中的一个文本标签。主索引节点索引的内容 包括两部分:1、数据集中带有此文本标签的所有图片的详细信息,以Mnode 为例,其下索引的内容是所有包含文本标签sun的图片详细信息;2、包含相 应“图像词典”项((1))以及其对应权值(Nweightsun)的子索引节点(Cnodel)。 以Cnodel为例,子索引节点中包括“图像词典”中的(1)以及通过计算得到 的对应权值Nweight(1)。Nweight(1)反应的是主索引节点中的文本标 签项与子索引节点中的“图像词典”项的潜层关系,本发明给出的具体计算 如下:

Nweight((1))=p((1))|sun)=p(sun,(1))p(sun,)N((1)|sun)N(n-gram|sun)

式中:N((1)|sun)——为带有标签sun的图片包含(1)的个数;

N(n-gram|sun)——为带有标签sun的图片包含所有的n-gram的 数量。

子索引节点下索引的是既带有主索引节点(Mnode)中的文本标签,同 时又包含子索引节点中的“图像词典”项的所有图片的详细信息,以Cnodel 为例,其下索引的图片带有sun文本标签,同时又包含(1)“图像词典”项。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序 来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读 存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用 一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用 硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任 何特定形式的硬件和软件的结合。

以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范 围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等, 均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号