首页> 中国专利> 基于自适应学习区域重要性的交互式图像检索方法及系统

基于自适应学习区域重要性的交互式图像检索方法及系统

摘要

本发明涉及一种基于自适应学习区域重要性的交互式图像检索方法及系统,它对用户提交的检索图像基于均值漂移和规范切进行自适应分割,提取分割区域的特征,基于新的区域重要性指标计算区域的重要性,进而基于综合区域匹配计算用户提交的检索图像和图像库中的每一幅图像的相似度,根据相似度排序并返回给用户最相似的前若干幅图像,基于用户的反馈信息,构建短期学习和长期学习策略,旨在自动更新正例的区域重要性的同时减小反例图像的区域重要性,从而快速、有效地获取满意的图像。本发明可减轻用户的检索负担,且在检索的过程中学习用户标注的正例和反例图像信息来自动更新区域的重要性,可以更靠近用户的检索意图,从而更加有效地提高检索性能。

著录项

  • 公开/公告号CN104077344A

    专利类型发明专利

  • 公开/公告日2014-10-01

    原文格式PDF

  • 申请/专利权人 河南大学;

    申请/专利号CN201310749631.9

  • 发明设计人 杨晓慧;职占江;李登峰;胡凤;

    申请日2013-12-31

  • 分类号G06F17/30;

  • 代理机构郑州中原专利事务所有限公司;

  • 代理人李想

  • 地址 475001 河南省开封市明伦街85号

  • 入库时间 2023-12-17 01:49:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-20

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20180717 终止日期:20181231 申请日:20131231

    专利权的终止

  • 2018-07-17

    授权

    授权

  • 2014-10-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131231

    实质审查的生效

  • 2014-10-01

    公开

    公开

说明书

技术领域

本发明属于图像检索领域,特别涉及一种交互式图像检索方法及系统。

背景技术

随着多媒体和互联网技术的快速发展,人们接触到越来越多的各种信息。图像作为一种内容丰富和表现直观的多媒体信息,长期以来受到人们的亲睐。如何快速并且有效的搜寻到自己需要的信息---20世纪90年代基于内容的图像检索(Content Based Image Retrieval,CBIR)应运而生,从可视化角度对图像检索进行探讨。所谓CBIR,就是通过提取图像的底层特征,比如颜色、纹理和形状等特征来表示图像内容,通过特征间的相似性比较完成图像之间的匹配。

对图像内容的描述包括全局描述子和局部描述子。全局描述子是对图像的整体进行描述提取的特征,鲁棒性较强,受噪声的影响较小。然而,根据人眼视觉感知特性,用户经常关注的是图像中的某个或者某些目标区域,比如说图像中的一辆车。因为对整幅图像提取的特征并不能较好地表达目标区域的特点。相对于全局描述子而言,局部描述子对单一目标的描述更为有力。

基于区域的图像检索(Region Based Image Retrieval,RBIR)通过将图像表示成区域在一定程度上克服了全局描述子带来的困难。一个RBIR系统首先运用图像分割技术将图像分割成若干区域,然后将图像的匹配转化为区域之间的匹配。基于区域层次的图像表示更接近人眼视觉。UCSB研发的Netra系统和伯克利大学研发的Blobworld系统是典型的RBIR系统,这两个系统需要用户提交一幅图像,从分割的区域中选择相关区域并且指定特征权重。由于图像本身的复杂性以及图像分割的不准确性,自动并且准确的提取目标区域还是一个难题。因此,用户常常会因为如何选择包含目标的区域感到不知所措。为了提供给用户一个简单的检索界面,一对多的区域相似度匹配被提出。这种相似度涉及到两幅图像的所有区域,不需要用户选择参与匹配的区域,只需要用户提交一幅检索图像即可,大大减少了用户的检索负担。斯坦福大学的SIMPLIcity系统提出了一种综合区域匹配(Integrated Region Matching,IRM)方法来完成图像匹配。IRM允许一幅图像中的一个区域和另一幅图像中的多个区域进行匹配,因此降低了由于图像分割的不准确带来的影响。然而,在IRM中用区域的面积来表征区域的重要性,即区域面积越大,则重要性越大。缺点在于这种假设不具有一般性。

一般来说,系统自动提取的图像的底层特征与图像的高层语义(用户的主观评价)之间存在着巨大的差异(即语义鸿沟问题),使得检索结果难以令人满意。为了有效地解决上述问题,相关反馈(Relevance Feedback,RF)技术被引入,产生了基于相关反馈算法的图像检索技术。通过相关反馈技术试图建立图像的底层特征与高层语义之间的关联,从而在人机交互后提高整个检索系统的检索效率。RF最先用于信息检索中,于20世纪90年代引入CBIR,已经被众多的研究者证明能够有效地提高检索性能。RF策略在给出初始检索结果后要求用户标记正例和反例图像(称为反馈信息),然后系统根据反馈信息学习用户的检索意图以返回更接近用户检索意图的图像。

Bristol大学提出的IDQS系统将RF引入到RBIR,该系统要求用户选择检索示例图像的感兴趣区域,系统根据区域对区域的方式匹配图像然后返回最相似的一系列图像。接下来,需要用户标明返回的图像是正例还是反例,Learningvector quantization方法用来聚类反馈图像的区域,这些类别被标记为正例类别或者反例类别,和正例类别接近的图像被返回给用户,通过迭代直至用户满意检索结果为止。在IDQS系统中,采用的相似度测量是一对一区域的相似度,在很大程度上受分割结果的影响并且加重了用户选择区域的负担。Feng Jing等人根据用户反馈信息来更新区域的重要性。他们基本的假设是重要的区域在正例图像中出现的次数比其它多。所以,在每一次的反馈循环中,只有正例图像区域的重要性增加了。然后,忽略了反例在反馈检索中所起的作用。事实上,在增加正例图像区域重要性的同时减少反例图像区域的重要性可以更有效地提高检索性能。

发明内容

本发明的目的在于克服上述现有技术的不足,提出了一种自适应学习区域重要性的交互式图像检索方法,能够快速有效地检索出和用户意图更为接近的相关图像。

本发明采用下述技术方案:

一种基于自适应学习区域重要性的交互式图像检索方法,包括以下步骤:

1)对用户提交的检索图像Q进行自适应分割,得到分割区域Q={Q1,…,Qm};

2)对分割区域Qi,1≤i≤m提取局部底层特征,包括颜色、纹理和形状特征;

3)计算区域Qi,1≤i≤m的区域重要性(RI)指标;

4)根据RI指标,计算Q和标准图像库中的每一幅图像Bj,1≤j≤N的相似度Sj,1≤j≤N,其中N是标准图像库中的图像数量;

5)根据Sj对Bj进行排序,并返回用户最相似的前若干幅图像;

6)用户参与反馈,直到检索出满意的图像。

本发明还提供了一种图像检索系统,包括以下模块:

导入图像模块,使得用户从本地文件中选择想要检索的图像;

分割模块,用以显示图像的分割结果;

权重选择模块,有系统推荐和用户自主填写两种选择;

显示检索结果模块,显示与提交的检索图像最相似的前N幅图像;

标注模块,用户对系统返回的图像标注正例或反例;

反馈模块,使得用户能够选择符合自己检索意图的正例图像。

本发明的有益效果:减少用户的检索负担,并且在检索的过程中充分利用用户的反馈信息,通过短期学习和长期学习,自动更新正例和反例图像的区域重要性,从而快速、有效地接近用户的检索意图。

附图说明

图1为本发明的流程图。

图2为本发明的系统原理图。

图3得到初始检索结果的图像检索界面。

图4用户对初始检索结果结果进行标注。

图5一次反馈检索结果。

具体实施方式

本发明的具体实现方式如下:

步骤一、对用户提交的检索图像Q进行自适应分割,得到分割区域Q={Q1,…,Qm}。

均值漂移(MS)和规范切(NC)是两种常用的图像分割方法,但是MS易产生过分割,NC计算复杂度太高。W.B.Tao等将MS和NC结合,提出了一种新的图像分割方法,MS-Ncut,该方法先用MS分割方法对图像进行分割;然后在前一步所得到的过分割的图像基础上用NC方法进行区域合并,在一定程度上缓解了过分割和计算复杂度。MS-Ncut方法的问题在于需要预先设置分割数目来结束合并过程,这无疑增加用户的负担。基于此,我们提出了一种自适应MS-Ncut分割方法,可以根据图像自身的统计特性自动确定最终的分割数。具体步骤如下:

(1a)将图像进行MS分割;

(1b)考虑到图理论中图G的定义,G=(V,E),其中V是图的顶点,E是顶点与顶点之间的权重。将MS分割后的图像看作是图理论中的图G,将分割区域作为图的节点V,对图用NC进行聚类合并;

(1c)对聚类后的每个区域提取每通道的平均颜色(H*S*V颜色空间)作为区域的3维特征;

(1d)聚类数目k初始化为2;

(1e)随机选择k个区域的特征向量作为初始类别中心,将所有区域归并到最近的类别中,并重新计算类别中心;

(1f)计算准则函数其中ω1,…,ωk是k个类别,mi是类别中心,fj是属于ωj类别的区域的特征向量,如果y大于等于预先设定的阈值ε,k=k+1,转到(1e)和(1f),否则停止迭代。

步骤二、对分割区域Qi,1≤i≤m提取局部底层特征,包括颜色、纹理和形状特征。

颜色特征:将图像由RGB颜色空间转换到L*u*v*空间,提取L,u,v区域平均颜色作为每一个区域的3维颜色特征;

形状特征:区域的1维密度比、2维质心、4维矩形盒子、7维不变矩作为14维形状特征;

纹理特征:计算区域的共生矩阵,提取能量、惯性、熵、匀度四个统计特性作为16维纹理特征。

步骤三、计算区域Qi,1≤i≤m的区域重要性(Region importance)RI指标;

根据人眼的视觉系统,一幅图像中的不同区域重要性不同。一般来说,区域重要性和区域的面积有关。区域的面积越大,区域越重要。而且,重要的区域往往位于图像的中心位置。基于以上假设,考虑到区域面积和区域位置,我们构造了了一种新的RI指标:若图像I表示为I={r1,r2,L,rn},其中ri是图像I的第i个区域,则ri的RI为

>RI(ri)=A(ri)A(I)·(1-2(rix-x)2+(riy-y)2L(I)2+H(I)2),---(1)>

其中A(I)和A(ri)分别为图像I和区域ri的面积,即像素的个数,则A(ri)/A(I)表示为区域ri在图像I中所占的百分比;(rix,riy)是ri的重心,ri,(x,y),L(I)和H(I)分别表示为图像I的重心、长和高。表示ri的重心和I的中心的欧式距离。公式(1)表明:RI(ri)值越大,区域ri越重要。

步骤四、根据RI指标,计算Q和标准图像库中的每一幅图像Bj的相似度Sj,1≤j≤N,其中N是标准图像库中的图像数量;

假设两幅图像I1和I2分别表示为I1={r1,1,r1,2,L,r1,m}和I2={r2,1,r2,2,L,r2,n},基于提出的RI定义,则计算I1和I2的距离定义为:

>d(I1,I2)=Σi=1mΣj=1nPi,j·di,j,---(2)>

其中P=(Pi,j)m×n称为重要性矩阵,Pi,j表示r1,i和r2,j匹配的重要性系数。r1,iandr2,j的距离用di,j表示。本文中,di,j定义为:

>di,j=wc·Σk=13(fi,k-fj,k)2+wt·Σk=419(fi,k-fj,k)2+ws·Σk=2033(fi,k-fj,k)2,---(3)>

其中fi={fi,1,…,fi,33}和fj={fj,1,…,fj,33}是区域r1,i和r2,j的归一化特征向量,即步骤二中介绍的33-D特征向量通过高斯归一化的结果。wc,wt,ws分别是颜色、纹理和形状特征的权重,通过实验检验得到wc=5/8,wt=1/8,ws=2/8。事实上,可以通过以一定的时间代价来获得自适应权重。

假设区域r1,i和r2,j的区域重要性RI为RI(r1,i)和RI(r2,j),则需要满足

>Σj=1,...,nPi,j=RI(r1,i),i=1,...,mΣi=1,...,mPi,j=RI(r2,j),j=1,...,n.---(4)>

基于(4)和我们提出的RI指标,P=(Pi,j)m×n可以通过最相似优先度最高(Most Similar HighestPriority,MSHP[24])准则得到。MSHP准则试图赋予较相似的区域对较高的匹配重要性。和IRM中采用的MSHP准则不同,这里的MSHP中的区域重要性是我们提出的RI指标。

步骤五、根据Sj,1≤j≤N对Bj进行排序,并返回用户最相似的前M幅图像;根据(2)从小到大排序得到其中{i1,…,iN}是{1,…,N}的置换。则标准图像库中的图像按照的顺序排列并且返回前M个图像给用户。

步骤六、用户参与反馈,直到检索出满意的图像。实现的具体步骤为:

(6a)如果用户对检索结果满意,则停止检索;否则进行以下步骤

(6b)用户标注系统返回的检索结果为正例或反例;

(6c)自适应给出两种相似度阈值,并通过短期学习和长期学习自动更新正例和反例图像区域的RI值,包括以下过程:

(6c-1)首先给出相似度阈值的定义:给定0≤T≤1,如果满足

>MT+(k)={Ii|IiM(k),s(R,Ii)TMT-(k)={Ii|IiM(k),s(R,Ii)<T,---(5)>

则称T为相似度阈值。这里表示在第k次反馈中用户标注的所有正例和反例图像;s(R,Ii)表示区域R和图像Ii的相似度,定义如下:

s(R,Ii)=max(s(R,ri,j)),

其中s(R,ri,j)是区域R和图像Ii的第j个区域ri,j的相似度,这里取为欧式距离的负指数函数,即s(R,ri,j)=exp(-d(R,ri,j)),其中d(R,ri,j)是区域R和ri,j的欧式距离。相似度阈值我们通过以下策略自适应获得:

(6c-1-1)构造相似度矩阵P,即计算用户在第k次反馈提交的所有正例图像的区域和所有正反例图像的相似度组成的矩阵。由于区域的特征是高斯标准化后的特征,因此得到的相似度的值属于[0,1];

(6c-1-2)计算相似度矩阵P的直方图H,即将[0,1]区域均分成10份,得到小区间i=1,2,…,10,统计落入每个小区间的P中的元素个数,得到H(i),i=1,2,…,10;

(6c-1-3)计算H的累加直方图CH,即CH(i)=CH(i-1)+H(i),i=1,2,…,10,其中CH(0)=0;

则T1定义为:

>T1=110argminT{|CH(T)CH(1)-0.5|T{1,2,...,10}.---(6)>

相似度阈值T2可类似获得。

(6c-2)k次反馈时第正例图像的区域Ri和反例图像的区域ri的区域重要性RI更新为RIi(k)和rJi(k):

>RIi(k)=μi·s(Ri,MT1+(k))Σj=1nμj·s(Rj,MT1+(k))rJi(k)=λi·s(ri,MT2-(k))Σj=1mλj·s(rj,MT2-(k)),---(7)>

其中>μi=1-s(Ri,MT1-(k))Σj=1ns(Rj,MT1-(k)),λi=1-s(ri,MT2+(k))Σj=1ms(rj,MT2+(k))>是辅助因子,T1和T2是相似度阈值,且0≤T1,T2≤1,n和m分别是一个正例图像和一个反例图像的区域数。

如果我们进一步假设用户在检索过程中的检索意图不改变,则可以通过累加每一次反馈的正例区域的RI以提高检索效果。k次反馈后区域Ri的累加RI定义为:

>CRIi(k)=CRIi(k-1)+RIi(k)k,---(8)>

其中RIi(k)是由(7)式定义的第k次反馈时正例图像的区域Ri更新后的RI。k=1时,CRIi(0)定义为公式(1)定义的区域的初始RI。

因此,用户返回的图像的区域重要性RI可由公式(7)和(8)自动更新。

(6d)利用公式(2)重新计算更新RI值之后的Q和Bj,1≤j≤N的相似度,并输出前M幅最相似图像。

(6e)反复进行(6b)-(6d),直到检索到用户满意的图像。

本发明还提供一种基于上述检索方法的检索系统,图2给出了该检索系统的结构模块,包括:导入图像模块、分割模块、权重选择模块、显示检索结果模块、标注模块和反馈模块。

导入图像模块,使得用户从本地文件中选择想要检索的图像;

分割模块,用以显示图像的分割结果;

权重选择模块,有系统推荐和用户自主填写两个选择,其中“系统推荐”选项表示检索时采用的颜色、纹理和形状特征的权重是公式(3)中经过实验获得的权重,即wc=5/8,wt=1/8,ws=2/8,其中wc,wt,ws分别是颜色、纹理和形状特征的权重。

显示检索结果模块,该模块显示与提交的检索图像最相似的前9幅图像;

标注模块,用户对系统返回的标注正例和反例;

反馈模块,该模块使得用户能够选择符合自己检索意图的正例图像。

本发明的方法及系统用仿真实验给予进一步的展示,我们以Corel-1000图像库中第一幅图像0.jpg作为用户提交的检索图像,仿真结果见图3—图5.其中图3左上角显示用户从图像库中选择0.jpg作为检索图像,并且选择“系统推荐”的特征权重,在检索系统的右面检索结果显示模板得到最相似的9幅图像。图4表示用户在标注模块选择符合检索意图的正例图像,未被选择的图像默认为反例图像,然后点击反馈模块提交反馈信息。图5是系统通过学习用户的反馈信息返回的重排序的图像,学习的方法采用的是本发明的反馈检索方法。图4和图5表明,本发明的图像检索方法有较好的初始检索结果及有效的反馈结果。

综上,通过本发明所叙述的图像检索方法,可以有效地减轻用户负担并且能够通过用户的反馈有效的提升检索性能。基于该检索方法的检索系统界面设计简单易学,适合非专业的普通用户较快适应该系统。

由上述具体实施方法可见,本发明:1)提出了一种有用户参与的交互式的图像检索方法,该方法通过不断更新区域的重要性实现的:首先根据检索图像本身的视觉特征提出了一种区域重要性指标,即公式(1),然后在用户的交互阶段,根据用户的反馈信息,采用短期学习和长期学习自动更新正例和反例图像的区域重要性,即公式(7)和公式(8),进而利用公式(2)重新进行匹配,从而快速有效地逐渐接近用户的检索意图。2)根据该检索方法设计了对应的检索界面,操作简单、易于实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号