首页> 中国专利> 特征向量空间中的自适应搜索方法

特征向量空间中的自适应搜索方法

摘要

提供一种在特征向量空间中的自适应搜索方法,该方法可以快速搜索基于对于特征向量的近似索引的特征向量空间,该特征向量具有类似于根据可变距离测量的询问向量的特征。该自适应搜索方法包括步骤:(a)对特征向量空间内的已知询问向量执行相似性测量;和(b)施加由步骤(a)获得的相似性测量结果限制的搜索条件并且对规定的询问向量执行改变的相似性测量。按照该自适应搜索方法,在诸如在线检索期间之类的变化的距离测量期间,减少了候选近似范围的数量,因此改善了搜索速度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-06

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20060322 终止日期:20150226 申请日:20010226

    专利权的终止

  • 2006-03-22

    授权

    授权

  • 2002-06-05

    公开

    公开

  • 2001-09-12

    实质审查的生效

    实质审查的生效

说明书

本发明涉及一种对于具有类似于询问向量的特征的特征向量搜索特征向量空间的方法,并且更具体地,涉及按照可变距离测量基于特征向量的近似值有效地搜索向量空间的方法,该特征向量具有类似于询问向量的特征。

在涉及多媒体应用的多媒体数据库中,多媒体内容一般是由特征向量代表的。各个对象的类似性是由在特征向量空间的询问向量与特征向量之间的特征距离定义的距离测量确定的。

为了提供进一步精确地检索,利用采集诸如用户的反馈之类的信息,可以重复地执行距离测量。但是,常规的方法没有考虑到在大的数据库中如何按照各个可变因素重复执行距离测量。具体地说,在特征向量空间中常规索引的方法没有提出如何在诸如在线检索之类的距离测量改变的环境中迅速执行搜索。因此,在距离测量改变的环境下仍然需要加速搜索。

为了解决上述问题,本发明的一个目的是提供一种按照变化的测量条件,对于具有类似于询问向量的特征向量,快速和重复搜索近似的特征向量空间的方法。

因此,为了实现上述目的,本发明提供一种自适应搜索特征向量空间的方法,该方法包括以下步骤:(a)在该特征向量空间内对给定的询问向量执行相似性测量;和(b)施加由在步骤(a)中获得的相似性测量的结果的搜索条件限制并且对给定的询问向量执行改变的相似性测量。

步骤(b)最好包括以下各步骤:(b-1)按照由在步骤(a)获得的相似性测量结果进行限制的距离测量,通过执行近似层过滤获得侯选近似范围;和(b-2)对获得的侯选近似范围执行数据层过滤。

步骤(a)最好包括以下各步骤:(a-1)通过测量询问向量与各近似范围之间的距离,获得预定数量的最近似的侯选近似范围;和(a-2)通过测量在获得的侯选近似范围内的所有每个特征向量与询问向量之间的距离,获得K个最邻近特征向量,其中K是正整数。

步骤(b-1)最好包括以下各步骤:(b-1-1)根据改变距离测量计算对于按照以前的距离测量获得的K个最邻近特征向量的第K′个最短距离,其中K′是正整数,并且设置计算的距离为rt+1u,和(b-1-2)根据改变的距离测量,对于按照以前的距离测量的预定数量的侯选近似范围,计算第K′个最小下边界并设置为Фt+1u

步骤(b-1)最好包括以下各步骤:(b-1-3a)对于一个新的测量,测量近似范围的下边界与询问向量之间的距离Li(Wt+1),其中N是表示在特征向量空间中对象的数量的正整数和i是范围从1到N的变量;(b-1-4)比较在步骤(b-1-3a)获得的距离Li(Wt+1)与第K个最小上边界Ф、rt+1u和Фt+1u的最小值min(Ф,rt+1u,Фt+1u);(b-1-3a)如果距离Li(Wt+1)小于或等于最小值min(Ф,rt+1u,Фt+1u),则将对应的近似范围设置为侯选近似范围;和(b-1-6)如果距离Li(Wt+1)大于或等于最小值min(Ф,rt+1u,Фt+1u),则排除对应的近似范围。

另外,步骤(b-1)还包括:(b-1-3b)对于新的距离测量测量近似范围的上边界与询问向量之间的距离Ui(Wt+1),假设N是代表特征向量空间中的对象数量的正整数和i是取值范围为1到N的变量;并且(b-1-7)参照距离Ui(Wt+1)更新第K个最小上边界Ф。

另外,重复步骤(b-1-1)-(b-1-6)直至对所有N个近似范围执行近似层过滤,其中N是表示数据库中各个对象的数量的正整数。

步骤(b-2)最好包括以下各步骤:(b-2-1)在各个侯选近似范围中所有特征向量的每一个与询问向量之间执行距离测量;并且(b-2-2)取决于步骤(b-2-1)执行的距离测量的结果,确定K′个最接近的邻近向量作为被检索的向量。

通过参照附图对本发明的优选实施例的详细描述,本发明的上述各个目的和优点将变得更加清楚,其中:

图1A和1B是表示按照本发明的一个优选实施例的自适应搜索特征向量空间的方法的主要步骤的流程图;

图2是用于解释近似层过滤的伪码表。

现在将参照图1A和1B描述本发明的一个优选实施例的自适应搜索方法的主要步骤。存储有多媒体内容的数据库被表示为一个特征向量空间。在这个实施例中,特征向量空间是利用多个超立方体近似的。另外,假设M是用于代表描述图像/视频对象的特征向量的维数的正整数,并且N是代表数据库中对象数量的正整数,询问对象Q的特征向量F和询问向量Q分别被表示为F=[Fi1、Fi2、…、FiM]和Q=[Qi1、Qi2、…、QiM]。其中,数据库被表示为特征向量空间和询问对象Q的特征向量Q此后被称为询问向量。

首先,通过测量一个询问向量与每个超立方体之间的距离获得最接近的侯选超立方体的预定数量(步骤102)。然后,K个最接近的邻近特征向量是通过测量询问向量与步骤102中获得的侯选超立方体的预定数量中所有特征向量的每一个之间的距离的异常指示符,其中K是正整数(步骤104)。询问向量与各个特征向量每一个之间的距离是利用计算加权欧几里德距离测量的。加权的欧几里德距离是通过方程(1)计算的:

d(Wt、Ft、Q)=(Q-F)TWt(Q-F)    (1)

其中Wt是第t次迭代的全对称函数矩阵,和在每次迭代时更新。

然后,例如,用户选择类似于在计算的多媒体内容中他或她希望找到的和试图重新搜索的多个多媒体内容。因此,可以从用户那里提供改变搜索条件的反馈,这些反馈被称为相关反馈。按照本发明,从用户提供反馈的各个特征被反映到下一次搜索的距离测量中,因此改变了距离测量的条件。

按照本发明,近似层的过滤是利用前t次迭代的信息执行的。Wt,Ci(Wt)和Rt分别表示使用在前t次迭代中的距离测量函数、在这个实施例中通过以前迭代的或者超立方体的近似范围、和利用Wt检索的各个向量。

图2表示用于解释近似层过滤步骤的伪码表。近似层过滤是利用来自前t次迭代的信息执行的。参照图2,按照这种伪码,在近似层过滤期间,第K′个最短的距离是对按照以前的距离测量根据改变的距离测量获得的K个最近邻近特征向量计算的,其中K′是正整数,并且计算的距离被设置为rt+1u(步骤106)。另外,对于按照以前距离测量获得的预定数量的侯选超立方体,根据改变的距离测量计算第K′个最小下边界并设置为Фt+1u(步骤108)。

然后,假设N是近似的特征向量空间中的对象或近似范围的数或者在这个实施例中的表示超立方体的正整数,和i是取值范围为1到N的变量,按照改变的新的距离测量测量在特征向量空间中各个超立方体的下边界的每一个与询问向量之间的距离Li(Wt+1)和在特征向量空间中的各个超立方体的上边界的每一个与询问向量之间的距离Ui(Wt+1)(步骤110)。另外,计算第K′个最小上边界Ф(步骤112)。

接下来,将对应的向量空间中的第i个超立方体的下边界与询问向量之间的距离Li(Wt+1)和在步骤112计算的第K′个最小上边界Ф、rt+1u和Фt+1u的最小值min(Ф,rt+1u,Фt+1u)进行比较(步骤114)。如果距离Li(Wt+1)小于或等于最小值min(Ф,rt+1u,Фt+1u),则相关的超立方体被设置为侯选超立方体(步骤116),否则排除相关的超立方体(步骤118)。

参照图2中的伪码202,确定在对应的向量空间中的第i个超立方体与询问向量之间的距离Li(Wt+1)是否小于所有第K′个最小上边界Ф,rt+1u和Фt+1u,并且选择相关超立方体Pi作为侯选超立方体,如伪码204所示。参照伪码206,如果满足表示在伪码202的各个要求,则相关超立方体Pi被选择作为侯选立方体,并且参照Ui(Wt+1)更新上边界Ф(步骤120)。

接下来,假设N是一个表示数据库中对象或者立方体数的正整数,确定i是否达到N(步骤124),并且如果i未达到N,则重复步骤114-124,直至对所有N个超立方体都执行了近似层过滤。

按照上述方法,对于将被设置为侯选超立方体的一个超立方体,该超立方体必须满足由诸如伪码202之类的以前距离测量信息确定的新的要求。因此,用于选择侯选超立方体的各个要求受到进一步限制,因此降低了选择的侯选超立方体的数量。

然后,执行数据层过滤。在该过滤期间,执行在侯选超立方体中的所有特征向量的每一个与询问向量之间的距离测量(步骤126),以取决于在步骤126执行的距离测量的结果,确定K′个最接近的邻近向量作为边界特征向量,从而完成了搜索(步骤128)。在这种情况下,减少了侯选超立方体的数量,而这种减少降低了在测量各个侯选超立方体中的所有特征向量的每一个与询问向量之间的距离的计算复杂性。因此,当搜索具有特征类似于询问向量的特征向量时,可以改善搜索速度。

也就是说,按照所述的搜索方法,降低了可变距离测量中的侯选近似范围的数量,因此改善了搜索速度,并且如果包括新的近似范围,则可以快速更新数据库。

虽然已经参照特征向量空间被分割为各个超立方体并作了近似的例子对本发明的优选实施例进行了描述,但是本发明还可以应用到由其它公知的诸如R-树、R*树、SR-树和X-树之类的索引结构进行索引的特征向量空间。本专业的技术人员将理解,在不脱离由所附的权利要求书所限定的本发明的精神和范围的情况下,本发明从形式和细节上可以作出各种改变。

按照本发明的搜索方法可以被写为个人或服务器计算机上执行的程序。程序码和构成程序的码段可以很容易地被工业界的程序员推断。另外,程序可以被存储在计算机可读介质中。记录介质包括磁记录介质、光记录介质和射频介质。

按照本发明,近似范围的数量在变化距离测量期间被降低,这样改善了搜索速度。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号