首页> 中国专利> 对象识别特征的基于不变量的维数缩减、系统和方法

对象识别特征的基于不变量的维数缩减、系统和方法

摘要

描述了一种传感器数据处理系统和方法。设想的系统和方法从表示处于第一环境状态的对象的第一数据集导出对象的第一识别特点。然后从表示处于第二环境状态的对象的第二数据集导出对象的第二识别特点。该传感器数据处理系统和方法然后识别新表示空间中的第一识别特点和第二识别特点的元素映射。该元素映射满足用于相应元素的变化准则,其允许将映射用于对象识别。本文所述的传感器数据处理系统和方法提供在计算上高效且可以由当前可用的移动电话技术实时地执行的新对象识别技术。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-13

    授权

    授权

  • 2017-03-22

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20150219

    实质审查的生效

  • 2017-02-22

    公开

    公开

说明书

相关申请的交叉引用

本申请要求2015年2月19日提交的美国申请序号14/626,706的优先权,其要求2014年2月19日提交的美国临时申请61/941,989的优先权。美国申请14/626,706、美国临时申请61/941,989以及包含在本文中的所有其它外来材料被整体地通过引用结合到本文中。

技术领域

本发明的领域是对象识别技术。

背景技术

以下描述包括在理解本发明时可能有用的信息。并不承认在本文中提供的任何信息是现有技术或与当前要求保护的发明有关,或者具体地或隐含地提及的任何公开是现有技术。

消费者持续体验到现实世界与在线交互之间的日益模糊的区别。随着现在可用的对象识别技术的到来,消费者现在可以实际上通过其智能电话及其它移动电子设备与现实世界的对象相交互。例如,消费者可经由其蜂窝电话来捕捉电影海报的图像。作为响应,蜂窝电话可以构造覆盖在蜂窝电话的显示器上的增强现实交互或游戏。事实上,本申请已经通过由DreamPlayTM实现的其技术而开拓了此类技术(参见URLwww.polygon.com/2013/1/9/3851974/disney-dreamplay-ar-app-disney-infinity)。尝试提供类似体验的其它技术包括以下各项:

·(参见URL www.layar.com),

·BlippAR.comTM(参见URL>

·13th Lab(参见URL www.13thlab.com)。

遗憾的是,此类技术在范围上受到限制,并且通常只能每次识别单个对象(例如,单个玩具、单个人、单个图形图像等)。另外,消费者必须相对于感兴趣对象将其蜂窝电话定位成正确的位置或取向,然后在检索吸引人的内容之前等待其蜂窝电话分析图像信息。理想地,消费者应能够非常快速地使用与感兴趣对象相关联的内容,并且应能够同时地使用许多对象。上文提到的公司未能提供此类特征。

可以通过从图像数据导出的描述符来识别在图像数据中表示的对象。示例性描述符包括从诸如SIFT、FAST、DAISY或其它图案识别算法之类的算法生成的那些。可以考虑某些描述符来表示例如多维数据对象、矢量或直方图。然而,描述符的维度不一定具有等价的对象辨别能力。主成分分析(PCA)可以提供统计识别,其描述符维度对于表示训练数据集而言是最重要的。遗憾的是,PCA未能提供对每个维度的辨别力的洞察或识别描述符的哪个维度将相对于环境参数(例如,照明、焦距、场深等)具有更大的辨别力。同样地,必须在每个实例中处理每个维度以确定辨别特征。

1995年9月29日提交的授予Pao的美国专利5,734,796“Self-Organization ofPattern Data With Dimensional Reduction Through Learning of Non-LinearVariance-Constrained Mapping”提供了用于以计算高效的方式将大量多特征图案数据(例如,化学特性信息)可视化的系统和方法。该过程涉及到使多特征图案数据经受使用多层前馈神经网络从原始表示到缩减维度中的一个的非线性映射。虽然在某些方面是有利的,但Pao未能认识到可以在不同的条件下在受控环境中获取数据以凭经验来识别可以缩减或忽视的维度。

1998年9月4日提交的授予Kuhn等人的美国专利6,343,267“DimensionalityReduction For Speaker Normalization and Speaker and Environment AdaptationUsing Eigenvoice Techniques”描述了用于用最初扬声器独立识别系统进行的语音识别的背景下的扬声器归一化的技术。该技术使得扬声器独立识别系统能够在不要求大量训练数据的情况下快速地达到扬声器相关系统的性能水平。该技术包括用以使用维数缩减来分析扬声器模型数据的大型集合的一次性计算密集步骤。然后,可以对新扬声器使用计算廉价操作以产生用于新扬声器的适应模型。像Pao一样,Kuhn未能认识到可以在不同的条件下在受控环境中获取数据以凭经验来识别可以忽视的维度。

某些参考文献设想在成像和图像分析的背景内控制数据获取环境。例如,2004年12月10日提交的授予Kasai的美国专利7,418,121“Medical Image Processing Apparatusand Medical Image Processing System”描述了一种通过自定义检测条件来更新其训练数据的医疗诊断成像处理系统。更新训练数据的目的是增强系统在专业化医疗领域内的诊断能力。Kasai未能描述修改检测条件以凭经验来识别可以被忽视的数据集内的维度以改善用于图像处理的计算效率。

2009年12月8日提交的授予Shao等人的美国专利8,565,513“Image ProcessingMethod For Providing Depth Information and Image Processing System Using theSame”描述了一种通过捕捉场景或对象的不同视角来估计2D图像中的场景或对象的深度的方法。Shao未能认识到可以使用对象的不同视图来凭经验识别对于图像识别处理而言不那么相关的图像描述符。

在由Soatto在2009年10月的Proceedings of the International Conferenceon Computer Vision中出版的出版物“Actionable Information in Vision”(参见URLvision.ucla.edu/publications.html)中,Soatto叙述了可以控制数据获取过程(他将其称为“受控感测”)以抵消损害的效果。Soatto未能讨论出于凭经验识别可以缩减(例如,忽视)的维度的目的而控制数据获取环境的参数和/或属性。

对象识别技术可能是计算上昂贵的。其中对象识别可能对用户最有用的环境常常是其中可用于对象捕捉和识别的设备具有有限资源的环境。例如,移动设备常常缺乏大型计算机或服务器的计算能力,并且网络能力常常并未快到足以提供适当的替代。因此,随着对象识别技术的每次执行而处理每个维度以实现辨别可能引起执行中的等待时间,尤其是在多个对象的情况下和/或在计算弱的计算设备中。对于某些应用程序而言,诸如增强现实游戏应用程序,此等待时间可能使得应用程序不可用。上述参考文献中没有一个提供了涉及到凭经验识别可以忽视的维度的准确且计算上廉价的对象识别技术。因此,仍需要对常规对象识别技术加以改进。

本文中的所有出版物被通过引用结合到本文中,达到如同每个单独的出版物或专利申请被具体地且单独地指示为被通过引用结合一样的程度。在结合的参考文献中的术语的定义或使用与在本文中提供的术语的定义不一致或相反的情况下,适用在本文中提供的术语的定义,并且参考文献中的该术语的定义不适用。

发明内容

本发明主题提供了其中传感器数据处理系统在不需要密集计算的情况下提供对象识别能力的设备、系统和方法。该传感器数据处理系统包括一种受控感测环境,其具有可配置环境参数(例如,照明、对象取向、相机设置、焦距、分辨率、场深等)。每个环境参数具有一个或多个可配置属性。例如,如果环境参数是照明,则相应一个或多个属性可以是100lux、与光源相距2米、120瓦白炽灯泡等。受控感测环境在对象训练时间是可用的,但对于传感器数据处理系统在不训练时识别对象而言并不是必需品。

该传感器数据处理系统还包括图像处理引擎。在某些实施例的一个方面,该图像处理引擎包括处理器,其在功能上与非临时电子存储介质耦合并能够执行存储在其中的一组可执行指令(例如,软件代码)。该可执行指令被配置成分析传感器数据(例如,图像数据)并以与已知对象识别方法和系统相比要求最少计算资源的方式识别传感器数据中的对象。在某些实施例的另一方面,可执行指令另外可以被配置成以尺度不可变方式识别传感器数据中的对象。

在某些实施例的其它方面,可以将可执行指令组织成执行不同步骤或功能的模块。在此类实施例中,图像处理引擎可以包括从传感器获得第一训练数据集的特点(trait)识别模块。例如,特点识别模块可以从相机接收第一图像信号。第一训练数据集表示受控环境内的定义环境状态下的至少一个对象。特点识别模块被配置成根据特点提取算法而从第一训练数据集导出第一识别特点。第一识别特点表示描述对象的特征或性质的多个元素。

一旦导出了第一识别特点,可以调整或修改受控成像环境中的环境参数中的一个或多个及其相应环境属性以创建新环境状态(例如,第二环境状态)。该调整可以由用户手动地或者由图像处理引擎的环境配置模块自动地发生。

特点识别模块被配置成获得第二训练数据集,其表示受控环境内的新环境状态下的对象。使用第二训练数据集,特点识别模块可以根据特点提取算法导出新识别特点。该新识别特点表示描述新环境状态下的对象的特征或性质的第二多个元素。特点识别模块还被配置成导出或者另外确定第一特点与新特点之间的对应关系。

图像处理引擎还具有映射模块,其被配置成识别将第一识别特点的元素和新识别特点的元素映射到新表示空间的映射。由映射模块识别的映射满足跨第一训练集和第二训练集的特点中的相应元素之间的特点元素变化准则。映射模块可以进一步被配置成将该映射存储到存储器中。

本发明主题的方法和过程可以用来减少与对象识别相关联的计算负荷,并且同样地改善识别本身的质量和速度而不必增加计算能力,这进而针对在计算有限环境中或者要求最小等待时间以适当地运行的应用增加了对象识别的可行性。

根据优选实施例的以下详细描述以及其中相同附图标记表示相同部件的附图,本发明主题的各种目的、特征、方面和优点将变得更加显而易见。

附图说明

图1A是传感器数据处理系统的示意图。

图1B是示出多个环境状态的图1A的传感器数据处理系统的示意图。

图2是第一环境状态中的对象的图像。

图3A是具有突出显示的识别特点的图2的图像。

图3B是具有突出显示的第一识别特点的图3A的图像。

图4是第二环境状态中的图2的对象的图像。

图5是具有突出显示的第二识别特点的图4的图像。

图6是传感器数据处理系统的另一实施例的示意图。

具体实施方式

遍及以下讨论,将进行关于服务器、服务、接口、引擎、模块、客户端、对端、门户、平台或由计算设备形成的其它系统的许多参考。应认识到的是此类术语的使用被认为表示具有被配置成执行存储在计算机可读有形、非临时介质(例如,硬驱、固态驱动器、RAM、闪存、ROM等)上的软件指令的至少一个处理器(例如,ASIC、FPGA、DSP、x86、ARM、ColdFire、GPU、多核处理器等)的一个或多个计算设备。例如,服务器可以包括一个或多个计算机,其以将履行所述角色、职责或功能的方式充当网络服务器、数据库服务器或其它类型的计算机服务器。应进一步认识到的是公开的基于计算机的算法、过程、方法或其它类型的指令集可以被体现为计算机程序产品,其包括存储促使处理器执行公开步骤的指令的非临时、有形计算机可读介质。各种服务器、系统、数据库或接口可以使用标准化协议或算法来交换数据,可能基于HTTP、HTTPS、AES、公钥-私钥交换、网络服务SPI、已知金融交易协议或其它电子信息交换方法。可以通过分组交换网、因特网、LAN、WAN、VPN或其它类型的分组交换网来执行数据交换。应认识到的是本发明主题提供了许多技术效果,诸如用于三维对象识别的系统和方法。

如本文所使用的,对计算装置、模块、引擎、处理器和/或任何其它组件“被配置成”和“被编程为”执行指令以执行本发明主题的步骤和功能的参考被可互换地使用,并且意图指代一个或多个计算装置、处理器、引擎、模块或其它硬件计算组件具有被加载以用于执行的指令。

以下讨论提供了本发明主题的许多示例性实施例。虽然每个实施例表示本发明元素的单个组合,但认为本发明主题将包括公开元素的所有可能组合。因此,如果一个实施例包括元素A、B和C,并且第二实施例包括元素B和D,则也认为本发明主体将包括A、B、C或D的其它剩余组合,即使并未明确地公开。

图1A示出了传感器数据处理系统100的概观。系统100包括图像处理引擎150,其与一个或多个传感器108通信耦合,并且被编程为从在受控感测环境110内的一个或多个传感器108接收传感器数据130。

可以将受控感测环境110视为在其内部传感器108可以感测、检测或者另外感知对象101的环境。受控感测环境110包括多个可控或可调整环境参数103。环境参数103中的至少某些能够影响环境110内的对象101如何被一个或多个传感器108感知或者另外感测。每个环境参数103可以具有进一步定义各参数(为其提供值)的一个或多个环境属性104。

环境参数103和相应属性104的示例包括照明性质,诸如光温的类型(例如,开尔文测量)、光源(例如,室内照明、室外照明、白炽灯、荧光灯、灯泡瓦特数等)、光强(例如,勒克斯测量)、相对于对象的照明位置(例如,在对象之上、在对象前面等)、光源与对象的距离以及光类型(例如,自然、窗口、闪烁、环境、其组合、浅色等)。进一步设想环境参数103可以包括时间(例如,持续时间或时间长度、采样或分析频率、经由使传感器数据重放减慢或加速的时间的失真等)。这允许分析动态且随时间而变的环境内的对象,诸如用心搏的医学成像。

环境参数103和属性104的其它示例可包括传感器108的传感器模式和/或传感器性质。例如,传感器108可以包括图像传感器(例如,CCD传感器数字式相机、CMOS传感器数字式相机、热成像或红外相机)、音频换能器(例如,扩音器、声学谐振质量传感器、声学响应测量、声学性质等)、嗅觉传感器或能够产生适合于识别对象的唯一数据集的任何其它传感器。由于环境参数103和属性104可以包括传感器模式和/或性质,所以受控感测环境110不限于对象101常驻于其内部的物理环境,而且扩展至包括传感器108的受控参数和可以影响传感器108的其它非物理参数。

当传感器是图像传感器(诸如数字式相机)时,环境参数103和属性104的示例可包括相机设置和性质,诸如光圈尺寸(例如,f/1.4、f/2、f/2.8、f/4、f/5.6、f/8等)、快门速度或曝光时间(例如,1/2000秒、1/250秒等)、胶片感光度(例如,ISO 100、ISO 400、ISO 3200等)、闪光设置、分辨率设置(例如,1.3兆像素、2.1兆像素、5.0兆像素等)、图像帧速率(例如,20FPS、30FPS、60FPS等)、视频纵横比(例如,4:3、16:9等)、拍摄模式(例如,全自动、手动、光圈优先、快门优先等)、相机类型以及镜头类型。

当传感器108是音频传感器时,环境参数可以包括音量、振幅、声音吸收、节距、持续时间、语音识别参数(例如,模式、音调等)、频率、对象移动方向、相位等。

环境参数103和相应属性104还可包括数据通信性质,诸如通信类型(例如,有线、无线、光纤线缆、以太网线缆等)、通信协议(TCP/IP等)以及通信信号完整性(例如,信号强度、网络等待时间等)。针对无线信号,环境参数103及其属性104还可以包括能影响信号传输的环境的各方面,诸如环境内的对象的尺寸和数目(例如,房间中的人数)、环境的形状、存在于环境中的材料(包括环境内的对象的材料)、反射率、吸收等。

环境参数103和关联属性104的其它示例可以包括天气性质(例如,风速、湿度、%阴天、海拔、大气压力)、重力、磁场强度、电场强度以及物理环境的其它性质。另外,环境参数103和属性104可以包括对象101的对象性质,诸如形状、与传感器108的距离、相对于传感器108的取向、视场、表面反射率、纹理、表面糙度、对象色彩、对象尺寸、对象不透明度、对象透明度、对象般透明度、热发射、噪声发射(例如,音量、持续时间等)或对象的任何其它可测量属性。环境参数103和属性104可以进一步包括系统相关差错率和特点提取算法的差错率。

如机敏的读者可以认识到的,存在模态特定的某些环境参数和可以影响多个类型的传感器108的其它参数。同样地,可以使某些环境参数与传感器数据模态相关用于调整(尤其是在覆盖多个模态的多传感器环境中)。例如,照明强度将不会影响音频传感器。同样地,除非具有经由振动而影响相机的量值,音频音量将不会影响由图像传感器捕捉的传感器数据。然而,用于环境内的输出音频(诸如扬声器)的对象的对象取向可以在视觉(即,对象由于其改变的相对于相机的取向而看起来不同)和音频(即,声音在不同的方向上被投射并可以影响扩音器如何检测到它)模态两者方面影响对象的感知。

上文所述的环境参数103和环境属性104的示例并不是穷举列表,而是仅仅出于示例性目的而提供的。如从上述示例看到的,环境参数103(及其相应环境属性104)可包括人类可察觉(例如,照明)和人类不可察觉(例如,信号强度、红外照明)的性质。

在任何给定时间,受控感测环境110将具有环境状态102。环境状态102至少部分地由环境参数103和环境属性104定义。可以将环境状态102视为具有至少某些已知、定义或至少可定义的环境参数103和属性104的环境的状态。另外,在实施例中,这些已知、定义或可定义参数103和/或属性104中的至少某些可以被进一步修改、控制、调整或者另外改变。在某些情况下,环境状态102可以表示在受控感测环境110外部的预期环境状态。

对象101通常是物理现实世界的对象,其具有可以被传感器108感测、检测或者另外感知的至少某些特性或性质。然而,可设想本发明主题可以应用于合成的计算机建模环境。同样地,对象101可以是计算机建模环境内的虚拟对象。在建模环境内,传感器108可以是现实世界传感器在虚拟环境内的模拟,使得其以现实世界相应传感器捕捉被模拟的现实世界环境的传感器数据的相同方式来捕捉(虚拟)对象101的传感器数据。在实施例中,传感器108可以是捕捉虚拟或模拟环境的现实世界传感器(诸如经由显示装置示出虚拟对象的捕捉虚拟环境的图像的相机)。

如图1A所示,图像处理引擎150包括传感器数据捕捉模块151、特点识别模块152和映射模块160。图像处理引擎150可以被体现为存储在一个或多个非临时计算机可读存储器上的计算机可执行指令,其被一个或多个处理器执行以执行本发明主题的功能和过程。在实施例中,图像处理引擎150可以是被具体地硬编码成执行本发明主题的功能和过程的一个或多个硬件处理器。

传感器数据捕捉模块151被配置成从一个或多个传感器108获得或者另外接收传感器数据130。一般地,传感器数据集130表示被传感器108感知的受控感测环境110内的环境条件(即,环境状态102)下的对象101。传感器数据集130的示例可以包括图像数据、视频数据、音频数据、温度数据、大气压力数据、风速数据、湿度数据、压力传感器数据、加速度计数据、生物测量以及由传感器生成的任何其它类型的传感器数据(包括对应于在本文中提到的示例性传感器的传感器数据)。

在模块151获得传感器数据集130之后,特点识别模块152使用传感器数据集130根据特点提取算法而导出识别特点154。特点识别模块152所使用的特定提取算法可以结合一个或多个分类算法、对象识别算法和/或图像处理算法。特点提取算法的示例包括但不限于尺度不变特征变换(SIFT)、加速分段测试特征(FAST)、梯度位置取向直方图(GLOH)、(DAISY)、二进制鲁棒独立基本特征(BRIEF)、快速定向和旋转BRIEF(ORB)、二进制鲁棒不变尺度关键点(BRISK)、快速视网膜关键点(FREAK)。快速鲁棒特征(SURF)、视觉同时定位与地图创建(vSLAM)、同时定位与地图创建(SLAM)以及基于相关序列类型(BURST)。在某些实施例中,特点提取算法可包括自动语音识别算法。其它适当的特点提取算法和技术包括基于边缘的识别技术,诸如在本申请人的题为“Image-Based Feature Detection Using EdgeVectors”的美国临时申请号61/989,445和申请人的题为“Edge-Based Recognition,Systems and Methods”的美国专利申请14/623,341中描述的那些,该两个申请都被整体地通过引用结合到本文中。

识别特点154可以由一个或多个元素(例如,特点的子单元)构成。例如,在某些实施例中,识别特点154可以是诸如SIFT描述符之类的图像描述符。SIFT描述符可以具有128个维度,每个维度都具有值。识别特点154的一个或多个元素可以表示SIFT描述符的128个维度的值。

在某些实施例的另一方面,多个识别特点可以是图像描述符的一个或多个集群(例如,共享某些公共特征或关联的描述符群组)。在某些实施例中,一个或多个集群可表示描述符空间(例如,2D空间、3D空间)内的描述的星座。在某些实施例的另一方面,一个或多个元素可表示描述符位置,其指示描述符相对于描述符空间内的其它描述符的位置。描述符位置还可以是描述符集群的位置(例如,针对特征袋分类模型)。描述符集群可以用来生成特点词汇。下面更详细地讨论该特点词汇。

如上文参考图1A所讨论的,系统100包括受控感测环境110,其环境状态102由环境参数103及其相应环境属性104定义。因此,可以认为对环境参数103和/或属性104(例如值)的改变将定义新环境状态102。图1B提供了图1A的系统100的概观,示出本发明主题的功能和过程的执行期间的受控感测环境110内的两个不同环境状态102a和102b。

如图1B所示,第一环境状态102a和第二环境状态102b每个包括具有其各自相应环境属性104a和104b的各环境参数103a和103b。

环境参数103a和103b一般地将是同一组参数,或者至少包括至少一个公共环境参数,其改变可以在受控感测环境110内被监视和/或控制。因此,环境状态102a和102b之间的差别将是用于为两个环境状态102a、102b所共用的环境参数103a、103b的一个或多个环境属性104a和104b的差异。

图1B还分别地示出环境状态102a和102b内的对象101a和101b。对象101a和101b两者是来自图1A的同一物理对象101。由于对象101存在于不同的环境条件/状态(且可能不同的时间状态)下,并且同样地被传感器108不同地感知。换言之,可以将对象101a视为对象101在环境状态102a的环境条件下被传感器108感知,并且可以认为对象101b是对象101在环境状态102b的(不同)环境条件下被传感器108感知。

如图1B所示,传感器数据捕捉模块151首先接收一组感觉数据130,称为第一训练数据集130a。图2示出第一训练数据集130a的一个示例,即图像200。图像200是环境状态102a下的对象101a的照片。在本特定示例中,对象101是3D玩偶,并且对象101a是由如图2所示的传感器108捕捉的3D玩偶101。如上文所讨论的,环境状态102可以由许多不同的参数103和相应属性104定义,所述相应属性诸如照明、背景色、背景对象、对象101相对于相机108的取向等。针对本说明性示例,将用于环境状态102a的受控感测环境110的环境参数103a(和关联环境属性104a)视为玩偶101a相对于相机108的取向和照明条件(例如,亮度)。

在模块151获得数据集130a之后,特点识别模块152使用数据集130a根据第一提取算法而导出第一识别特点154a,如上文所讨论的。图3A示出具有由特点提取算法在玩偶101a上识别的多个识别特点154的图像200。在图3A的示例中,特点提取模块152所使用的特点提取算法是SIFT。同样地,所示的识别特点154是SIFT关键点(用具有指示取向的辐射线的圆来表示)。这些识别特点154中的一个或多个可以被图像处理引擎150选择为一个或多个第一识别特点154a。识别特点选择为第一识别特点154以便在处理中使用可以取决于描述符的尺寸、取向或识别特点的其它特性。在实施例中,第一识别特点154a可以是用户选择的,诸如通过点击或者另外突出显示图像200内的期望识别特点154。然而,更多有趣的实施例自动地处理特点。

图3B是第一识别特点154a的突出显示示例,其包括落在已经从特点提取算法导出的对象101a的特征158a(例如,玩偶上的绳带)上的一个或多个描述性元素(例如,描述符)。在图像200内,第一识别特点154a的关键点位于图像的(x,y)像素位置坐标处。针对本示例,认为第一识别特点154a的关键点位于图像200的像素位置(376、729)处。

如在本示例中使用的描述符可以被表示为矢量,其具有具体的定义数目的维度,该维度具有相应值(即使该值是零)。在图3B的示例中,所使用的描述符是128维SIFT描述符。同样地,从特点提取模块得到的第一识别特点154a的描述符被认为是{0,0,6,24,13,33,5,0,4,7,58,81,45,128,34,17,140,67,43,4,1,6,20,140,64,14,1,0,0,0,0,41,0,0,0,1,26,40,4,0,16,6,2,7,140,140,29,13,140,27,2,3,20,10,17,93,63,14,2,0,0,0,0,21,0,0,0,10,21,3,0,0,19,1,1,25,140,51,1,7,140,14,1,1,38,17,1,50,63,9,1,0,0,0,0,21,0,0,1,3,7,7,0,0,13,4,3,17,140,42,1,2,140,55,11,3,39,6,2,22,27,20,29,0,0,0,0,6}。

返回图1B,一旦模块152已导出第一识别特点154a,则通过调整受控感测环境110的环境参数103和环境属性104中的一个或多个来创建第二环境状态102b。第二环境状态102b由环境参数103b和相应环境属性104b定义,其中的至少一个不同于环境状态102a的环境参数103a中的一个或多个和/或相应环境属性103中的一个或多个。在本说明性示例中,环境参数103b保持与环境参数103a相同,对应于玩偶101的照明和取向的环境属性104b已从环境属性104a改变。换言之,环境状态102a与环境状态102b的不同之处在于受控感测环境110内的照明环境参数103的环境属性和对象101相对于相机108的取向环境参数103a已改变。

传感器数据捕捉模块151然后从传感器108获得或者另外接收第二训练数据集130b。第二训练数据集130b表示处于第二环境状态102b的对象101b。图4示出第二训练数据集130b的一个示例,即图像400。图像400是处于环境状态102b的对象101b的照片。对象101b是同一3D玩偶101,其被描述为图2中的对象101a。然而,对象101b被相机108以略微不同的方式感知,假定对象101b处于不同的环境状态102b。如在图4中可以看到的,环境状态102b与状态102a的不同之处在于照明条件较暗,并且玩偶101的取向已逆时针方向旋转约45度。

使用训练数据集130b,特点识别模块152导出第二识别特点154b。在此特定情况下,第二识别特点154b是落在对象101b的特征158b上的一个或多个描述符,其是使用特点提取算法导出的。图158b对应于与图3B的特征158a相同的对象101的物理部分(玩偶的绳带的相同部分)。

第二识别特点154b以某种方式(诸如物理或逻辑几何结构)与第一识别特点154a具有对应关系。例如,由于图像200和图像400是在受控背景(例如,受控感测环境110)下获得的,所以模块152可以确定用于每个特点154a、154b的(x,y)坐标,并且分配具有类似(x,y)坐标的特点之间的对应关系,即使两个对应特点可具有非常不同的值。系统100使用此对应关系通过建立不同训练数据集130a和130b之间的共同性或参考基准来分析特点和/或特点元素之间的不变性。

对应关系的另一示例可以包括跨两个环境状态102a、102b位于对象101的同一物理位置处的特点之间的对应关系。如果不存在对象101和传感器108的相对取向方面的变化(包括没有传感器108的变焦或其它空间畸变特征的变化)对应于对象101的特点物理特征的特点154a和154b在对应于训练集130a、130b的两个图像内将处于相同(例或非常类似)的(x,y)像素位置。如果对象101和传感器108的相对取向在环境状态102a和102b之间改变,则可以使用图像识别技术来跟踪图像之间的对象101的特定物理特征的移动。可以用来对两个不同图像之间的物理特征进行相关或跟踪的适当图像识别技术的示例包括在申请人的题为“Depth Estimation Determination,Systems and Methods”的美国专利申请号13/330,883中公开的技术,该申请被整体地通过引用结合到本文中。应注意的是在某些受控环境110中,可以提前生成并已知对象101的模型,使得特点识别模块152可以采用模型来镜像对象101相对于传感器108的取向的变化,并且因此跨多个环境状态跟踪对象101的相同物理特征的位置。

其它设想类型的对应关系可以包括声学对应关系(诸如,从而识别在不同时间说出的说话的同一部分)、比例因数对应关系、传感器数据的模态对应关系(例如,诸如红外图像、RGB图像等图像数据的模态)。

在实施例中,识别特点之间的对应关系可以是在两个不同环境状态之间保持不变的一个或多个环境参数103及其属性104。

图5示出第二识别特定154b的一个示例,其包括已从特点提取算法导出的对象101b的一部分(例如,玩偶上的绳带)的多个描述性元素(例如,描述符)。经由图像处理技术,特点识别模块152可以确定特征128b的图像400内的相应位置(其是与图像200的特征128a相对应的对象101的物理特征),并且使用该位置处的相应关键点和关联描述符作为第二识别特点154b。同样地,在使用玩偶101的说明性示例中,特点154a和154b具有玩偶上的同一物理位置处的对应关系(即使其在图像200、400中的每一个内的各自(x,y)位置是不同的且其描述符是不同的)。

第二识别特点154b的关键点在图5中被示为具有指示取向的辐射线的圆。在本示例中,第二识别特点154b的关键点被认为位于图像400的像素位置(1503,1552)处。与第一识别特点154a一样,第二识别特点154b是128维SIFT描述符。在本示例中,从特点提取模块152得到的第二识别特点154a的描述符被认为是{8,0,0,0,0,1,3,49,4,0,0,0,6,14,8,24,28,0,0,0,2,5,16,140,8,0,0,0,14,30,42,85,8,0,1,3,3,2,3,36,63,3,0,7,12,6,3,24,140,13,0,0,0,3,36,140,29,3,0,0,36,140,100,69,2,0,3,16,4,0,2,17,54,8,1,10,4,2,24,44,140,140,0,0,0,3,7,22,68,140,12,9,82,70,9,10,6,0,0,4,3,1,3,66,4,1,0,0,4,29,43,81,20,139,5,1,17,40,8,2,9,140,87,25,18,2,0,0}。

应注意的是在图3B和图5内所示和与之相关联的关键点和描述符是用以举例说明其根据本发明主题的各方面的使用的典型示例。同样地,这些关键点和描述符的视觉和数据值表示是为了明了起见而提出的且并不意图表示精确值。

映射模块160被配置成识别将特点154a和154b的元素映射到新表示空间的映射162。新表示空间中的元素的映射满足跨第一训练数据集130a和第二训练数据集130b的相应元素之间的变化准则。在某些实施例中,该变化准则是相对于元素中的一个或多个的变化的函数。该变化表示元素相对于已调整环境参数和属性而言有多“不变”。例如,(相对)大的变化意味着元素可能不是不变的,而(相对)小的变化意味着元素凭经验而言是不变的。

因此,为了能够识别用于特点154a和154b的适当映射162,映射模块160首先计算特点154a和154b之间的变化。该变化可以是针对第一识别特点154a和第二识别特点154b两者所共有的单独元素或者总体上针对识别特点154a和154b而计算的(用于每个特点的总分数或值是从用来确定变化的特点的元素计算的)。

继续本说明性示例,第一特点154a和154b的描述符,可以认为元素是描述符的维度。为了找到变化,映射模块160可以将第一识别特点154描述符的每个维度(或小于所有维度的已知位置处的预定义量的维度)与第二识别特点154b描述符的相应维度相比较。

例如,特点154a的描述符的前十个维度是{0,0,6,24,13,33,5,0,4,7,…},且特点154b的描述符的前十个维度是{8,0,0,0,0,1,3,49,4,0,…}。因此,映射模块160将用于特点154a和154b的描述符的相应前十个维度的变化计算为{8,0,-6,-24,-13,-32,-2,49,0,-7,…}。应注意的是可以据正或负值(指示变化的量值以及方向)而言表示用于每个元素的变化,或者替换地,可以简单地表示为变化的绝对值(仅指示变化的量值)。

模块160然后可以通过对变化应用特点元素不变性准则来确定特点154a和154b的一个或多个成对的相应元素(在本示例中为描述符维度)是否可以被认为是不变的。可以将特点元素不变性准则视为定义特定特点元素是否不变的准则。例如,特点元素不变性准则可以是用于特定元素(或总体上用于特点)的阈值变化值,使得从第一特点154a至第二特点154b的大于或等于阈值的元素变化被认为是不同的。相反地,小于阈值的元素的变化被认为是不变的。由于该变化表示值的变化,所以阈值可以仅仅包括元素变化的量值(例如,考虑变化的绝对值)。特点元素不变性准则可以包括跨所有元素均匀的或者对于特点中的元素中的一个或多个而言可以不同的阈值变化值。

继续上述示例,假设特点元素不变性准则针对特点(在本示例中为描述符)的所有元素(维度)而包括“10”的变化阈值。针对特点154a和154b{8,0,-6,-24,-13,-32,-2,49,0,-7,…}的相应元素的变化,在这前10个维度内,映射模块160确定维度1-3、7和9-10是不变的(因为其8、0、6、2、0和7的各自量值小于10的阈值),并且维度4-6和8是变化的(因为24、13、32和49的各量值大于10的阈值)。

当模块160确定一对相应元素是不变的时,可以忽视该对元素(例如,可以对元素的数据集进行维数缩减)以从而减少模块160的计算需求。不同于经由主成分分析的维数减缩(其仅仅从统计观点出发指示哪些维度具有最大或最小变化),模块160通过调整受控数据获取(例如,数据感测)环境中的一个或多个环境参数来凭经验识别或发现不变元素。因此,公开的系统能够发现具有改变环境性质的特点元素变体(或缺少变化)之间的经验关系。在某些实施例中,每次仅调整单个环境参数103和/或属性104以产生第二环境状态102b。通过每次调整一个环境属性104,模块160可以由于识别特点154a和154b的相应元素之间的较小变化而产生更加敏感的映射162。受控感测环境110可以被进一步配置成创建第三、第四至第n环境状态,其具有第三、第四至第n训练数据集,每个集合在已知环境参数调整下提供附加变化以凭经验识别在图像识别过程期间可以忽视的附加不变维度(例如,识别特点的元素)。

在实施例中,可以将模块160编程为在检测到特点154b(或其元素中的一个或多个)的值与特点154a(或与特点154b的那些相对应的其元素中的一个或多个)的值相比的足够大的变化时将传感器数据中的关键点(例如,图像数据中的关键点)标记为用于进一步分析的候选。已标记了这些关键点中的一个或多个,可以将模块160编程为基于此观察变化(dx/dp,及其高阶导数)而执行例程,并且围绕着此关键点探索空间(诸如经由针对其它图像中的新关键点用相应关键点进行的附加变化分析)。

在某些实施例的其它方面,特点元素变化准则可识别跨第一训练数据集130a和第二训练数据集130b的识别特点中的相应元素之间的低变化,其中,低变化根据低变化阈值而操作。另外,特点元素变化准则可以进一步识别跨第一训练集130a和第二训练集130b的识别特点中的相应元素之间的高变化,其中,该高变化根据高变化阈值而操作。

模块160还被配置成将映射162存储在存储器170中。存储器170可以包括非临时电子存储介质,诸如数据库、硬驱、闪速驱动、随机存取储器(RAM)或适合于以电子方式存储数据的任何其它设备。

映射162可以包括元素的维数缩减。另外,映射162可以表示识别特点的元素中的一个相对于已调整环境参数(例如,参数103b中的一个或多个)或已调整环境属性(例如,参数103b的属性104b中的一个或多个)而言的不变性质。替换地或者除不变性质之外,映射162还可以表示识别特点元素中的一个相对于已调整环境参数的变化性质。

在某些实施例中,映射162可以包括从第一识别特点154a和第二识别特点154b的所述多个元素到新多维空间中的多个元素的非线性映射。例如,当第一识别特点154a和第二识别特点154b是相应SIFT描述符时,每个具有128个维度,新多维空间可以包括具有仅30个维度的相应SIFT描述符,该30个维度是相对于已调整环境参数或属性而言的原始128个维度中的最相关维度。作为另一示例,映射162可以包括非线性映射,按照由Vedaldi等人在2011年6月的IEEE中出版的“Efficient Additive Kernels via Explicit Feature Maps”中描述的技术,其将特征变换到新多维空间,使得可以以与非典型方法相同的效力水平应用线性分类算法。在其它方面,可以将此类非线性映射提供为用于对象分类引擎(例如,图6中的引擎620)的可选预处理步骤。

在其它方面,映射162可以包括从第一识别特点154a和第二识别特点154b的所述多个元素到新不变空间中的所述多个元素的线性映射。更简单地,映射162可以包括查找表。

在某些实施例的另一方面,映射162可以包括基于新识别特点(例如,第二识别特点156)的现实世界环境的推断状态。从另一观点看,映射162可以用来基于观察的特点(例如,描述符等)推断环境状态或条件。例如,当在移动智能电话中采用系统100时,系统100可以推断环境条件的一个或多个方面,诸如照明条件、视点、相机信息等。可以基于测量的环境参数来推断上下文。基于上下文,可以选择拟合上下文的相应溢出树,使得查找表可以比在整个溢出树被连续地遍历的情况下更快速地执行。

图6示出了传感器数据处理系统600。系统600类似于系统100,只是系统600另外包括特点词汇引擎610(和关联存储器171)和对象分类引擎620(具有关联的已知对象数据库172)。

引擎610被配置成根据从数据集130a和/或数据集130b导出的描述符集群来生成特点词汇。引擎610还被配置成将特点词汇保存在存储器171上。可以将特点词汇视为相关描述符的集合,被组织成蜂窝并根据标识符编索引。在申请人的题为“Global VisualVocabulary,Systems and Methods”且被整体地通过引用结合到本文中的美国申请号14/622,621中讨论了用于生成特点词汇的适当技术。特点词汇可以包括用于特定域的全局词汇或跨域的全部通用词汇。因此,应注意的是用于特定域的全局词汇可能改变,而通用词汇很可能保持不变,即使添加了新训练数据。因此,用于特定对象(例如,玩偶)的特点词汇中的单词可能改变,但全局词汇不会。

特点词汇可以包括表示识别特点的词汇原子或“单词”的全集(例如,特点词汇可以是图像描述符的词汇)。特点识别模块152可以使用特点词汇来导出识别特点154a和/或识别特点154b,其中,特点154a和/或154b的元素包括词汇的原子。另外,识别特点中的一个或多个还可包括在输入数据(例如,数据集130a和/或数据集130b)中发生的词汇元素的分布/直方图。以这种方式,第一识别特点154a和第二识别特点154b将与词汇原子或“单词”中的至少一个相关联。

另外,映射模块160可以被进一步配置成当识别映射时定义新词汇,使得相对于新词汇的识别特定在两个训练集之间最低限度地不同。

在某些实施例中,词汇原子的全集可以包括至少一个集群形状特点。例如,集群是表示落在簇(例如,3D形状的表面)上的识别特点的元素(例如,SIFT描述符的维度)的一组原子。词汇原子的集群可以包括落在定义识别特点的子集的多个簇上的集群的许多子集。在实施例中,集群形状特点可以是拟合到集群的分布。

系统600与系统100的不同之处还在于其包括对象分类引擎620。对象分类引擎620被配置成基于识别特点154a和识别特点154b中的至少一个将对象101分类为对象类型。引擎620可以被进一步配置成将识别特点154a或识别特点154b与对象类型一起存储在已知对象数据库172中。数据库172包括已知对象和对象识别特点的库。数据库172还包括特点至对象映射或对应关系,其可以用来训练区别性或生成分类器(例如,随机森林、支持向量机(SVM)、神经网络、Boosting(提升)等)。然后一旦从对象提取至少一个识别特点(例如,第一识别特点154a),就可以使用分类器来代替数据库172以确定对象身份。

应注意的是图1和图6仅仅分别地是系统100和系统600的概念表示,并且不一定暗示任何特定硬件架构或配置。例如,本领域的技术人员将认识到图6中的引擎610可以包括与引擎150分开的硬件和软件。替换地,引擎610和150可以共享资源,并且引擎610甚至可以包括引擎150内的模块。另外,存储器170和171可以存在于单个设备上,或者可以替换地一起跨多个设备分布。对于系统100和系统600而言可以有各种系统架构,其可包括分布式处理、LAN至WAN联网、虚拟数据库、云计算、云存储以及许多其它配置。系统100和600的特定架构不应局限于任何特定配置,除非在权利要求中具体地叙述或者另外具体地说明。

可设想的是除为了感测物理对象101之外,可以将系统100(以及系统600)结合到单个设备中,诸如智能电话或包括诸如相机之类的传感器108的其它计算设备。由于规定环境状态102的环境参数103(和关联属性104)可以包括传感器及其它设备参数,所以受控环境110可以是由此只有与设备相关联的参数(和属性)是能够被控制和修改的那些参数的环境。在本示例中,存在对特定环境的有限控制。

在另一示例中,受控感测环境110可以是相对于传感器108的完全受控环境,诸如由此可以紧密地控制和修改所有照明参数、被成像的对象101的位置、被成像的对象101的外观、背景图像(例如,绿色屏幕、全白或全黑背景等)、相机设置、传感器捕捉持续时间、会话持续时间及其它环境参数103(环境内的环境参数103本身的存在以及那些参数103的属性104两者)的演播室。

可以认为受控环境110包括多个维度(例如,不同的环境参数103)。同样地,在其中由图像传感器108捕捉的图像具有描述环境110的相应属性-值对(如上文所讨论的,该相应对是定义并描述即时环境状态102的参数103-属性104对)的时刻。通常,认为这些参数是相互正交的,因为与参数103相关联的一个属性104的修改不会导致另一参数103的属性104的变化。例如,在上文所讨论的说明性示例中,照明的变化不改变对象110的取向。无论如何,根据所使用的描述符类型,可以认为超过一个维度在影响描述符的结果得到的值方面是相关的(对描述符的影响是基于特定描述符的性质)。例如,改变两个环境维度(即,环境参数103的属性104)可能与DAISY描述符不同地影响SIFT描述符。在实施例中,映射模块160可以被编程为采用潜在变量模型(诸如因数分析、潜在Dirichlet分配(LDA)、概率潜在语义分析(pLSA)、高斯过程潜在变量模型等)来识别用于每个描述符类型的这些相关,并且然后映射变化在不同的对象识别算法之间如何不同和其在环境条件的各种变化下如何表现。

如在本描述中和遍及随后的权利要求所使用的,“一”、“一个”和“该”的意义包括复数参考,除非上下文清楚地另外规定。并且,如在本文中的描述中所使用的“在...中”的意义包括“在...中”和“在...上”,除非上下文清楚地另外规定。

本文中的值范围的叙述仅仅意图充当单独地提及落在该范围内的每个单独值的简写方法。除非在本文中另外指明,每个单独值被结合到本说明书中,如同其在本文中被单独地叙述一样。可以按照任何适当的顺序来执行本文所述的所有方法,除非在本文中另外指明或者很明显与上下文矛盾。在本文中相对于某些实施例提供的任何和所有示例或示例性语言(例如“诸如”)的使用仅仅意图更好地举例说明本发明,而不对另外要求保护的本发明的范围施加限制。不应将本说明书中的语言理解为指示对于本发明的实施而言必不可少的任何未要求保护要素。

不应将在本文中公开的本发明的替换元素或实施例的分组理解为限制。可以单独地或与在本文中使用的群组的其它成员或其它元素的任何组合的方式提及并要求保护每个群组成员。由于方便和/或取得专利的可能性的原因,可以将群组的一个或多个成员包括在群组中或者从群组删除一个或多个成员。当任何此类包括或删除发生时,在本文中认为本说明书将包含被修改的群组,因此满足在所附权利要求中使用的所有Markush群组的编写描述。

如本文所使用的,并且除非上下文另外规定,术语“被耦合到”意图包括直接耦合(其中被相互耦合的两个元件相互接触)和间接耦合(其中至少一个附加元件位于两个元件之间)两者。因此,术语“被耦合到”和“与...耦合”被以同义词方式使用。

对于本领域的技术人员而言应显而易见的是在不脱离本文中的发明概念的情况下可以有除所述那些之外的更多修改。因此本发明主题并不受到除在所附权利要求的精神中之外的限制。此外,在解释本说明书和权利要求两者时,应以根据上下文的最宽泛可能方式来解释所有术语。特别地,应将术语“包括”和“包含”解释为以非排他性方式指代元件、部件或步骤,指示提及的元件、组件或步骤可与并未明确提及的其它元件、部件或步骤一起存在或被利用或被组合。在说明书权利要求提及选自由A、B、C...和N组成的组的某些东西中的至少一个的情况下,应将原文解释为仅要求来自该组的一个元素,而不是A加N或B加N等。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号