首页> 中国专利> 失焦状况下的对象检测和识别

失焦状况下的对象检测和识别

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种智能对焦技术包括识别数字图像中诸如脸部之类的感兴趣对象。应用被训练以将对焦和未对焦的脸部进行匹配的对焦通用分类器链和/或接受来自于脸部追踪模块的数据。多个对焦特定分类器链得以被应用，包括被训练以对实质上失焦的脸部进行匹配的第一链，以及被训练为对略微失焦的脸部进行匹配的第二链。使用MEMS分量对焦点位置进行快速调节。

著录项

公开/公告号CN103052960A

专利类型发明专利
公开/公告日2013-04-17

原文格式PDF
申请/专利权人数字光学欧洲有限公司;
展开▼

申请/专利号CN201180038838.4
发明设计人 A·卡帕塔;S·佩特雷斯酷;P·比焦伊;P·科科伦;
展开▼

申请日2011-11-11
分类号G06K9/00;
代理机构北京市金杜律师事务所;
代理人王茂华
地址爱尔兰戈尔韦
入库时间 2024-02-19 19:02:27

法律信息

法律状态公告日

法律状态信息

法律状态
2017-10-24

授权

授权
2015-02-04

著录事项变更 IPC(主分类):G06K9/00 变更前: 变更后: 申请日:20111111

著录事项变更
2013-12-04

实质审查的生效 IPC(主分类):G06K9/00 申请日:20111111

实质审查的生效
2013-04-17

公开

公开

说明书

技术领域

本发明涉及失焦状况下的对象（例如脸部）检测和识别。

背景技术

数码相机中的脸部检测涉及标识出图像内对应于脸部的子窗口或区域或像素群组。Viola-Jones在US2002/0102024中提出了用于在诸如数码静态相机、相机电话或视频录影机之类的数字图像获取设备内实施脸部检测的最早的可行技术之一。Viola-Jones是基于由一系列顺序特征检测器所构成的分类器链。该分类器链拒绝并不表示脸部的图像模式而接受表示脸部的图像模式。

其它方面的脸部识别涉及标识出图像内候选子穿孔中的个体。脸部识别过程中的问题在于，具有相似对焦状况的脸部趋向于在“脸部空间”中被聚集在一起。例如，甚至不同个体的失焦脸部的属性在脸部空间内也趋于具有比良好对焦的脸部更为相似的值/特征。这样，就难以对相同人员的图像进行正确聚类。

期望能够检测并识别脸部，以及实际上在图像内失焦的其它对象。还期望拥有一种方法来对脸部或其它对象上的焦点进行归一化（normalize），例如以便在脸部/对象识别和/或其它应用中使用。

假设对象与数码相机或相机电话、视频相机或者其它支持相机的设备或图像获取设备处于不同距离，则对焦在数字摄像行业是一个众所周知的问题。诸如扩展场深度之类的解决方案确实解决了该问题，但是仅是部分地确保了接近的对象在相机对焦至无限远（深焦）仍然清晰。期望拥有一种有效的技术来对原本具有失焦对象的数字图像进行处理。

发明内容

根据本发明的方法和装置在所附权利要求中进行限定。

本发明的实施例使用用于多对象对焦的分类器链和MEMS而提供了快速的自动对焦。

附图说明

现在将参考附图通过示例对本发明的实施例进行描述，其中：

图1A-图1B图示了依据本发明实施例的方法。

图2图示了依据本发明备选实施例的方法。

图3A-图3E图示了依据某些实施例的另外的技术。

具体实施方式

本发明的实施例在包括MEMS（或类似）技术的数字图像获取设备中实施，该技术允许对焦点进行快速改变。MEMS技术可以如美国专利7,769,281,7,747,155,7,729,603,7,729,601,7,702,226, 7,697,834,7,697,831,7,697,829,7,693,408,7,663,817,7,663,289, 7,660,056,7,646,969,7,640,803,7,583,006,7,565,070,7,560,679, 7,555,210,7,545,591,7,515,362,7,495,852,7,477,842,7,477,400, 7,403,344,7,359,131,7,359,130,7,345,827,7,266,272,7,113,688和/或 6,934,087中任一项所阐述。

这样的系统能够捕获和/或存储在相对短的时间量中所捕获的图像的有限序列。

本发明的特定实施例被实施为提供脸部（或其它感兴趣对象）检测（和/或追踪）信息的数字图像获取设备中的嵌入式组件。如介绍中所提到的，特别地通过对脸部分类器进行训练所进行的脸部检测已经得到了本申请专利权人和他人的广泛研究和开发，并且因此并不在这里进一步讨论。

在某些实施例中，系统捕获图像序列，该图像序列以最初的一个开始随后为与视场中所检测的感兴趣对象（脸部）的数目相等的多个图像。最初的基准、预览或后期查看图像的捕获可以包括利用图像获取设备的缺省设置所捕获的初始图像，例如对焦在主要要素（例如，背景、某个对象、某个脸部）上的图像。

可以执行感兴趣对象的图像序列捕获。对于随后的图像而言，从所检测脸部（或对象）集合的特征确定焦点，并且这将在下文中更为详细地进行描述。在不同对焦位置所捕获的多个图像可以被保存在一起，这为用户或编程设备提供了在后期在它们之间进行选择或融合或者在设备中进一步进行处理以提供单个多对焦（multi-focused）图像的可能性。

WO2008108112公开了一种包括获取数字图像的脸部照明归一化方法，该数字图像包括显现为被不均衡照明的脸部。一个或多个不均衡照明分类器程序被应用于脸部数据以确定脸部在数字图像内的呈现和/或脸部的不均衡照明状况。该不均匀照明状况可以被校正以由此生成经校正的脸部图像，其显现为具有更为统一的照明例如以增强脸部识别。

WO2008107112的方法可以被应用于对焦状况。在对焦状况的情况下，例如可以将分类器用于（1）清晰对焦的对象（脸部），（ii）稍有失焦的对象（脸部），和（iii）严重失焦的对象（脸部）。

图1A-图1B图示了示例性的详细工作流程。在已经获取了包括景象中的感兴趣目标的给定景象图像和所标识出的一个或多个子窗口的情况下，该工作流程从步骤802进行。该子窗口例如可以通过运行第一作为一般对象检测器的分量而使用较高级、较简单或松散的分类器在图像内从头开始确定。这些分类器无法与感兴趣对象内较为精细的特征相匹配，并且因此它们对对焦和未对焦对象都提供良好匹配。在一个优选实施例中，这些分类器为Haar分类器。备选地，可能已经从之前所获取的图像对子窗口进行了追踪。

在802，利用准确对焦分类器集合（例如，使用3-5个分类器）对包含诸如脸部之类的对象的给定子窗口进行测试。如果在804确定了累积概率高于第一阈值，则在806确定诸如脸部的对象是准确对焦的，并且该过程利用该完整分类器链继续进行。如果确定了累积概率低于第二阈值（其甚至低于第一阈值），则在812确定子窗口不包含脸部，并且该过程经由864返回至802，在那里对下一个感兴趣对象（脸部）进行测试。如果在808确定了累积概率高于第二阈值，但是低于804的第一阈值，则在810认为子窗口仍然可能是脸部，但是并不是准确对焦的脸部。因此，在814应用下一个失焦的具体部分分类器集合。

虽然在步骤814利用稍有失焦的分类器集合（例如，使用3-5 个分类器）对子窗口进行测试，但是分类器可以以任意顺序加以应用。如果在816确定了累积概率高于第一阈值，则在818确定脸部稍有失焦，并且该处理利用该完整的分类器链继续进行。如果在820 认为累积概率处于第一阈值和较低的第二阈值之间，则在822确定该子窗口仍然可能包含脸部，但是是稍有失焦的脸部，并且因此该过程移动至826以便应用下一个失焦的具体部分分类器集合。如果认为累积概率小于第二阈值，则在824确定子窗口不包含脸部，并且该过程通过864回到下一个子窗口和802。

在826，利用明显失焦的部分分类器集合（例如，使用3-5个分类器）执行子窗口的测试。如果在828确定了累积概率高于第一阈值，则确定脸部为明显失焦并且在830利用该完整分类器链继续该过程。如果在832累积概率低于第一阈值但是高于较低的第二阈值，则在834确定子窗口仍然可能包含脸部，虽然不是明显失焦的脸部，并且该过程因此移动至838和图1B以在存在的情况下应用下一个失焦的具体部分分类器集合。如果在832认为累积概率高于第二阈值低于828所指示的第一阈值，则在858仍然认为子窗口可能包含脸部，虽然不是清晰对焦的脸部也不是稍有失焦的脸部也不是明显失焦的脸部，并且因此现在在862应用具体部分分类器集合配对。这是因为此时窗口还没有在其第一阈值通过任何对焦状况的具体分类器，而是已经被拒绝作为脸部。因此，可能的情形是子窗口包含有对焦状况类型的组合所表示的脸部。因此，可以首先应用两个最高概率的阈值来确定其是否处于清晰对焦和稍有失焦之间，或者处于稍有失焦和明显失焦之间，或者可能比明显失焦更为严重地失焦，或者可能比清晰对焦更好地对焦，随后应用多个完整分类器集合来确定其是否作为脸部区域而留存。如果在832认为累积概率低于第二阈值，则在860，认为子窗口不包含脸部并且过程通过864 移动至802来到下一个图像子窗口。

在分类器到达步骤806并且随后确认脸部准确对焦的情况下，图像或图像子窗口可以被存储。在分类器到达步骤818或者步骤830 并且因此确定脸部严重或稍有失焦的情况下，则对焦系统可以被调整以获取包括感兴趣对象更好对焦版本的后续图像。可以采用任意数量的方案来确定能够以哪个方向进行对焦调节以及进行到什么程度。

例如，可以对系统分类器进行训练以检测景象中各种其它对象的深度，并且因此还能够检测失焦状况是因为对焦平面处于脸部或其它感兴趣对象之前还是之后。例如，如果背景对象被准确对焦，则脸部或其它感兴趣对象处于焦点平面之前，而如果已知处于脸部或其它感兴趣对象之前的对象被准确对焦，则焦点平面处于脸部或其它感兴趣对象之前。在诸如这样的实现中，图1A和图1B的工作流程可以被调整并扩展以包括前部和后部稍有失焦的分类器和/或前部和后部明显失焦的分类器。在任何情况下，这使得系统能够确定对焦调整。

来自后续图像的相对应子窗口可以在对焦调整令人满意的前提下被存储，或者可以使用图1A和1B的工作流程对该子窗口进行再次测试以确定是否需要可能需要进一步调节。

现在参考图2，在备选实施例中，可以使用分离分类器链来执行在步骤20所获取图像内的个体脸部区域上的快速对焦。

在这样的实施例中，对象分类被划分为用来检测一般脸部的第一阶段（步骤22）。这可以包含应用检测器，使用更高级别、松散或更为简单的分类器。同样，这样的分类器无法与脸部区域内更为精细的特征相匹配并且因此它们对对焦和未对焦脸部提供了良好匹配。在一个优选实施例中，这些分类器是Haar分类器。备选地，可以使用来自脸部追踪模块的数据；或者实际上可以对来自第一阶段检测器和脸部追踪器的信息进行组合。

随后，如以上所解释的对每个包含感兴趣对象的子窗口选择性地应用附加分类器分量的集合。

在优选实施例中，提供了至少三个附加分类器分量。所有这些附加分类器分量组成了更为复杂的分类器链。

在一个优选实施例中，这些分类器是人口普查分类器。在备选实施例中，这些可以与其它复杂分类器进行组合。

第一附加分类器链被选择性地进行训练而与清晰对焦的脸部区域相匹配并且主动拒绝明显失焦的脸部，其对于稍有失焦的脸部区域而言将是中立的。

第二附加分类器链被选择性地进行训练而与稍有失焦的脸部区域最优地进行匹配并且拒绝明显失焦的脸部区域，其对于清晰对焦的脸部是中立的。

第三附加分类器链被选择性地进行训练而与明显失焦的脸部最优地进行匹配并且主动拒绝清晰对焦的脸部，其对于略微未对焦的脸部是中立的。

在优选实施例中，这些分量中的每一个为所确认的脸部区域提供1和0之间的分数，所述分数相对大型数据集进行归一化以提供所确认的脸部区域与每个标准匹配的如何的实质上准确的指示。

实施例的操作因此如下：（i）子窗口具有以上所概述的每个所应用的附加分量，它们依次被应用以确定脸部对焦的程度；（ii） MEMS透镜被快速调节（步骤26），并且三个分量的第二应用得以被进行（步骤28）。来自步骤28的测试的分数随后与之前分量应用的分数进行比较（步骤30）。如果脸部实质上未对焦并且保持实质上未对焦，则透镜移动处于错误方向并且该透镜再次在相反方向进行移动（步骤26），或者可以减小移动的增量；（iii）一旦通过略微为对焦的分量实现了更好的匹配，则进一步减小透镜移动的增量并且进行调节直至清晰对焦分量的分数大于略微未对焦分量的分数，随后确定脸部区域被准确对焦，步骤32。

如图3A-图3E所概括的，由于MEMS透镜组件能够快速改变其焦距，所以可能在单个景象内的多个脸部上重复该序列并且确定每个脸部区域的最优焦距。在某些实施例中，可以捕获相同景象的多于一个的图像并且将其融合/混合为单个复合图像以提供多个最优对焦的脸部。在备选实施例中，可以从图像内所有脸部区域的焦距设置来确定全局焦距。

在其它实施例中，对面部特征采用具体的分类器链。例如，可以对一个分类器集合进行训练以使得最优焦距处于人的眼睛上；可以对第二集合进行训练以使得最优焦距处于他们的下巴和嘴部区域；可以针对他们的发线/前额区域对第三集合进行训练；可以针对他们的耳朵以及脸的侧面对第四集合进行训练。将这样的分类器进行组合使得能够针对肖像摄影而在单个脸部上进行更为准确的对焦，因此根据肖像摄影师的要求而使得脸部的个体区域被保持在清晰对焦或者稍有失焦或实质上失焦。

以上所描述的概括对焦过程可以采用更为复杂且精良的算法。此外，虽然以上所概括的三个级别对于本发明的大多数实施例而言是足够的，但是可以采用比以上所描述的三个对焦级别更多的级别。

在某些实施例中，也可能消除清晰对焦分量并且通过将透镜焦点在脸部之前和之后的略微未对焦位置之间进行快速移动来确定最优面部距离。

如例如在以上所引用的参考文献中所描述的以及如可被本领域技术人员以其它方式所理解的，本发明的实施例采用了诸如脸部检测和追踪以及MEMS技术之类的成熟解决方案。可以在各种实施例中提供图像注册和增强以便获得良好对焦的系统。只要系统中存在自动对象检测和/或追踪，该方法就可以被用于脸部以及诸如宠物、汽车、房屋、个人属性、自然景观、头像和其他游戏对象以及许多其它可标识对象之类的非脸部对象。依据某些实施例的系统能够提供利用任意的f编号（f-number）所拍摄的照片和数字图像（而无论它们到相机的距离如何）连同用户所选择或自动选择的诸如脸部的感兴趣对象一起都被保持为准确对焦。

实施例涉及MEMS功能以在图像已经被捕获之后快捷、迅速、即时或者几乎即刻地移动焦点。对象检测和追踪功能实时确定对象的位置和大小，同时创建预览信息。提供图像注册功能以便对准（align）图像序列以使得能够当场将它们组合，或者随后在图像已经被捕获之后进行组合。还可以包括图像混合和/或变形功能，例如使得来自一个图像的清晰脸部可以在另一图像中利用不同焦点进行调换。

对于具有人群的照片而言，该解决方案不仅针对深焦而且针对具有浅焦距的透镜解决了问题。

至于选择性对焦，则可以允许查看者在不同焦点之间进行手工切换。可以照常获取数字图像，而随后在嵌入式设备或计算机上选择焦点。至于多个脸部对焦，可以创建单个图像以使得所有脸部（或其它感兴趣对象）中的两个或更多被清晰对焦。多个脸部对焦的图像可以具有比来自序列中的每个个体图像更高的分辨率，由此为诸如脸部识别之类的安全应用提供最佳的可能输入数据。这些多个脸部的实施例提供了适用于实时嵌入式实施例的先进的定性解决方案。

在先进的使用情形中，图像对准可能涉及光学、数字和/或机械稳定化以使得能够将它们组合在一起。在备选实施例中，可以使用美国专利7,660,478,7,639,889,7,636,486,7,639,888,7,697,778和/ 或USP7,773,118和7,676,108,和/或美国专利申请序列号12/330,719, 11/856,721,12/485,316,12/901,577,12/820,002,12/820,034, 12/820,086,12/336,416,USSN11/753,098,和/或USSN12/137,113 中任一项中所描述的特征。

诸如图3A-图3E针对多重对焦功能所图示的，图像混合和变形也是可能的。多个图像以准确对焦的感兴趣区域比失焦区域获得更高优先级的方式而被混合在一起。在感兴趣对象/脸部已经从一个图像移动至另一图像的情况下，可以使用变形以便进行现实且没有假象的组合。

此外，在可以根据这里的优选实施例所执行并且已经在上文中进行了描述的方法中，已经以所选择的印刷顺序对操作进行了描述。然而，除非在明确给出特定顺序或者本领域技术人员可能认为特定顺序有必要的情况下，否则已经选择了顺序并且这样排序是为了便于印刷而并非意在暗示用于执行操作的任何特定顺序。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 失焦状况下的对象检测和识别 [P] . 中国专利： CN103052960B . 2017.10.24
2. 一种在相机失焦情况下的数字检测识别方法 [P] . 中国专利： CN112183650A . 2021-01-05
3. Motor vehicle condition representing method, involves enabling detection of no signal by identification sensor at one condition when engine is running, and implementing sensor in vehicle when other condition is detected [P] . 德国专利： DE102007033232A1 . 2009-01-22

机译：机动车辆状况表示方法，涉及在发动机运转时在一种状况下能够通过识别传感器检测到无信号，并且在检测到其他状况时在车辆中实施传感器。
4. SURROUNDING SITUATION RECOGNITION METHOD FOR ACTIVELY DETECTING CHANGE IN OBJECT BY OVERLAPPING IMAGE-BASED OBJECT DETECTION AND SEMANTIC IMAGE SEGMENTATION [P] . 韩国专利： KR20200063349A . 2020-06-05

机译：通过重叠基于图像的对象检测和语义图像分割主动检测对象变化的周围状况识别方法
5. Method for detecting surroundings of vehicle in actual driving situations, involves detecting and monitoring objects from surroundings by adjusting surrounding sensors designed according to vehicle condition [P] . 德国专利： DE102007048810A1 . 2009-04-16

机译：在实际驾驶情况下检测车辆周围环境的方法，涉及通过调整根据车辆状况设计的周围传感器来从周围环境检测和监视对象