首页> 中国专利> 使用CAD模型作为先验的从图像中的对象识别

使用CAD模型作为先验的从图像中的对象识别

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及一种如何从杂乱图像中恢复对象的方法。本发明还涉及一种包括指令的计算机程序产品和计算机可读存储介质，当所述程序由计算机执行时，所述指令使得计算机执行所提及方法的步骤。进一步地，本发明涉及如何训练识别系统的组件以用于从这样的杂乱图像中恢复对象的方法。此外，本发明涉及这样的识别系统。

著录项

公开/公告号CN112236778A

专利类型发明专利
公开/公告日2021-01-15

原文格式PDF
申请/专利权人西门子股份公司;
展开▼

申请/专利号CN201880094291.1
发明设计人 B·普朗什;S·扎卡罗夫;A·胡特;S·伊利克;吴子彦;
展开▼

申请日2018-10-29
分类号G06K9/62(20060101);
代理机构72001 中国专利代理(香港)有限公司;
代理人刘书航;吕传奇
地址德国慕尼黑
入库时间 2023-06-19 09:33:52

说明书

本发明涉及一种如何从杂乱图像中恢复对象的方法。本发明还涉及一种计算机程序产品和一种包括指令的计算机可读存储介质，当该程序由计算机执行时，该指令使得计算机执行所提及方法的步骤。进一步地，本发明涉及一种如何训练识别系统的组件以用于从这样的杂乱图像中恢复对象的方法。此外，本发明涉及这样的识别系统。

从（如例如从照片或视频相机获得的）图像的可靠的基于机器的对象识别是一项具有挑战性的任务。已知的识别系统典型地包括诸如相机之类的检测部件，以及计算机实现的方法，通过该计算机实现的方法可以识别对象的性质（换言之，类别或种类）或对象的姿态。例如，识别系统应该能够识别：图像上是否描绘了例如猫、汽车或仙人掌，和/或对象相对于相机的姿态如何。

作为具体的示例，识别系统接收彩色图像作为输入。对象的预定集合（例如猫、汽车和仙人掌）中的一个对象（例如猫）在输入图像中被描绘。该对象被以杂乱的方式描绘，即它是在特定的背景之前、在特定的照明条件下、部分遮挡、有噪声等地被描绘的。识别系统的任务是告知输入图像中实际上描绘的是预定对象中的哪一个（这里是猫）。

识别系统的另一个示例性任务将是评估猫是从前面、后面还是从侧面被示出。另一个示例性任务将是确定在图像中实际上描绘了多少只猫，即使它们彼此部分遮蔽、即遮挡。

由于识别系统在真实生活中应该能够从看不见的杂乱图像中自主地恢复对象，因此它需要预先训练。

用于训练识别系统的传统方法是利用大量真实的、杂乱的图像对它进行训练，所述大量真实的、杂乱的图像描绘了具有例如不同外观和在不同背景之前的猫。这意味着需要提供大量的猫（以及汽车和仙人掌）的标记图像以便训练识别系统。

除了提供大量真实的、标记的训练图像是一项耗时且乏味的任务这一事实之外，这在某些情况下甚至可能是不可能的。例如，在其中需要由识别系统标识机器组件的工业应用中，构建机器组件的大量训练图像将是不可接受的，特别是在机器因为是定制的范本而是唯一的情况下。

为了解决缺少真实训练数据的问题，已经提出纯粹在合成图像上训练识别系统。与真实图像形成对比，合成图像是基于某些输入数据通过模拟获得的。至少在工业应用中广泛可用的输入数据是应当被识别的机器组件计算机辅助设计（CAD）模型。

CAD模型通常仅具有纯粹的语义和几何信息，即它们不包含任何视觉信息。换言之，这样的CAD模型被假定为是无纹理的。纹理信息以及照明和阴影信息将仅包含在渲染处理之后的图像中，该渲染处理被理解为基于2D或3D模型生成包含几何、视点、纹理、照明和阴影信息的图像（或“场景”）的处理。

本发明聚焦于用于生成训练数据的作为输入数据（即，作为先验）的无纹理CAD模型。已知的是，从无纹理CAD模型生成彩色图像。这些彩色图像可以用作识别系统的训练图像。训练图像可以通过使用图形处理单元（GPU）的常规技术获得，所述训练图像是杂乱的彩色图像，其包括在背景之前的要被识别的对象，并且包括照明、阴影、纹理、噪声、遮挡等。识别系统随后在其训练阶段期间使用合成地生成的杂乱彩色图像作为输入图像。因此，识别系统具有从合成的杂乱彩色图像中标识对象的期望特征（例如类别或姿态）的任务。该训练被认为是有监督训练，因为识别系统的结果（例如，在杂乱图像中描绘的是仙人掌而不是汽车的陈述）与真实结果进行比较，真实结果是已知的，因为它表示已经被用于生成杂乱图像的输入CAD模型。在训练阶段期间执行的许多迭代步骤之后，识别系统在确定合成的杂乱图像中所描绘的对象的所需特征方面变得越来越准确。

在识别系统被训练之后，它可以用于标识看不见的、真实的杂乱图像中的性质和/或特征。通常，要在图像中识别的对象需要是识别系统之前在训练阶段期间已经针对其进行训练的对象。取决于识别系统的训练水平，识别系统因此可以被用来或多或少准确地确定看不见的、真实的杂乱彩色图像上的期望特征。

对于依赖于合成数据的计算机视觉方法而言严重且公知的问题是所谓的真实感差距，因为在这些模态上获取的知识通常很难转化为更复杂的真实域，从而导致准确度急剧下降。到目前为止，已经研究了解决该问题的若干种方法。

第一个明显的解决方案是改进合成模型的质量和真实感。若干工作试图推进用于感测设备和环境现象的模拟工具。例如，最先进的深度传感器模拟器工作得相当好，因为削弱深度扫描的机制已经得到了很好的研究，并且可以很好地重现。然而，在颜色数据的情况下，问题不在于传感器模拟，而在于颜色域的实际复杂性和可变性（例如，对照明条件的敏感性、磨损后的纹理改变等）。这使得提出令人满意的映射极度艰难，除非提供精确的、详尽的合成模型（例如通过捕捉真实感的纹理）。然而，对目标类别的合适建模经常是不够的，因为识别方法还将需要关于它们的环境（背景、遮挡物等）的信息应用于真实生活场景。

出于该原因并且在模拟工具的补充中，基于卷积神经网络（CNN）的最近的方法正试图通过直接在图像域中学习从经渲染数据到真实数据的映射来进一步弥合真实感差距。大多数基于无监督条件的生成对抗网络（GAN）（诸如Bousmalis等的：“UnsupervisedPixel—Level Domain Adaption with Generative Adver sarial Networks”，arXiv：1612.05424）或风格转移解决方案，这些方法仍然需要真实样本集合来学习它们的映射。

然而，存在某些情况，其中提供真实样本是不可能的，或者仅在相当大的努力的情况下才有可能。

因此，本发明的目的是提供一种识别系统，该识别系统给定唯一可用的输入是无纹理CAD模型的约束。

该目的通过独立权利要求中公开的概念来实现。在从属权利要求和伴随说明书的附图中描述了有利的实施例和变型。

根据本发明的一个方面，提供了一种借助于人工神经网络从杂乱图像中恢复对象的方法。该方法包括以下步骤：

-借助于经训练的图像生成器从杂乱图像中生成法线贴图，

-借助于经训练的任务特定识别单元从法线贴图中恢复对象，以及

-将结果输出到输出单元。

本文中，图像生成器已经由人工神经网络训练，并且识别单元由人工神经网络训练。

在本专利申请的上下文中，“恢复”对象包括识别（即确定）对象立姿的类别实例、其相对于相机的姿态或者对象的其他属性。

“人工神经网络”（ANN）是一种计算系统，其灵感来源于构成动物大脑的生物神经网络。人工神经网络通过考虑示例来“学习”执行任务，而通常不利用任何任务特定的规则来编程。

ANN基于被称为人工神经元的连接单元或节点的集合，它们松散地对生物大脑中的神经元进行建模。每一个连接、像生物大脑中的突触一样可以将信号从一个人工神经元传输到另一个人工神经元。接收信号的人工神经元可以对其进行处理，并且然后向与之相连的附加人工神经元发信号。

在常见的ANN实现中，在人工神经元之间连接处的信号是实数，并且每个人工神经元的输出通过其输入之和的一些非线性函数来计算。在人工神经元之间的连接被称为“边”。人工神经元和边典型地具有随着学习的进行而调整的权重。权重增加或减少在连接处的信号强度。典型地，人工神经元被聚合成几层。不同的层可以对它们的输入执行不同种类的变换。信号从第一层（输入层）行进到最后一层（输出层），经常穿过在中间的众多隐藏层。

根据本发明的另一方面，被设计用于从合成的法线贴图恢复对象的任务特定识别单元包括人工神经网络，并且根据具有以下步骤的方法来被训练：

-接收合成的法线贴图作为输入，其中合成的法线贴图是从无纹理CAD模型获得的，

-恢复对象作为输出，

-将识别单元的输出与如在法线贴图中表示的对象的相应属性进行比较，

-并且优化识别单元的神经网络，使得其输出与输入的相应属性之间的偏差最小。

本发明的又一个方面涉及图像生成器的训练，该图像生成器被设计用于将杂乱图像转换成法线贴图。训练也是基于ANN的，因为图像生成器也包括人工神经网络。该训练方法包括以下步骤：

-接收合成的杂乱图像作为输入，其中杂乱图像是增强管道的输出，所述增强管道将合成的法线贴图增强为合成的杂乱图像，

-给出法线贴图作为输出，

-将图像生成器的输出与作为对增强管道的输入而给出的相应法线贴图进行比较，以及

-优化图像生成器的神经网络，使得其输出与作为对增强管道的输入而给出的法线贴图之间的偏差最小。

从杂乱图像中恢复对象的一般方法有利地使用已经根据上述训练方法被训练的图像生成器，并且使用已经根据上述训练方法被训练的任务特定识别单元。

因此，提供了一种识别系统，其能够从对象的预定集合中准确地标识对象，对于该对象的预定集合，仅存在作为先验的CAD模型。结果，标记的和未标记的真实生活的彩色图像例如对于训练识别系统而言均不是所必需的。

本发明的一个重要方面是，所要求保护的方法的目标不在于为了训练任务特定识别单元而从无纹理CAD模型中构建真实感图像。相反，识别单元纯粹是在合成数据上训练的，即直接从CAD模型获得的合成的法线贴图。此外，在真实生活使用阶段期间所需要的将真实杂乱图像转换成真实法线贴图的图像生成器纯粹在合成数据上进行训练。

另一个方面是在识别单元的训练期间，从无纹理输入CAD模型创建法线贴图。创建法线贴图而不是图像（例如彩色图像）具有巨大的优势，即，这可以由识别系统的中央处理器单元（CPU）而不是GPU来执行。结果是所创建的法线贴图不需要被单独存储，而是可以由识别单元直接使用。因此，根据本发明从CAD模型生成和处理法线贴图可以被称为“在线”处理，而从CAD模型生成和处理图像的常规处理可以被称为“离线”处理。

法线贴图是来自特定视点的3D模型的表面法线的表示，其存储在二维彩色图像中，二维彩色图像也被称为RGB（即红色/绿色/蓝色）图像。本文中每种颜色对应于表面法线的定向。注意，用于训练识别单元的合成的法线贴图是无噪声的，即与在一些现有技术概念中用于训练识别单元的输入训练图像形成对比，它们不包含任何杂乱。

3D引擎能够自动渲染来自3D模型中的真实感图像（参见电影/视频-游戏行业）。但为此，他们需要详细的3D模型，以及真实感的纹理/颜色信息。大多数工业CAD模型不具有这样的细节，因为这些模型主要用于工程/生产任务，而不是用于可视化。将该信息添加到CAD模型的一种方式是例如构建真实感纹理库，或者对所产生的对象拍摄照片以提取信息。但是使操作者针对每个新的客户、对象、部分等都这样做将是高成本和/或不可扩展的。

将作为图像生成器输出给出的法线贴图相对于作为对增强管道的输入给出的法线贴图进行比较。换言之，由人工神经网络自主调整人工神经元和边的权重，目的在于最小化在图像生成器的输出法线贴图与输入法线贴图（目标法线贴图）之间的偏差。对ANN的众多权重中的哪一个进行调整是由ANN自主确定的，并且经常不对用户公开（即对用户隐藏）。

在本发明的有利实施例中，图像生成器由如下两个单元组成：

-用于从杂乱图像中提取前景从而获得分割图像的分割单元（G

-用于将分割图像转换成法线贴图的颜色到法线单元（G

描述性地讲，分割单元确定杂乱图像中感兴趣对象的轮廓，并且创建对象的二元掩模，而颜色到法线单元将杂乱图像及其二元掩模的叠加转换成法线贴图。

分割单元可以被单独训练，以最佳地从杂乱图像中提取前景，或者它可以与颜色到法线单元一起被优化。

除了图像生成器的两个所提及的组件——每个组件包括自己的人工神经网络——之外，图像生成器可以进一步包括细化单元，细化单元对通过图像生成器获得的法线贴图进行细化。细化单元还有利地包括人工神经网络，特别是生成对抗网络。

现在仅通过示例的方式借助于随附附图描述本发明的实施例，其中：

图1示出了根据现有技术的识别系统；和

图2示出了根据本发明实施例的识别系统。

图1图示了根据现有技术的用于从图像中识别对象的方法。在第一阶段中，训练识别系统T'。因此，该阶段被称为训练阶段110。在训练已经完成之后，在第二阶段中，经训练的识别系统T'被用于从杂乱图像中识别对象（121），该杂乱图像对于识别系统是未知的，并且是真实的杂乱图像。因此，第二阶段被称为使用阶段120。

在训练阶段110期间，合成的杂乱图像112被馈送到识别系统T'中。杂乱图像112是从无纹理CAD模型111获得的。基于CAD模型111的杂乱图像112的创建由图形处理器单元（GPU）执行，该图形处理器单元（GPU）是被设计用于纯粹从CAD模型数据中创建图形（即图像）的处理器。所述图像存储在识别系统的存储器空间中。

注意，杂乱图像112不仅照此显示CAD模型111的对象。通常，向对象给予一个纹理和一个颜色；考虑由于对象的模拟照明所致的阴影；对象可能被部分遮挡；在同一图像中可能显示其他对象；整个图像包含噪声；并且图像通常包含背景。因此，所述图像被称为杂乱图像112。杂乱可以完全随机选取；然而，例如对于遮挡或噪声的某些约束是可能的。

针对在使用阶段中应由识别单元准确识别的每个对象，由GPU模拟大量的杂乱图像。观看对象所用的视角对于每个模拟图像而言首先都是相同的；然而，“杂乱”、即背景、照明、噪声等对于每个图像都是不同的。

此外，观看对象所用的视角被改变。虚拟地创建在对象的CAD模型周围和上方的半球，并且定义期望数量的视点。如上所述，针对每个视点、即针对每个视角，由GPU模拟大量的杂乱图像。通过该过程，获得大量的图像，所述大量的图像以不同的“杂乱”从不同的视点描绘相同的对象。

识别单元T'分析合成的杂乱图像112，其中向识别单元设置特定任务。例如，任务可以是识别对象的性质、即类别或种类，例如杂乱图像中描绘的对象是牛、猫还是仙人掌。在该情况下，识别单元需要利用所提及的所有对象（这里是牛、猫和仙人掌）的CAD模型进行训练。识别单元的另一个任务可以是标识对象的姿态，即对象是以顶视图、从正面、背面还是从一侧（在对象具有明确定义的正面、背面、顶面和底面的情况下）描绘的。由于识别单元的算法取决于识别单元在使用阶段期间预期要解决的任务，因此识别单元也被称为任务特定识别单元T'。

注意，所描述的现有技术概念的缺点是所生成的每个图像都需要被存储在识别系统的存储器空间处。在被存储在系统中之后，其可以立即被馈送到识别单元中。可替代地，这可以在已经创建了所有图像之后进行。

另外，主要依赖于合成数据来训练识别系统的已知方法的更重要的缺点是真实感差距。由于目标对象的实际纹理是未知的，因此无法渲染真实感的合成图像，因为它们的视觉外观的关键元素是缺失的。因此，模型针对合成域学习的特征通常在真实图像域上表现不佳。虽然先前的工作聚焦于适配模型，使得它从合成域中学习到的特征可以应用于真实域，但是本专利申请中公开的方法表现得不同。令模型纯粹处理合成数据，该模型由另外的函数（即由生成神经网络集合）并行训练，以将真实图像投影到干净的合成域中。

回到现有技术，识别单元T'以有监督方式被训练。它必须关于给予它的任务做出它的决策，并且传输或显示其输出113，例如对象的类别或姿态。由于识别系统固有地已知任务的解决方案，因此可以自动评估输出113。因此，识别系统的准确度的评估可以由识别系统自身来执行。

在识别单元T'被训练到足够的程度之后，可以开始使用阶段120。本文中，对于识别系统T'而言未知的图像121被作为输入给予识别单元T'。显然，图像是杂乱的，并且图像是真实的，而不是合成的。然而，由于识别单元T'的训练阶段110，因此可以实现识别单元T'的合理准确度。

已经提及的缺点仍然存在：有限数量的训练数据，其需要单独地存储在存储位置处；以及不是最佳的准确度。

图2图示了本发明概念的示例性实施例。在第一阶段（训练阶段210）中，任务特定识别单元T被训练用于解决特定任务，例如识别对象的类别或姿态。在第二阶段（训练阶段220）中，图像生成器G被训练用于生成法线贴图224，法线贴图224尽可能最好地表示给定CAD模型221的法线贴图222。在第三阶段（使用阶段230）中，在经训练的图像生成器G的帮助下，由经训练的识别单元T评估看不见的、真实的杂乱图像231。结果，表示给予识别单元T的任务的解决方案的输出233被发出，例如以识别和标识在真实杂乱输入图像231中显示的对象的性质和/或特定特征。

与图1中图示的现有技术相比，本发明的一个关键差异在于，在识别单元T、T'的训练阶段210期间，分别是从无纹理的输入CAD模型211中创建法线贴图212相比于从无纹理的输入CAD模型211中创建杂乱图像112。创建法线贴图212而不是图像112具有巨大的优势，这可以由识别系统的中央处理器单元（CPU）而不是GPU来执行。结果是，所创建的法线贴图212不需要被单独地存储，而是可以由识别单元T直接使用。因此，根据本发明从CAD模型211中生成和处理法线贴图212可以被称为“在线”处理，而从CAD模型111中生成和处理图像112的常规处理可以被称为“离线”处理。

再次，识别单元T针对特定任务进行训练。示例性任务是标识在法线贴图212中描绘的对象的类别或姿态。识别单元T给出给定任务的对应解决方案作为输出213。

识别单元T的训练以有监督方式执行。因为识别系统“知道”任务的解决方案，即因为它知道对象的类别或姿态——该对象被变换成法线贴图212并且随后被馈送到识别单元T中，所以它可以校正或确认识别单元T的输出213。因此，识别单元T自己学习并且不需要人类交互。

值得提及的是，识别单元T原则上可以由无限制数量的训练数据来训练。由于训练是“即时（on the fly）”发生的，换言之是“在线”发生的，因此与上面解释的现有技术方法形成对比，不需要构建训练图像库，在现有技术方法中，构建训练图像库是强制性的。因此，识别单元T的训练有时被称为在“无限”数量的训练数据上执行。

注意，与可以直观想象的情况形成对比，目标不是要从无纹理的输入CAD模型生成尽可能有真实感的图像。此外，象征性地讲，识别单元应变成“纹理盲”，这意味着不管背景、阴影、最终遮挡等如何，都应在杂乱的图像中识别出对象。

进一步注意，另外，观看对象所用的视角被改变。虚拟地创建在对象的CAD模型周围和上方的半球，并且定义所期望数量的视点。针对每个视点、即针对每个视角，由GPU模拟大量的杂乱图像。通过该过程，获得大量的图像，所述大量的图像以不同的“杂乱”从不同的视点描绘相同的对象。

除了识别单元的训练（第一训练阶段210）之外，在本发明的概念中还需要第二训练阶段220。在第二训练阶段220期间，图像生成器G借助于生成对抗网络（GAN）来训练。图像生成器G需要训练，以便从杂乱图像223中生成高质量的法线贴图224。

在第一步骤中，无纹理的CAD模型221被变换成合成的、无噪声的法线贴图222，像在识别单元的训练阶段210期间一样。法线贴图222的生成由CPU在线执行。

随后，合成的法线贴图222经由增强管道A被转换成合成的杂乱图像223。增强管道通过添加纹理、噪声、部分遮挡物等来增强接收到的法线贴图，并且同时将法线贴图转换成彩色图像。Marcus D. Bloice、Christof Stocker和Andreas Holzinger的“Augmentor: AnImage Augmentation Library for Machine Learning”，arXiv：1708.04680vl给出了增强管道的示例。

在将法线贴图222变换成杂乱图像223之后，杂乱图像223随后被变换回到法线贴图224。这里的挑战不仅仅是执行该变换，而且最重要的是从杂乱的（即有噪声的）图像生成干净的（即理想的）无噪声法线贴图。该任务由图像生成器G完成。

图像生成器G由分割单元G

随后，生成对抗网络（GAN）被用于颜色到法线单元G

-在其输出与预期几何贴图之间的法线和前景生成损失。法线生成损失计算两幅图像之间的距离（此处为原始的法线贴图与生成的法线贴图之间的距离），比较它们的像素值。前景生成损失计算类似的距离，但是忽略不属于前景对象的像素（使用二元掩模）；

-由辅助/对抗网络计算的鉴别器损失。该网络是沿着图像生成器G训练的，以从原始贴图中识别出“假”贴图。鉴别性损失表达G对辅助/对抗网络的欺骗能力；

-可选的任务特定损失。在目标识别方法在训练该GAN时已经可用并且准备就绪的情况下，它可以针对生成的法线贴图以及针对原始法线贴图使用。然后，任务特定损失是在识别方法对原始数据与对生成数据的估计（所恢复的信息）之间的距离。换言之，它引导GAN生成法线贴图，该法线贴图将从识别方法中诱发与原始干净法线贴图相同的响应。该公式具有两个优点：没有关于所恢复的信息的性质作出假设，并且不需要基准，因为该损失仅取决于由识别方法作出的两种估计之间的差异。

每个步骤可以首先被连续训练（即首先，训练G

作为选项（图2中未图示），另一个CNN、即G

在固定G

在识别单元T和图像生成器G这二者被训练之后，可以在“真实生活”中使用识别系统T。在使用阶段230期间，首先将对象的看不见的、真实的杂乱图像231给予图像生成器G。图像生成器G通过首先提取前景、并且然后将分割的图像转换成法线贴图232，来从杂乱图像231中提取干净的法线贴图232。分割由分割单元G

然后将所得到的干净法线贴图232作为输入馈送到任务特定识别系统T，该任务特定识别系统T给出所需的输出233，例如对象的类别和/或姿态。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 使用CAD模型作为先验的从图像中的对象识别 [P] . 中国专利： CN112236778A . 2021-01-15
2. 基于图像梯度先验模型实现大尺度图像修复的方法 [P] . 中国专利： CN103310425A . 2013-09-18
3. IMAGE RECOGNITION METHOD, TRAINING SYSTEM FOR OBJECT RECOGNITION MODEL AND TRAINING METHOD FOR OBJECT RECOGNITION MODEL [P] . US2021150272A1 . 2021-05-20

机译：图像识别方法，对象识别模型培训系统及对象识别模型的培训方法
4. OBJECT RECOGNITION FROM IMAGES USING CAD MODELS AS PRIOR [P] . 世界知识产权组织专利： WO2019192745A1 . 2019-10-10

机译：优先使用CAD模型从图像中识别对象
5. OBJECT RECOGNITION FROM IMAGES USING CAD MODELS AS PRIOR [P] . 世界知识产权组织专利： WO2019192744A1 . 2019-10-10

机译：优先使用CAD模型从图像中识别对象