首页> 中国专利> 分析视觉参数的相关性以训练计算机视觉模型的计算机实现方法

分析视觉参数的相关性以训练计算机视觉模型的计算机实现方法

摘要

计算机视觉涉及计算机如何能够从数字图像或视频中自动获得高级理解。计算机视觉系统在汽车或机器人车辆领域的应用日益增加。计算机视觉可以通过考虑定义视觉数据项中的至少一个视觉状态的视觉参数来改进。然而,先验地,不清楚哪些视觉参数与计算机视觉相关。本说明书讨论了用于分析视觉参数的相关性以训练计算机视觉模型的计算机实现方法。在调整视觉参数集以增加它们的相关性时,得到了可以在(重新)训练和/或测试计算机视觉模型中使用的视觉数据的新集合和对应的地面实况。

著录项

  • 公开/公告号CN114881097A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 罗伯特·博世有限公司;

    申请/专利号CN202210072380.4

  • 申请日2022-01-21

  • 分类号G06K9/62(2022.01);G06N20/00(2019.01);

  • 代理机构中国专利代理(香港)有限公司 72001;中国专利代理(香港)有限公司 72001;

  • 代理人刘茜璐;周学斌

  • 地址 德国斯图加特

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本说明书涉及一种用于分析视觉参数的相关性以训练计算机视觉模型的计算机实现的方法、相关装置、计算机程序、计算机可读介质和分布式数据通信系统。

背景技术

计算机视觉涉及计算机如何能够从数字图像或视频中自动获得高级理解。计算机视觉系统在汽车或机器人车辆领域的应用日益增加。计算机视觉可处理来自至少一个检测器与该检测器的环境之间的交互的输入。环境可以被至少一个检测器感知为场景或连续的场景。

特别地,交互可以由至少一个电磁源产生,其可以是或可以不是环境的一部分。能够捕获这种电磁交互的检测器可以是例如摄像机、多摄像机系统、RADAR或LIDAR系统。

在汽车计算机视觉系统中,计算机视觉通常必须处理开放的背景,尽管也被要求是安全关键的。因此,可以进一步改进计算机视觉系统。

发明内容

根据第一方面,提供了一种用于分析视觉参数的相关性以训练计算机视觉模型的计算机实现的方法。所述方法包括以下步骤:

-获得在初始训练状态中的计算机视觉模型,其被配置成执行表征观察场景的元素的计算机视觉功能;

-获得视觉数据集并从其中选择视觉数据项的第一子集,并提供与视觉数据的第一子集对应的地面实况数据的第一子集;

-获得第一视觉参数集,其中,其中的至少一个视觉参数定义视觉数据的第一子集中的至少一个项的至少一个视觉状态,其中,至少一个视觉状态能影响计算机视觉模型的分类或回归结果;

-将视觉数据项的第一子集应用到计算机视觉模型以获得视觉数据项的第一子集中的观察场景的元素的多个预测,其中,所述预测包括视觉数据的第一子集中的至少一个项的至少一个分类结果和/或至少一个回归结果;

-使用地面实况数据的第一子集,计算当提供至少一个分类结果和/或至少一个回归结果的所述预测时表征所述第一计算机视觉模型的准确度的第一视觉参数集的对应的多个表现得分;

-在第一视觉参数集的域上执行多个表现得分的灵敏度分析;以及

-根据在第一视觉参数集的域上的多个表现得分的灵敏度分析,生成视觉数据项的第二子集和与视觉数据的第二子集对应的地面实况数据的第二子集。

在一个实施例中,提供了一种计算机实现的方法,用于分析视觉参数与计算机视觉模型的表现的相关性。

根据第一方面的方法有利地用于生成改进的训练数据集和/或改进的验证数据集以用于训练和/或测试计算机视觉模型。改进使得训练/验证数据集能够包括与计算机视觉模型的表现具有更多相关性的视觉参数集的视觉参数,从而具有较少的偏差。

例如,具有较高相关性的相关视觉参数具有例如计算机视觉模型的表现上的较高方差,并且是由全局灵敏度分析产生的。因此,术语“较高相关性”不涉及视觉数据项中的给定场景可能给人类观察者带来的任何主观或认知印象。较高相关性是视觉图像数据与计算机视觉模型交互的技术后果,所述计算机视觉模型可以是未经训练、部分训练或完全训练(或训练为收敛)的。相关性的概念可以用许多技术品质因数来表示,尽管本申请集中于使用方差的示例。

在改进的训练数据集上训练另外的计算机视觉模型(参考第二方面)可以产生能够更好地归纳到视觉数据的未见(即,样本外)项的计算机视觉模型,从而增加由计算机视觉模型进行的预测的准确度。对改进的验证数据集的测试减少了测试的时间和成本。

根据第二方面,提供了一种用于训练计算机视觉模型的计算机实现的方法。所述方法包括:

-根据第一方面或其实施例的计算机实现的方法来获得视觉数据项的第二子集和地面实况数据的第二子集,作为训练数据集;

-使用所述训练数据集迭代地训练另外的计算机视觉模型;以及

-输出所述另外的计算机视觉模型。

根据第二方面的方法有利地用于在根据第一方面或其实施例的方法而生成的改进的训练数据集上再训练计算机视觉模型。这种再训练可以被看作元学习或主动学习,因为从整体的观点(即,就涉及包括训练、确认和再训练的外环而言)来看,训练数据集考虑到计算机视觉模型的中间表现而被改变。

根据第三方面,提供了一种用于执行计算机视觉的装置。

该装置包括输入接口、处理器、存储器和输出接口。

输入接口被配置成接收根据第二方面的方法而训练的另外的计算机视觉模型和另外的视觉数据集,并且将它们存储在存储器中。

处理器配置成从存储器读取视觉数据集和另外的计算机视觉模型,且将视觉数据集应用于另外的计算机视觉模型,以因此产生至少一个图像分类和/或回归结果。

输出接口被配置成输出至少一个图像分类或回归结果。

第四方面涉及一种包括机器可读指令的计算机程序,当由处理器执行时,所述机器可读指令能够执行(i)根据第一方面或其实施例的用于提供视觉数据项的第二子集和地面实况数据的第二子集作为训练数据集的计算机实现的方法,和/或(ii)根据第二方面的方法的用于训练另外的计算机视觉模型的计算机实现的方法。

第五方面涉及一种包括计算机程序中的一个或两个的计算机可读介质。

第六方面涉及一种分布式数据通信系统,包括数据处理代理、通信网络和终端设备,其中,终端设备可选地包括在汽车或机器人中。

数据处理代理配置成经由通信网络将根据第二方面的方法而训练的另外的计算机视觉模型发送到终端设备。

前述方面的从属实施例在从属权利要求中给出,并在以下描述中解释,读者现在应当参考其。

视觉数据集是表示图像(例如JPEG或GIF图像)或MPEG视频的项目集,其中,这些项目由捕获设备(例如摄像机)来捕获,和/或从包括所捕获的视觉数据的数据库中选择,和/或由合成图像生成器合成地生成。

对应于视觉数据的一个项的地面实况数据的项是计算机视觉模型意图输出的分类和/或回归结果。换句话说,地面实况数据表示当输入示出可预测场景或场景元素的视觉数据项时计算机视觉模型的正确答案。术语“图像”可以涉及图像的子集,诸如分段的道路标志或障碍物。

可选地,用于获得观察场景的多个预测的计算机视觉模型的视觉数据项的子集因此可以包括:输入多个单帧图像数据,并通过将每个单帧的分类或回归值与对应的地面实况的单个元素进行比较来计算表现得分。可选地,图像数据的单帧的多个部分(例如,通过分段识别的)可以被输入到计算机视觉模型中,并且通过将每个单帧的分类或回归值与对应于每个单帧的地面实况的单个元素进行比较来计算表现得分。可选地,视觉数据项可以是包括多个单帧的视频序列。计算机视觉模型可以可选地接收这样的视频序列且返回用于整个视频序列的单个预测。例如,具有100帧的视频序列(其示出了正在接近一组交通灯的车辆的前视图)可以被分类为“正在接近的交通灯”。作为替选或补充,计算机视觉模型可以可选地接收这样的视频序列且返回视频的每一帧或视频的经子采样的多个帧的预测,从而实现预测状态何时改变的时间跟踪。因此,技术人员应当了解,可将多种格式的视觉数据应用于计算机视觉模型,且可输出多种预测格式。

计算机视觉模型是由模型参数参数化的功能,其在训练时可以使用机器学习技术基于训练数据集来学习。计算机视觉模型被配置成至少将视觉数据项或其一部分或子集映射到预测的地面实况数据项上。一个或多个视觉参数定义了视觉状态,因为它们包含了关于观察场景的内容的信息和/或表示用于捕获和/或生成观察场景的边界条件。

视觉参数的相关性通过分析表现得分相对于(第一)视觉参数集的视觉参数的灵敏度而产生。相关性的量化测量可以是这样的表现得分的方差。

本说明书提出了其装置以及可选地可视化,以使得专家能够做出关于如何可以改变第一视觉参数集的明智决策(例如,与人类感知系统无关),从而产生包括具有更高相关性的视觉参数的第二(即,经调整的第一)视觉参数集。对于第二视觉参数集,可以生成新的/附加的视觉数据项和对应的地面实况数据项,形成新的训练和/或验证数据集,其证明在学习和/或测试计算机视觉模型中是有用的。同时,所提出的装置可以提示专家去考虑例如在计算机视觉模型的设计中的附加改变。此外,在新的训练和/或验证数据集上训练计算机视觉模型,以提供更准确的计算机视觉模型。

附图说明

图1示意性地示出用于分析视觉参数的相关性以训练计算机视觉模型的开发和验证过程;

图2示意性地示出根据第一方面的用于分析视觉参数的相关性以训练计算机视觉模型的计算机实现的方法;

图3示意性地示出根据第三方面的数据处理装置;

图4示意性地示出根据第六方面的分布式数据通信系统;

图5示意性地示出用于分析视觉参数的相关性以训练计算机视觉模型的计算机实现方法的一个示例;

图6a示意性地示出视觉参数的全局灵敏度分析的计算机实现的计算的第一实现的一个示例;

图6b示意性地示出视觉参数的全局灵敏度分析的计算机实现的计算的第二实现的一个示例;

图6c示意性地示出从全局灵敏度分析得到的视觉参数的一个示例性排名列表;

图7a示意性地示出用于定义视觉参数的世界模型和用于采样例程的一个示例性伪代码列表;

图7b示意性地示出用于评估视觉参数的灵敏度的一个示例性伪代码列表。

具体实施方式

计算机视觉涉及计算机如何能够从数字图像或视频中自动获得高级理解。例如,计算机视觉可应用于汽车工程领域以检测道路标志、显示在其上的指令或车辆周围的障碍物,尽管还存在许多其他用途。

为了实现这一点,可以计算用于自主或半自主系统的物体检测、语义分段、3D深度信息或导航指令中的一个或多个。用于计算机视觉的另一常用术语是计算机感知。实际上,计算机视觉可处理来自至少一个检测器440a、440b与其环境之间的任何交互的输入。环境可以被至少一个检测器感知为场景或连续的场景。特别地,交互可以由至少一个电磁源(例如,太阳)产生,该至少一个电磁源可以是环境的一部分或者可以不是环境的一部分。能够捕获这种电磁交互的检测器可以是例如摄像机、多摄像机系统、RADAR或LIDAR系统、或红外检测器。非电磁交互的一个示例可以是要由至少一个麦克风捕获以生成包括针对多个立体角或者超声传感器的声级的声音地图的声波。

计算机视觉是自动或半自动驾驶中的重要感测形态。在以下说明书中,术语“自主驾驶”指的是完全自主驾驶,并且也指车辆驾驶员保持对车辆的最终控制和责任的半自动驾驶。在自主驾驶和机器人技术的背景下计算机视觉的应用是例如以下各项的检测、跟踪和预测:可驾驶和不可驾驶表面和道路车道、移动物体(例如车辆和行人)、路标和交通灯以及潜在地是道路危险。

计算机视觉必须能够处理开放的背景。不可能通过实验来建模所有可能的视觉场景。机器学习——从输入数据自动创建归纳的技术——可应用于计算机视觉。所需的归纳可能是复杂的,需要考虑图像内的背景关系。

例如,检测到的指示速度限制的道路标志在其直接位于车辆正在行驶的道路车道上方的背景下是相关的,但是如果其不在车辆正在行驶的道路车道上方,则其可能与该车辆的控制具有较少的直接背景相关性。可基于道路标志是在单车道道路上方还是多车道高速公路上方来改变背景。沿单车道道路驾驶与沿多车道高速公路驾驶在背景中是不同的。单车道道路上方的指示速度限制的检测到的道路标志主要解决本车辆的速度限制。另一方面,多车道高速公路上方的指示速度限制的检测到的道路标志可以给出关于相对于本车辆的其他车道中的汽车超车或并线的预期速度的额外背景。

基于深度学习的计算机视觉方法已经在各种领域中的各种基准上实现了改进的表现结果。实际上,一些深度学习网络架构实现了诸如对图像的关注、信任和推理的概念。随着复杂深度神经网络(DNN)的工业应用的增加,对计算机视觉模型的验证和确认(V&V)的需求也增加了,尤其是在部分或完全自动的系统中,其中,机器与环境之间的交互的责任是无监督的。计算机视觉可有助于满足级别4或5的自动驾驶所要求的规范“预期功能的安全性”(SOTIF)。

测试计算机视觉模型或定性地评估其表现是具有挑战性的,因为典型的计算机视觉模型的输入空间很大。理论上,输入空间是由所有可能的图像组成的,这些图像是由可能的像素值的组合定义的,这些像素值表示例如给定输入分辨率的颜色或灰色阴影。然而,通过像素值的随机变化来创建图像将不会以合理的概率产生真实世界的代表性图像。因此,视觉数据集可以包括真实的(也称为真正的)(例如,由物理摄像机实验地捕获)或合成的(例如,使用3D渲染、图像增强或基于DNN的图像合成生成的)图像或图像序列(视频),其基于感兴趣域中的相关场景(例如,在道路上行驶)而创建。在一个示例中,视觉数据集可以包括真实和合成图像或图像序列的混合以及相关联的地面实况。例如,可以使用合成图像或图像序列来增强主要可信的数据集,以示出在实验测试中难以捕获的“角落情况”。

在工业中,测试通常被称为验证。即使在受限的输入域上,输入空间也可以是极大的。例如,可以通过随机捕获感兴趣域(例如通过沿着任意道路行驶并捕获图像)或者通过基于感兴趣域中的一些属性/维度/参数系统地捕获图像来收集图像(包括视频)。虽然将这样的参数称为视觉参数是直观的,但是视觉参数不需要与相对于人类感知系统的可见度相关。视觉参数与关于一个或多个检测器的可见度相关就足够了。

一个或多个视觉参数定义了场景的视觉状态,因为它或它们包含了关于所观察的场景的内容的信息和/或表示用于捕获和/或生成所观察的场景的边界条件。

视觉参数可以是例如:摄像机属性(例如,空间和时间采样、失真、像差、色深、饱和度、噪声等)、LIDAR或RADAR属性(例如,表面的吸收或反射率等)、场景中的光条件(光反弹、反射、光源、雾和光散射、总体照明等)、材料和纹理、物体及其位置、大小和旋转、(物体和环境的)几何结构、定义环境的参数、环境特性(如视距)、降水特性、辐射强度(其被怀疑与检测过程强烈地交互并且可以示出与表现的强相关性)、图像特性/统计(如对比度、饱和度、噪声等)、场景和情况的域特定描述(例如,道口上的汽车和物体)等。更多的参数是可考虑的。

这些参数可以被看作本体、分类、维度或语言实体。它们可以定义世界上的受限视图或输入模型。给定视觉参数的分配/选择,可以捕获或渲染一组具体图像,或者可以使用视觉参数来描述已经存在的数据集中的图像。使用本体或输入模型的优点在于,为了测试,可以定义预期的测试覆盖目标,以便使用例如t-wise覆盖来定义测试结束标准,并且对于统计分析,可以定义关于这些参数的分布。

可以以不同的方式获得图像、视频和其他视觉数据以及共同注释的其他传感器数据(GPS数据、辐射测量数据、局部气象特性)。真实图像或视频可以由诸如摄像机系统之类的图像捕获设备来捕获。真实图像可能已经存在于数据库中,并且在给定视觉参数和/或其他传感器数据的情况下,可以对图像子集进行手动或自动选择。视觉参数和/或其他传感器数据也可被用于定义所需的实验。另一种方法可以是在给定视觉参数和/或其他传感器数据的情况下合成图像。可以使用图像增强技术、深度学习网络(例如,生成性对手网络(GAN)、变化自动编码器(VAE))和3D渲染技术来合成图像。在驾驶模拟的环境中用于3D渲染的工具例如是CARLA工具(Koltun,2017,www.arXiv.org:1711.03938处可找到)。

传统上,在计算机视觉模型的开发和测试中,基于根据专家意见看起来重要的属性(视觉参数)来定义、选择或生成输入图像。然而,与视觉参数的正确选择有关的专家意见可能是不完整的,或者被由人类感知的经验引起的假设误导了。人类感知是基于人类感知系统(人眼和视觉皮层)的,其不同于使用计算机视觉模型的检测和感知的技术特征。

在这种情况下,可以在不相关的图像属性上开发或测试计算机视觉模型(也称为计算机视觉模型),并且可能遗漏或低估作为重要影响因素的视觉参数。此外,技术系统可以检测附加特性(如偏振),或人类感知系统不可感知的扩展的光谱范围。

训练和/或测试计算机视觉模型需要大量(例如,>1e4、>1e5、>1e6、>1e7、>1e8、>1e9、>1e10)的视觉数据项和对应的地面实况。训练和/或测试计算机视觉模型16的标准方式是使用多项真正(换言之,真实)视觉数据和对应的地面实况数据作为训练数据或验证数据。希望训练和/或测试相关的视觉数据。

地面实况(例如,标签)定义了计算机视觉模型针对对应输入的预期输出,且因此定义正确测试结果。然而,手动定义地面实况(诸如例如标记图像或视频)是昂贵的并且容易出错的。相反,视觉数据项和对应的地面实况数据通常是合成的。作为一个示例,可以通过使用诸如图像增强或3D渲染之类的技术来增加视觉数据项的数量和对应的地面实况。作为另一示例,也可以通过施加或改变诸如天气条件之类的视觉参数来生成具有地面实况的新图像或视频。

确保计算机视觉模型的安全性是其在诸如自主车辆和机器人之类的安全关键应用中使用的焦点问题。与传统系统不同,新的计算机视觉模型是基于深度学习网络的,并且通过使用示例性图像和图像序列进行训练而被隐式地编程。假设是深度神经网络即使对于未见的输入也能正确地归纳。

观察到,假设输入分布类似于训练期间的输入分布(或类似于将在训练数据中表示的真实世界分布),则对计算机视觉功能的新(未见)输入的表现是高的。为了系统地和可靠地生成或选择训练数据集和/或验证数据集,良好的图像标准(视觉参数/或检测特性)是必要的,但是人类专家难以获得这样的标准并针对这样的标准而达成一致。本说明书提出了用于分析、确定、以及可选地可视化这样的视觉参数的相关性的手段。这样,可以定义包括相关视觉参数的(第二)视觉参数集。该参数集也可以称为操作设计域(ODD)。

图1示意性地示出了用于分析视觉参数的相关性以训练计算机视觉模型的开发和验证过程。这种示出的模型在计算机功能开发中被应用为“V模型”。

开发和验证过程旨在产生包括相关视觉参数的(第二)视觉参数集(ODD),其可以被视为用于再训练计算机视觉模型16的中间产品,后者是最终产品。提供了包括初始集或多个视觉参数10的视觉参数集。

对于视觉参数的初始集中的每个视觉参数,获得42(即,捕获、生成和/或选择)具有对应的地面实况48的视觉数据项。

计算机视觉模型16(可选地形成自主或半自主系统46的一部分)可以在视觉数据集和对应的地面实况48上进行训练47。作为替选,在计算机视觉模型16处于初始训练状态的情况下,可以省略训练步骤47。在任何情况下,针对视觉数据集和对应的地面实况48的每个项,都可以基于地面实况项和预测的地面实况项来计算17表现得分。在每种情况下,可以执行关于视觉参数10的表现得分的全局灵敏度分析19。全局灵敏度分析19表征了计算机视觉模型16相对于作为输入的视觉数据主体的表现。不需要来自人类操作者的反馈来提供全局灵敏度分析,并且其不表征人类对图像的感知的任何认知方面。换句话说,全局灵敏度分析是计算机视觉模型16对各种视觉参数的变化的响应有多好的技术品质因数。

全局灵敏度分析19的结果可以由专家操作员在图形用户界面中可视化49。可选地,专家操作员可以使用图形用户界面来细化和改进45视觉参数集。例如,每个全局灵敏度分析19的结果都可以是视觉参数10根据其相关性的排名,并且专家操作员可以对视觉参数的排名进行重新排序,但这不是必需的。

第一方面涉及一种计算机实现的方法100,其用于分析视觉参数的相关性以训练计算机视觉模型16。视觉参数的相关性从分析表现得分相对于(第一)视觉参数集的视觉参数的灵敏度中得到。相关性的量化测量可以是这些表现得分的方差。

所述方法包括获得110初始训练状态中的计算机视觉模型16,其被配置成执行表征观察场景的元素的计算机视觉模型。

所述方法还包括获得120视觉数据集,并从其选择视觉数据项的第一子集,以及提供对应于视觉数据的第一子集的地面实况数据的第一子集。

每项(真实的或合成的)视觉数据可以是数值张量。可选地,数值张量是表示具有连续视频帧的视频的额外维度。对应于视觉数据的一个项的地面实况数据的项是例如计算机视觉模型应当在理想条件下输出的分类和/或回归结果。例如,如果部分地根据湿路面的存在性来参数化视觉数据项,并且湿路面的存在与否是要训练的计算机模型的预期输出,则地面实况会将对相关联的视觉数据项的该项的描述返回为包括湿路面的图像。

每一项地面实况数据可以是另一数值张量,或者在更简单的情况下是二元结果向量。计算机视觉模型是由模型参数参数化的功能,所述模型参数在训练时可以使用机器学习技术基于训练数据集来学习。计算机视觉模型被配置成至少将视觉数据项或其一部分或子集映射到预测的地面实况数据项。

所述方法还包括获得130第一视觉参数集,其中,其中的至少一个视觉参数定义视觉数据的第一子集中的至少一个项的至少一个视觉状态,其中,该至少一个视觉状态能够影响计算机视觉模型的分类或回归结果。一个或多个视觉参数定义了视觉状态,因为它们包含关于观察场景的内容的信息和/或表示用于捕获和/或生成观察场景的边界条件。例如,视觉参数可以在专家的影响下决定,和/或使用分析软件来构成。视觉参数集也被称为操作设计域(ODD)。

所述方法还包括将视觉数据项的第一子集应用140到计算机视觉模型16以获得视觉数据项的第一子集中的观察场景的元素的多个预测,其中,预测包括视觉数据的第一子集中的至少一个项的至少一个分类结果和/或至少一个回归结果。

所述方法还包括使用地面实况数据的第一子集来计算150第一视觉参数集的对应的多个表现得分,其表征当提供至少一个分类结果和/或至少一个回归结果的预测时第一计算机视觉模型16的准确度。

所述方法还包括在第一视觉参数集的域上执行160多个表现得分的灵敏度分析。

作为一个示例,灵敏度测量可以是相对于视觉参数集中的视觉参数的表现得分的方差。或者,可以对视觉参数集中的视觉参数的子集、聚类和/或组合来评估灵敏度测量。作为说明,可以根据投影到太阳的倾斜度的维度和道路的湿度的维度二者上的视觉参数空间中的方向来给出两个视觉参数的组合。灵敏度测量可以从全局灵敏度分析19中得到。

所述方法还包括根据在第一视觉参数集的域上的多个表现得分的灵敏度分析,生成170视觉数据项的第二子集和对应于视觉数据的第二子集的地面实况数据的第二子集。例如,视觉数据项的第二子集和地面实况数据的第二子集可被用作训练数据集(参考第二方面)和/或验证数据集。

所述方法有利地用于生成用于训练和/或测试计算机视觉模型的改进的训练数据集和/或改进的验证数据集。改进涉及了将训练/验证数据集调整为视觉参数集的更相关的视觉参数,从而具有较小的偏差。更相关的视觉参数对计算机视觉模型的表现具有更高的方差,并且是由全局灵敏度分析产生的。对改进的训练数据集(参见第二方面)的训练可以产生能够更好地归纳视觉数据的未见(样本外)项的计算机视觉模型,从而增加由计算机视觉模型进行的预测的准确度。对改进的验证数据集的测试减少了测试的时间和成本。被预先训练的计算机视觉模型与稍后基于经验证的合成视觉数据和对应的地面实况来再训练计算机视觉模型不矛盾。这种再训练可以被看作计算机视觉模型的细化,并且如果需要,可以被迭代。因此,本技术可以在迭代的任何阶段应用,以在训练之前、在训练期间的任何阶段、以及作为训练完成之后的验证步骤,提供模型灵敏度的评估。

图2示意性地示出了根据第一方面的用于分析视觉参数的相关性以训练计算机视觉模型的计算机实现的方法。

作为一个示例,在步骤110中提供初始训练状态中的计算机视觉模型16。其被配置成执行表征观察场景的元素的计算机视觉功能。在步骤120中,获得视觉数据集,并从其中选择视觉数据项的第一子集。还提供了与视觉数据的第一子集相对应的地面实况数据的第一子集。在步骤130中,提供第一视觉参数集,其中,其中的至少一个视觉参数定义了视觉数据的第一子集中的至少一个项的至少一个视觉状态。至少一个视觉状态能够影响计算机视觉模型16的分类或回归结果。

步骤110、120、130的所示顺序不是必需的。对于来自第一视觉参数集的视觉参数10的每个样本(或在采样步骤11之后),生成或采样(即捕获或选择)包括视觉数据和地面实况数据的视觉数据集。

在步骤140中,视觉数据项的第一子集被应用于计算机视觉模型16以获得视觉数据项的第一子集中的观察场景的元素的多个预测。预测包括视觉数据的第一子集中的至少一项的至少一个分类结果和/或至少一个回归结果。

在步骤150中,当提供至少一个分类结果和/或至少一个回归结果的预测时,使用地面实况数据的第一子集来计算表征第一计算机视觉模型16的准确度的第一视觉参数集的对应多个表现得分。

在步骤160中,执行对第一视觉参数集的域上的多个表现得分的灵敏度分析。

在步骤170中,生成视觉数据项的第二子集和地面实况数据的第二子集。根据在第一视觉参数集的域上的多个表现得分的灵敏度分析,视觉数据项的第二子集和地面实况数据的第二子集对应于视觉数据的第二子集。

图5示意性地示出了用于分析视觉参数的相关性以训练计算机视觉模型的计算机实现方法的一个示例。

(例如,由专家)定义10包括例如在值或值范围方面的初始视觉参数集的初始或第一视觉参数集。对视觉参数的具体实例进行采样11。针对视觉参数的每个采样,由物理捕获设备捕获、由合成图像生成器生成和/或由数据库根据视觉参数提供视觉数据项和对应的地面实况48项。

此外,基于视觉数据项和对应的地面实况48项来训练计算机视觉模型16(可选地在自主系统46内)。或者,在预先训练的计算机视觉模型16的情况下,可以省略步骤47。在测试/验证步骤17中使用计算机视觉模型,以输出在42中获得的视觉数据项的预测地面实况项。这些项也可以不同于训练计算机视觉模型所获得的那些项,在这种情况下,可以重复步骤10、11和42,以生成将用于测试而不是训练计算机视觉模型16的新项。在步骤17中,基于地面实况项和预测地面实况项来计算表现得分。

使用全局灵敏度分析19来确定关于视觉参数集中的视觉参数的表现得分的灵敏度测量。全局灵敏度分析的结果可以由专家来可视化49。作为一个示例,步骤19可以包括基于对应的灵敏度测量来生成视觉参数集的多个视觉参数的排名。换句话说,这样的排名可以显示49表现得分相对于视觉参数或子集、聚类和/或其组合的变化的排序。全局灵敏度分析是评估(例如)计算机视觉模型16对参数空间中的所有视觉参数的方差的分析。然而,这不是必需的,并且可以在参数空间的子集上定义灵敏度分析。

专家能够改进或改善45视觉参数,从而定义第二视觉参数集10。如果需要,可以迭代该过程。

在一个实施例中,对第一视觉参数集的域上的多个表现得分的灵敏度分析包括计算第一视觉参数集的域上的表现得分的多个方差。

在一个实施例中,根据第一方面的方法100还包括通过添加、去除或重新定义至少一个视觉参数来修改第一视觉参数集,以便增加表现得分的方差的总体测量,从而产生第二视觉参数集。可选地,从第一视觉参数集去除第一视觉数据集中的具有低于对应显著性阈值的表现得分的对应方差的一个或多个视觉参数。

作为一个示例,重新定义视觉参数可以是将其值范围分段成子区间,并将每个这样的子区间提升到视觉参数的新维度。在视觉参数驻留在矢量空间中的情况下,坐标变换也将是视觉参数的重新定义。表现得分的方差的总体测量由对与每个视觉参数相对应的表现得分的方差的测量的算术运算(诸如平均、求和、加权等)来产生。

在一个实施例中,生成170视觉数据项的第二子集和地面实况数据的第二子集包括从视觉数据集中采样另外的视觉数据项和对应的地面实况,和/或合成另外的视觉数据项和对应的地面实况,每个都根据第二视觉参数集。

在一个实施例中,根据第一方面的方法100还包括根据多个表现得分的灵敏度分析生成第一视觉参数集的视觉参数的排名列表,从而产生第一排序的视觉参数集。换句话说,视觉参数可以根据它们的表现得分的方差来排名。然后根据多个表现得分中的相应表现得分相对于多个视觉参数的多个计算方差来提供第一视觉参数集的视觉参数的排名列表。

在一个实施例中,第一视觉参数集的域(或第二视觉参数集的域)包括有限维矢量空间中的视觉参数被允许位于其中的数值表示的子集,可选地包括连续或离散视觉参数的多维区间,或者有限维矢量空间中视觉参数的数值表示的集合。除了矢量空间之外的其他空间也是可想到的,只要它们允许全局灵敏度分析。

在一个实施例中,根据第一方面的方法100还包括经由输出接口向用户显示第一视觉参数集中的视觉参数的表现得分的多个方差,经由用户接口。换句话说,提供了视觉参数的相关性的可视化。这允许更好地理解计算机视觉模型特性,并因此测试计算机视觉模型的新设计。在显示这种信息时,用户或专家能够模拟例如对视觉参数集的修改或对输入数据集的修改的效果,以提供关于如何修改第一视觉参数集以获得具有更相关视觉参数的第二视觉参数集的信息。

在一个实施例中,根据第一方面的方法100还包括显示第一视觉参数集的视觉参数的排名列表。这种显示的排名列表可以容易地由专家进行解释。

在一个实施例中,根据第一方面的方法100还包括经由输入接口接收命令,以通过去除第一视觉参数集中的至少一个视觉参数和/或通过改变第一视觉参数集中的至少一个视觉参数的排名列表来修改第一视觉参数集,从而产生用户修改的视觉参数集,即第二视觉参数集。

在一个实施例中,根据用户修改的视觉参数集(即,根据第二视觉参数集)组装视觉数据项的第二子集和地面实况数据的第二子集。视觉数据项和地面实况项可以由例如摄像机的图像捕获设备来捕获、从具有对应地面实况的捕获或生成的图像的数据库中选择、或者由图像数据生成器来生成。

在一个实施例中,针对训练和/或验证数据集中的每个项,可以基于在观察场景内的一个或多个元素的预测和对应的地面实况数据项之间的比较来计算表现得分。具体地,多个表现得分包括或取决于混淆矩阵、查准率、查全率、F1得分、并集交集或平均均值中的任何一个或任何组合。

在一个实施例中,计算机视觉模型是神经网络或类神经网络,可选地是深度神经网络和/或卷积神经网络。类神经网络可以是例如给定数量的功能的组合,其中,至少一个功能是神经网络、深度神经网络或卷积神经网络。

在一个实施例中,使用从视觉数据和它们对应的地面实况获得的至少一个分类标签和/或至少一个回归值来计算表现得分。

计算机视觉模型16可被配置成输出包含在视觉数据的至少一个项中的场景中包括的至少一个元素的至少一个分类标签和/或至少一个回归值。分类标签可以例如指物体检测,特别是指像“车辆前方的障碍物/无障碍物”的事件。

回归值例如可以是响应于道路条件、交通标志、天气条件等的速度建议。

作为一个示例,至少一个分类标签与至少一个回归值的组合将输出速度限制检测与速度建议两者。当应用计算机视觉模型16(前馈)时,这样的输出涉及预测的地面实况数据项。在训练期间,计算机视觉模型16的这种输出在如下意义上涉及地面实况GT数据:在训练数据集上,地面实况数据的预测项(来自前馈)应当尽可能接近(真实)地面实况数据项,至少在统计上如此。

在一个实施例中,基于对多个表现得分的灵敏度的分析,将视觉参数集的多个视觉参数中的至少一个的值范围划分为多个子区间,其中,将多个子区间视为多个视觉参数的新维度。作为一个示例,视觉参数的值范围可以被分成多个子区间。每个这样的子区间可以提升到具有二进制值的新维度,该二进制值指示了视觉参数是否位于该子区间中。如果作为灵敏度分析的结果,发现从一个子区间到另一个子区间的表现行为非常不同,则这可以是有利的。

在一个实施例中,视觉参数可以包括选自以下列表中的一个或任意组合:

-描述图像捕获装置、可选地图像或视频捕获设备的配置的一个或多个参数,视频数据被取入或被合成地生成,以可选地用于空间和/或时间采样、失真像差、色深度、饱和度、噪声、吸收、表面的反射率;

-图像/视频的场景中的一个或多个光条件、光反弹、反射、光源、雾和光散射、总体照明;和/或

-图像/视频的场景的一个或多个特征,可选地,一个或多个物体和/或它们的位置、大小、旋转、几何形状、材料、纹理;

-所述图像/视频捕获设备的环境的或用于合成图像生成器的模拟捕获设备的一个或多个参数,可选地,环境特性、视距、降水特性、辐射强度;和/或

-图像特性,可选地,对比度、饱和度、噪声;

-图像/视频的场景的一个或多个域特定的描述,可选地,一个或多个汽车或道路用户,或者交叉路口上的一个或多个物体。

根据第二方面,提供了一种用于训练计算机视觉模型的计算机实现的方法。

根据第二方面的方法包括根据第一方面或其实施例的计算机实现的方法获得视觉数据项的第二子集和地面实况数据的第二子集作为训练数据集。

根据第二方面的方法包括使用训练数据集迭代地训练另外的计算机视觉模型。所述另外的计算机视觉模型可以是在第一方面的方法中使用的计算机视觉模型,或者其可以是另一个,例如,鉴于第一方面的方法的全局灵敏度分析的结果而调整和/或重新设计的计算机视觉模型。

根据第二方面的方法还包括输出另外的计算机视觉模型。输出另外的计算机视觉模型可视为以机器可读和/或机器可执行形式提供另外的计算机视觉模型以用于计算机视觉模型。

根据第二方面的方法有利地用于在根据第一方面的方法或其实施例而生成的改进的训练数据集上再训练计算机视觉模型。这种再训练可以被看作元学习或主动学习,因为从整体的观点(即,就涉及包括训练、确认和再训练的外环而言),训练数据集考虑到计算机视觉模型的中间表现而被改变。

第三方面涉及一种用于执行计算机视觉的装置300。

装置300包括输入接口310、处理器320、存储器330和输出接口340。图3中示意性地示出了数据处理装置300。

输入接口被配置成接收根据第二方面的方法训练的另外的计算机视觉模型16和另外的视觉数据集,并且将它们存储在存储器中。

处理器被配置成从存储器读取视觉数据集和另外的计算机视觉模型16,并且将视觉数据集应用于另外的计算机视觉模型16,从而生成至少一个图像分类和/或回归结果。

输出接口被配置成输出至少一个图像分类或回归结果。

第四方面涉及一种包括机器可读指令的计算机程序350,当由处理器360执行时,所述机器可读指令能够执行(i)根据第一方面或其实施例的用于提供视觉数据项的第二子集和地面实况数据的第二子集作为训练数据集的计算机实现的方法,和/或(ii)根据第二方面的方法的用于训练另外的计算机视觉模型16的计算机实现的方法。

装置300的存储器330存储了根据第四方面的计算机程序350,该计算机程序在由处理器320执行时使处理器320执行根据第一和第二方面的计算机实现的方法所描述的功能。根据一个示例,输入接口310和/或输出接口340是USB接口、以太网接口、WLAN接口或能够实现从装置300输入和输出数据样本的其他合适硬件中的一个。

在一个示例中,装置300还包括易失性和/或非易失性存储器系统330,其被配置成从输入接口310接收输入观察作为输入数据。

在一个示例中,装置300是如图4中的车辆中所包括的汽车嵌入式计算机,在这种情况下,汽车嵌入式计算机可以连接到车辆中存在的传感器440a、440b和致动器460。例如,装置300的输入接口310可以与提供速度、燃料消耗数据、电池数据、位置数据等的引擎控制单元ECU 450中的一个或多个对接。例如,装置300的输出接口340可以与多个制动致动器、节气门致动器、燃料混合物或燃料空气混合物致动器、涡轮增压器控制器、电池管理系统、汽车照明系统或娱乐系统等中的一个或多个对接。

第五方面涉及一种包括计算机程序中的一个或两个的计算机可读介质。

第六方面涉及一种分布式数据通信系统400,包括数据处理代理410、通信网络和终端设备430,其中,终端设备可选地包括在汽车或机器人中。

数据处理代理410(例如服务器)被配置成经由通信网络向终端设备发送根据权利要求11所述的方法所训练的另外的计算机视觉模型16。

换句话说,根据第一方面,在远程设施处训练计算机视觉模型,并且其经由通信网络作为对车辆、汽车或机器人的软件更新而发送到诸如自主车辆、半自主车辆、汽车或机器人之类的车辆。

通常,灵敏度分析(或更加更窄的全局灵敏度分析)可以被看作是模型或系统的输出中的不确定性如何可以被划分并分配给其输入中的不确定性的不同源的数值量化。这种量化可以称为灵敏度或稳健性。在本说明书的背景中,模型可以被认为是例如基于哪些视觉数据项已经被捕获/生成/选择的从视觉参数(或视觉参数坐标)X

Φ:X→Y。

基于方差的灵敏度分析(有时也称为Sobol方法或Sobol指数)是一种特定类型的(全局)灵敏度分析。为此,可以在概率意义上解释上述映射Φ的输入和输出两者的样本。实际上,作为一个示例,可以生成输入样本的(多变量)经验分布。类似地,对于输出样本,可以计算(多变量)经验分布。因此,可以计算输入和/或输出的方差(即表现得分)。基于方差的灵敏度分析能够将输出的方差分解成可以归因于输入坐标或输入坐标组的分数。例如,在两个视觉参数(即,n=2)的情况下,可以发现表现得分的方差的50%是由第一视觉参数(X

因此,当应用于本说明书的背景时,基于方差的灵敏度分析的重要结果是每个视觉参数的表现得分的方差。给定视觉参数的表现得分的方差越大,该视觉参数的表现得分变化越多。这表明基于该视觉参数的设置,计算机视觉模型更不可预测。

图6a示意性地示出了视觉参数的全局灵敏度分析的计算机实现的计算的第一种实现的一个示例。

图6b示意性地示出了视觉参数的全局灵敏度分析的计算机实现的计算的第二种实现的一个示例。

作为一个示例,对每个视觉参数31、对当前视觉参数32的每个值、对每个视觉数据项执行嵌套循环,并且对当前视觉参数的当前值捕获、生成和选择对应的地面实况项33,通过例如应用第二方法(根据第二方面)预测地面实况项。

在每个这样的步骤中,可以基于当前的地面实况项和当前的预测的地面实况项来计算17表现得分。在这样做时,例如可以根据查找表来定义从视觉参数到表现得分的映射。例如根据子范围或者视觉参数的各种值/子范围之间的组合或条件来分类、分组或聚类视觉参数是可能的并且通常是有意义的。

在图6a中,可以基于诸如例如一个类、组或聚类内的表现得分的最小值、最大值或平均值之类的算术运算来计算表现得分的方差(也称为表现方差)的测量。

或者,在图6b中,可通过使用全局灵敏度分析工具37来执行全局灵敏度分析。作为一个示例,可以生成并可视化表现得分的排名和/或表现得分的方差的排名,这两者都相对于视觉参数或其类、组或聚类。通过这种方式,可以确定视觉参数的相关性,尤其是与人类感知系统的偏差无关。此外,视觉参数(即操作设计域(ODD))的调整可以由量化标准来产生。

图6c示出了具有从全局灵敏度分析得到的表现得分的相应方差的视觉参数的排名列表。

图7a示意性地示出了用于定义视觉参数的世界模型和用于采样例程的一个示例性伪代码列表。在该示例中,伪代码包括用于引发点(spawn point)、凸轮偏航、凸轮俯仰、凸轮滚动、云量、降水、降水沉积、太阳倾斜(高度角)、太阳方位角的参数范围。此外,还示出了基于所有对测试的采样算法11的一个示例性实现。采样算法11用于对由世界模型定义的视觉参数集进行采样,其中,视觉参数的每个样本用于获得符合视觉参数样本的视觉数据和地面实况的项。视觉数据和地面实况的项可以通过产生与视觉参数样本相符的合成图像数据、使用视觉参数样本对真实图像数据的存档进行采样、或者指定与视觉参数样本相符的实验来获得。

图7b示出了用于评估视觉参数的灵敏度的一个示例性伪代码列表。在代码行(#)34、(#)35、(#)36中,可以使用其他算术运算,诸如例如标准偏差的计算。

附图中提供的和前述书面描述中描述的示例旨在提供对本说明书原理的理解。因此,不打算限制所附权利要求的范围。本说明书描述了对所图示的示例的变更和修改。仅给出了优选的示例,在本说明书范围内对这些示例的所有改变、修改和进一步应用都要求保护。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号