首页> 中国专利> 自动驾驶装置的对象识别方法以及自动驾驶装置

自动驾驶装置的对象识别方法以及自动驾驶装置

摘要

公开了一种对象识别方法,包括以下步骤:通过使用相机获取第一RGB图像;基于关于第一RGB图像的亮度信息预测第一RGB图像中的不能识别对象的至少一个第一区域;基于通过动态视觉传感器获取的对象信息,从所述至少一个第一区域确定存在对象的至少一个第二区域;通过控制与所述至少一个第二区域相关的相机的摄影设置信息来获取增强的第二RGB图像;以及识别第二RGB图像中的对象。

著录项

  • 公开/公告号CN112805718A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 三星电子株式会社;

    申请/专利号CN201980065499.5

  • 发明设计人 朴奎泰;廓世珍;

    申请日2019-09-26

  • 分类号G06K9/00(20060101);G06K9/46(20060101);B60W40/02(20060101);G05D1/02(20200101);H04N5/235(20060101);

  • 代理机构11286 北京铭硕知识产权代理有限公司;

  • 代理人曾世骁;田方

  • 地址 韩国京畿道水原市

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本公开涉及一种在自动驾驶期间识别邻近对象的方法和使用该方法的自动驾驶装置。

背景技术

随着对自动驾驶车辆的兴趣的增加,实现自动驾驶的技术正引起关注。为了使车辆在没有驾驶员操作的情况下自行移动,使用了:(1)用于识别车辆的外部环境的技术,(2)用于合成识别的信息、确定操作(诸如加速、停止和转弯)以及确定驾驶路线的技术,以及(3)用于通过使用确定的信息来控制车辆的移动的技术。所有这些技术必须有机地组合以实现自动驾驶,但是用于识别车辆的外部环境的技术变得越来越重要。这是因为识别外部环境是自动驾驶的第一要素,并且需要电气、电子和信息技术的融合来识别外部环境。

用于识别外部环境的技术可以大致分类为基于传感器的识别技术和基于连接的识别技术。安装在车辆上用于自动驾驶的传感器包括超声传感器、相机、雷达和激光雷达传感器,并且被单独地或者与其它传感器一起安装在车辆上的这些传感器识别车辆的外部环境和地形、并向驾驶员和车辆提供信息。

基于连接的用于自动驾驶的识别技术包括V2X和精确定位。V2X是指车辆到一切,其中,V2X包括:用于车辆之间通信的车辆到车辆(V2V)、用于与基础设施通信的车辆到基础设施(V2I)以及用于与行人通信的车辆到行人(V2P)。V2X可以指将行驶的车辆连接到周围车辆、运输基础设施和附近行人的无线通信技术。可以通过建立的通信网络来交换信息(诸如车辆的位置、距离和速度),并且可以向车辆提供信息(诸如周围交通信息和行人位置)。

发明内容

问题的解决方案

实施例涉及一种由自动驾驶装置执行的对象识别方法,由此通过使用相机,通过基于由动态视觉传感器检测到的对象信息调整相机的摄影配置信息来提高对外部对象的识别率。

根据实施例,一种由自动驾驶装置执行的识别对象的方法包括:通过使用布置在自动驾驶装置中的相机获得第一RGB图像;基于第一RGB图像的亮度信息,预测第一RGB图像中的不能识别对象的至少一个第一区域;基于通过布置在自动驾驶装置中的动态视觉传感器(DVS)获得的对象信息,从所述至少一个第一区域确定存在对象的至少一个第二区域;通过控制与所述至少一个第二区域相关的相机的摄影配置信息来获得增强的第二RGB图像;以及识别第二RGB图像中的对象。

根据实施例,一种自动驾驶装置包括:相机;动态视觉传感器(DVS);以及至少一个处理器,其中,所述至少一个处理器被配置为:通过使用相机获得第一RGB图像;基于第一RGB图像的亮度信息,预测第一RGB图像中的不能识别对象的至少一个第一区域;基于通过动态视觉传感器获得的对象信息,从所述至少一个第一区域确定存在对象的至少一个第二区域;通过控制与所述至少一个第二区域相关的相机的摄影配置信息来获得增强的第二RGB图像;以及识别第二RGB图像中的对象。

根据实施例,一种计算机程序产品可以在其中存储程序,其中,所述程序用于执行以下操作:通过使用相机获得第一RGB图像;基于第一RGB图像的亮度信息,预测第一RGB图像中的不能识别对象的至少一个第一区域;基于通过动态视觉传感器(DVS)获得的对象信息,从所述至少一个第一区域确定存在对象的至少一个第二区域;通过控制与所述至少一个第二区域相关的相机的摄影配置信息来获得增强的第二RGB图像;以及识别第二RGB图像中的对象。

附图说明

图1是用于解释根据实施例的自动驾驶装置的示图。

图2是用于解释根据实施例的由自动驾驶装置使用的对象识别方法的流程图。

图3是用于解释根据实施例的在RGB图像中确定的不能识别对象的区域和感兴趣区域的示图。

图4是用于解释根据实施例的相机的摄影配置信息的示图。

图5是用于解释根据实施例的通过使用直方图来识别对象的方法的流程图。

图6是用于解释根据实施例的通过使用直方图来确定在RGB图像中是否存在不能识别对象的区域的操作的示图。

图7是用于解释根据实施例的确定RGB图像中的不能识别对象的区域的操作的示图。

图8是用于解释根据实施例的通过使用人工智能模型来识别对象的方法的流程图。

图9是用于解释根据实施例的将RGB图像和DVS图像应用于AI处理器的操作的示图。

图10是用于解释根据实施例的由自动驾驶装置执行以获得增强的RGB图像的操作的示图。

图11是用于解释根据实施例的当进入隧道时由自动驾驶装置执行以获得增强的RGB图像的操作的示图。

图12是用于解释根据实施例的当在RGB图像中存在由于背光引起的不能识别对象的区域时控制相机的摄影配置信息的操作的示图。

图13是用于解释根据实施例的根据多个感兴趣区域的优先级来控制相机的摄影配置信息的方法的流程图。

图14是用于解释根据实施例的多个感兴趣区域的优先级的示图。

图15是用于解释根据实施例的由自动驾驶装置执行以跟踪对象的方法的流程图。

图16是用于解释根据实施例的由自动驾驶装置执行以通过使用相机来识别和跟踪由动态视觉传感器检测到的新对象的操作的示图。

图17是用于解释根据实施例的自动驾驶装置的配置的框图。

图18是根据实施例的处理器的框图。

图19是根据实施例的数据学习器的框图。

图20是根据实施例的数据识别器的框图

图21是示出根据实施例的自动驾驶装置和服务器交互操作以学习和识别数据的示例的示图。

具体实施例

将简要描述本说明书中使用的术语,并且将详细描述本公开的实施例。

考虑到本公开中使用的术语在本公开中的功能,本公开中使用的术语选自当前广泛使用的常见术语。然而,根据本领域普通技术人员的意图、先例或新技术的出现,术语可以不同。此外,在特定情况下,术语由本公开的申请人任意选择,在这种情况下,将在具体实施例的相应部分中详细描述那些术语的含义。因此,本公开中使用的术语不仅仅是对术语的指定,而是基于贯穿本公开的术语的含义和内容来定义术语。

在整个说明书中,当部件“包括”元件时,应当理解,只要没有特定的相反叙述,该部件另外包括其他元件而不是排除其他元件。此外,说明书中描述的术语(诸如“……器(件)”、“……单元”、“……模块”等)表示执行至少一个功能或操作的单元,其中,所述单元可以被实现为硬件或软件或者硬件和软件的组合。

在下文中,现在将参照附图详细描述本公开的实施例,以使本领域技术人员能够毫无困难地执行本公开。然而,本公开可以以许多不同的形式被实现,并且不应被解释为限于本文阐述的本公开的实施例。此外,省略了附图中与详细描述无关的部分以确保本公开的清楚,并且附图中相同的附图标号表示相同的元件。

图1是用于解释根据实施例的自动驾驶装置的示图。

根据实施例的自动驾驶装置100可以指能够在不依赖于从外部输入的控制命令的情况下自动驾驶的装置,并且可以包括例如自动驾驶车辆、自主飞行装置(例如,无人机或无人驾驶飞行装置)、自动驾驶机器人(例如,清洁机器人或灾难救援机器人)等,但不限于此。在下文中,为了便于描述,自动驾驶装置100是自动驾驶车辆的情况将被描述为示例。

根据实施例,自动驾驶装置100可以包括相机101、动态视觉传感器102和处理器120,但不限于此。例如,自动驾驶装置100还可以包括激光雷达传感器、雷达传感器、惯性传感器(惯性测量单元(IMU))、超声传感器、红外传感器、位置传感器(例如,全球定位系统(GPS)模块)、地磁传感器、加速度传感器、陀螺仪传感器等。根据另一实施例,自动驾驶装置100还可以包括通信器(例如,蓝牙通信器、蓝牙低功耗(BLE)通信器、近场通信(NFC)通信器、Zigbee通信器、超宽带(UWB)通信器和移动通信器)、驱动单元(电源、推进单元、行进单元和外围装置单元)、输出器和存储单元。将参照图17详细描述自动驾驶装置100的配置。

根据实施例的相机101可以识别存在于距自动驾驶装置100特定距离内的至少一个对象。这里,可以提供用于识别对象的一个或更多个相机101。例如,相机101可以是前置相机、后置相机和侧置相机中的至少一个,并且相机101可以是立体相机或环视相机。

另外,由相机101捕获的对象可以包括静态环境元素(例如,车道、可行驶道路、交通标志、交通灯、隧道、桥、街道树等)和动态环境元素(例如,车辆、行人、摩托车等),但不限于此。例如,由相机101捕获的对象可以包括可被应用于位置识别技术(例如,即时定位与地图构建(SLAM)或视觉惯性里程计(VIO))的特征(例如,特征点和特征线)。

然而,因为典型的相机101的动态范围不高,所以相机101难以在非常暗的地方或非常亮的地方捕获对象。例如,当进入隧道(在100-1中示出)时,布置在自动驾驶装置100中的相机101可能难以捕获隧道中的暗区域10中的对象。此外,当离开隧道(在100-2中示出)时,布置在自动驾驶装置100中的相机101可能难以捕获隧道外部的亮区域20中的对象,并且还可能难以捕获由背光照亮的区域30中的对象(在100-3中示出)。此外,当自动驾驶装置100正在经过照明极端改变的区域或阴影区域、在夜间高速移动、或者出现具有与背景的颜色相似的颜色的对象时,相机101难以清楚地捕获所述对象。

因此,为了安全驾驶自动驾驶装置100,有必要在低照度环境中或在存在背光的情况下增大相机101的对象识别率。例如,根据实施例,自动驾驶装置100可以通过使用由动态视觉传感器102检测到的信息控制相机101的摄影配置信息来提高相机101的对象识别率。

动态视觉传感器102是以高速捕获视觉改变的基于事件的相机,并且是一种可以获得移动对象的图像数据的传感器。例如,动态视觉传感器102可以仅当发生由运动引起的以像素为单位的局部改变时将图像数据发送到处理器120。也就是说,当发生运动事件时,动态视觉传感器102可以将图像数据发送到处理器120。

动态视觉传感器102可以解决典型的视觉识别系统易受快速运动影响的问题。因为动态视觉传感器102基于每个像素而不是基于每个帧接收数据,所以可以克服模糊现象。

另外,动态视觉传感器102可以具有以微秒为单位的分辨率。换言之,动态视觉传感器102可以具有比每秒拍摄数千帧的超高速相机更好的时间分辨率(例如,超高速帧>1KFPS)。另外,动态视觉传感器102具有显著降低的功耗和数据存储要求,导致动态范围(可由传感器识别的亮度范围)显著增大。因此,即使在黑暗的地方,当仅存在少量的光时,动态视觉传感器102也可以检测到对象的运动。

根据实施例,动态视觉传感器102可以靠近相机101。另外,可以调整动态视觉传感器102的视场(FOV)或动态视觉传感器102的姿态,使得动态视觉传感器102获得与由相机101捕获的图像的区域相似的区域的图像。根据实施例,动态视觉传感器102的帧率可以被设置为与相机101的帧率相同或相似,但不限于此。

根据实施例,当自动驾驶装置100正在行驶时,布置在自动驾驶装置100中的动态视觉传感器102可以检测以像素为单位的局部变化,并且可以将关于检测到的局部变化的信息发送到处理器120。在这种情况下,因为动态视觉传感器102具有比相机101的动态范围更宽的动态范围,所以处理器120可以从动态视觉传感器102接收关于未被相机101捕获的对象的信息。在这种情况下,处理器120可以控制相机101的摄影配置信息,使得未被相机101捕获但是被动态视觉传感器102检测到的对象可以被相机101捕获。根据实施例,处理器120可以包括通用图像信号处理器(ISP)或人工智能处理器(AI处理器)。

在下文中,将参照图2详细描述由自动驾驶装置100的处理器120执行的通过使用由动态视觉传感器102检测到的信息控制相机101的摄影配置信息来提高相机101的对象识别率的方法。

图2是用于解释根据实施例的自动驾驶装置的对象识别方法的流程图。

在操作S210,自动驾驶装置100可以通过使用相机101获得第一RGB图像。

根据实施例,第一RGB图像是用于识别自动驾驶装置100周围的至少一个对象的图像,并且可以由至少一个帧组成。例如,在第一RGB图像是静止图像的情况下,第一RGB图像可以由单个帧组成,而在第一RGB图像是运动图像的情况下,第一RGB图像可以由多个帧组成。

根据实施例,自动驾驶装置100可以在驾驶时通过使用相机101获得第一RGB图像,或者可以在自动驾驶装置100停放或停止之后通过使用相机101获得第一RGB图像。

在操作S220,自动驾驶装置100可以基于第一RGB图像的亮度信息从第一RGB图像预测不能识别对象的至少一个第一区域。这里,亮度信息可以是指示第一RGB图像中的每个像素的亮度等级的信息。亮度信息可以包括每个像素的亮度值、关于比第一参考亮度值更暗的区域的信息以及关于比第二参考亮度值更亮的区域的信息,但不限于此。

根据实施例,自动驾驶装置100可以确定第一RGB图像中存在不能识别对象的区域的概率是否超过阈值。不能识别对象的区域可以指亮度值在阈值范围(例如,50至200)之外的区域(例如,相当暗或相当亮的区域)。例如,自动驾驶装置100可以通过使用第一RGB图像的直方图来确定第一RGB图像中存在不能识别对象的区域的概率。在第一RGB图像的直方图的分布偏向0或255的情况下,自动驾驶装置100可以确定在第一RGB图像中存在不能识别对象的区域的概率高。将参照图5详细描述由自动驾驶装置100使用直方图的操作。

根据实施例,自动驾驶装置100可以基于第一RGB图像与通过动态视觉传感器102获得的动态视觉传感器(DVS)图像之间的差异来确定第一RGB图像中存在不能识别对象的区域的概率。例如,从DVS图像检测到的边缘信息(或强度信息)与从第一RGB图像检测到的边缘信息(或强度信息)之间的差异越大,自动驾驶装置100可以确定的第一RGB图像中存在不能识别对象的区域的概率越高。

根据实施例,自动驾驶装置100可以通过使用已经基于多个RGB图像训练的人工智能模型来确定第一RGB图像中存在不能识别对象的区域的概率。将参照图8详细描述由自动驾驶装置100使用人工智能模型的操作。

在自动驾驶装置100已经确定第一RGB图像中存在不能识别对象的区域的概率大于阈值的情况下,自动驾驶装置100可以通过使用第一RGB图像的亮度信息从第一RGB图像预测不能识别对象的至少一个第一区域。这里,不能识别对象的所述至少一个第一区域可以是指示不能识别对象的可能性的程度超过阈值的区域。例如,自动驾驶装置100可以将第一RGB图像中的亮度值在阈值范围之外的区域(例如,相当暗或相当亮的区域)定义为不能识别对象的所述至少一个第一区域。因此,仅少量特征可以在不能识别对象的所述至少一个第一区域中被检测到。在下文中,为了便于描述,不能识别对象的所述至少一个第一区域可以被表示为不能识别对象的区域。

在操作S230,自动驾驶装置100可以基于通过布置在自动驾驶装置100中的动态视觉传感器102获得的对象信息,从所述至少一个第一区域确定存在对象的至少一个第二区域。在下文中,为了便于描述,所述至少一个第二区域可以被表示为感兴趣区域。

根据实施例,自动驾驶装置100可以通过动态视觉传感器102获得对象信息。对象信息是关于由动态视觉传感器102检测到的对象的信息,并且可以包括DVS图像和从DVS图像检测到的至少一个对象的位置信息中的至少一个,但不限于此。

根据实施例,自动驾驶装置100可以将DVS图像与第一RGB图像进行比较,以将第一RGB图像的所述至少一个第一区域中存在对象的概率大于阈值(例如,98%)的区域定义为感兴趣区域。例如,感兴趣区域可以是DVS图像具有大量特征信息而第一RGB图像具有少量特征信息的区域。

将参照图3描述不能识别对象的区域和感兴趣区域。参照图3的300-1,自动驾驶装置100可以在通过隧道时获得RGB图像310。在这种情况下,在RGB图像310上,隧道出口区域可能看起来是亮的,而隧道内部的区域可能看起来是暗的。自动驾驶装置100可以通过使用RGB图像310的直方图或通过使用人工智能模型来分析RGB图像310。作为分析的结果,自动驾驶装置100可以将亮度值在阈值范围之外的区域311、312、313、314、315(隧道出口区域)、316和317定义为不能识别对象的区域。在这种情况下,区域311、312、313、316和317可以是隧道内部的区域并且是相当暗的,而区域314和315可以是由于从隧道的出口入射的光而相当亮的区域。

参照图3的300-2,自动驾驶装置100可以将RGB图像310的区域311至317分别与DVS图像320的相应区域进行比较。这里,由于隧道出口区域315是亮的,所以可能不会在RGB图像310中捕获到对象,而可以在DVS图像的相应区域321中检测到对象。因为动态视觉传感器102具有比相机101的动态范围更宽的动态范围,所以动态视觉传感器102可以检测亮区域中的对象。

因此,自动驾驶装置100可以将动态视觉传感器102检测到对象但是相机101未捕获到对象的区域(例如,隧道出口区域315)定义为感兴趣区域。

在操作S240,自动驾驶装置100可以通过控制相机101的摄影配置信息来获得与所述至少一个第二区域(为了便于描述,称为感兴趣区域)相应的增强的第二RGB图像。这里,相机101的摄影配置信息可以包括曝光信息、聚焦信息、白平衡信息或模式信息,但不限于此。此外,增强的第二RGB图像可以指具有被调整为使得能够在与第一RGB图像的第二区域相应的区域中进行对象检测的亮度的图像。

根据实施例,自动驾驶装置100可以检查相机101的当前摄影配置信息并控制摄影配置信息,使得可以调节感兴趣区域的亮度。例如,自动驾驶装置100可以针对感兴趣区域控制曝光、聚焦和白平衡中的至少一个。特别地,自动驾驶装置100可以通过调整相机101的增益、光圈和曝光时间中的至少一个来控制针对感兴趣区域的曝光值。例如,在感兴趣区域是暗区域的情况下,自动驾驶装置100可以适当地调整增益、光圈和曝光时间,以控制感兴趣区域在增强的第二RGB图像中看起来更亮。相反,在感兴趣区域是亮区域的情况下,自动驾驶装置100可以适当地调整增益、光圈和曝光时间,以控制感兴趣区域在增强的第二RGB图像中看起来更暗。

参照图4,光圈410是指光穿过的透镜的孔。当光圈410关闭(右)以增大深度时,聚焦近区域和远区域的图像被输出,而当光圈410打开(左)以减小深度时,被摄体和背景彼此分离(称为失焦)的图像被输出。随着快门速度420增大(左),快速移动对象看起来冻结的图像被输出,而随着快门速度420减小(右),模糊图像被输出。随着ISO灵敏度430降低(左),具有小噪声的图像被输出。随着ISO灵敏度430增大(右),噪声增大,并且即使在黑暗环境中也可以拍摄到没有抖动的图像。

随着ISO灵敏度430降低(左),对比度增大。相反,随着ISO灵敏度430增大,对比度降低,因此拍摄到模糊的图像。在ISO灵敏度430低的情况下,胶片颗粒细小并导致锐化的图像,而在ISO灵敏度430高的情况下,胶片颗粒粗大并导致粗糙的图像。

因此,根据实施例,在感兴趣区域暗的情况下,自动驾驶装置100可以增大相机101的灵敏度430,或者可以控制快门速度420降低。相反,在感兴趣区域亮的情况下,自动驾驶装置100可以降低相机101的灵敏度430。

另外,根据实施例,在感兴趣区域被背光照亮的情况下,自动驾驶装置100可以将测光模式改变为例如评估测光、部分测光、中心加权平均测光或点测光中的任何一种,或者可以改变自动聚焦点(AF点)。例如,在感兴趣区域是亮区域的情况下,自动驾驶装置100可以通过将AF点移动到感兴趣区域来获得完全暗的第二RGB图像。

另外,根据实施例,自动驾驶装置100可以选择宽动态范围(WDR)功能。宽动态范围(WDR)是一种用于使图像的亮区域和暗区域都能够清楚地出现的技术。通过该技术,用于亮区域的高速快门图像信号和用于暗区域的低速快门图像信号被合并成图像,因此可以解决由于背光引起的问题以产生清晰图像。

根据实施例,自动驾驶装置100的AI处理器可以通过使用已经被训练为控制摄影配置信息的人工智能模型来控制相机101的摄影配置信息。将参照图8详细描述由自动驾驶装置100通过使用人工智能模型来控制相机101的摄影配置信息的操作。

在操作S250,自动驾驶装置100可以识别第二RGB图像中的对象。

根据实施例,自动驾驶装置100可以从第二RGB图像的感兴趣区域提取构成对象的至少一个特征。第二RGB图像的感兴趣区域可以与第一RGB图像的感兴趣区域相应。自动驾驶装置100可以通过使用至少一个提取的特征来识别第二RGB图像的感兴趣区域中的对象。根据实施例,对象的识别可以包括确定对象的类型。

根据实施例,自动驾驶装置100可以通过使用模板信息或人工智能模型来识别与第一RGB图像的感兴趣区域相应的第二RGB图像的感兴趣区域中的对象。例如,自动驾驶装置100可以通过分析通过相机101获得的第二RGB图像来确定对象的类型。例如,在对象是外部车辆的情况下,自动驾驶装置100可以检测包括在第二RGB图像中的外部车辆的轮廓作为特征。自动驾驶装置100可以将检测到的外部车辆的轮廓与预定模板进行比较,以检测外部车辆的类型、外部车辆的名称等。例如,在外部车辆的轮廓与公共汽车的模板相似的情况下,自动驾驶装置100可以将外部车辆识别为公共汽车。另外,因为典型的公共汽车大且重,所以自动驾驶装置100可以将外部车辆的类型定义为大型车辆。

根据实施例,自动驾驶装置100可以通过使用精确地图来识别第二RGB图像的感兴趣区域中的对象。这里,精确地图不仅可以包括车辆行驶所需的道路信息,还可以包括比现有地图精确得多并且与实际道路具有例如10-20cm或更小的误差的地图。例如,自动驾驶装置100可以调用自动驾驶装置100的周围环境的精确地图。自动驾驶装置100可以将第二RGB图像与调用的精确地图进行比较,以识别第二RGB图像的感兴趣区域中的静态对象。例如,自动驾驶装置100可以通过将从第二RGB图像提取的特征与精确地图进行比较来识别对象是车道、停止线、道路标志、道路结构等。

另外,自动驾驶装置100可以通过使用精确地图来识别所识别的对象的当前位置(例如,绝对位置)、在所识别的对象是外部车辆的情况下外部车辆正在行驶的车道(例如,第一车道)等。

根据实施例,在识别的对象是动态对象(例如,外部车辆)的情况下,自动驾驶装置100可以通过使用相机101来跟踪识别的对象。对象跟踪是指通过使用一系列图像帧中的相同对象的特征信息(诸如大小、颜色、形状或轮廓)之间的相似性来跟踪对象的改变。

根据实施例,动态视觉传感器102可以比相机101更早地检测到在自动驾驶装置100周围出现的新对象。因此,根据实施例,在动态视觉传感器102已经检测到新对象的情况下,自动驾驶装置100可以基于检测到新对象的位置来确定在相机101的RGB图像上识别出新对象的可能性大于阈值的候选区域。自动驾驶装置100可以通过对候选区域执行图像处理来识别和跟踪RGB图像上的新对象。在这种情况下,自动驾驶装置100可以通过仅对候选区域而不是对整个RGB图像执行图像处理来快速识别新对象,以便通过使用相机101捕获新对象。将参照图15详细描述由自动驾驶装置100识别和跟踪对象的操作。

根据实施例,在第二RGB图像由多个帧组成的情况下,自动驾驶装置100可以通过跟踪包括在从所述多个帧中的每个帧识别的对象中的特征来获得自动驾驶装置100的位置信息。例如,自动驾驶装置100可以将包括在从第二RGB图像识别的对象中的特征用作将被应用于视觉里程计(例如,使用VIO或立体相机的视觉里程计)的特征。这里,视觉里程计是一种用于通过使用先前帧与当前帧之间的差来预测移动装置的位置改变的技术。

根据实施例,因为针对所有像素计算先前帧和当前帧的改变需要相当大量的计算,所以自动驾驶装置100可以从每个帧中提取可以表示场景变化的特征(诸如线或角),并且可以匹配提取的特征。

根据实施例,自动驾驶装置100可以通过在当前帧中匹配从先前帧提取的特征点来产生运动矢量,其中,从所述运动矢量可以预测场景上的特征点的位置改变。因为运动矢量表示二维空间(x,y)中的图像改变,所以自动驾驶装置100可以通过添加来自立体相机的距离信息(深度)或来自惯性传感器(IMU)的距离信息来将运动矢量转换为三维空间(x,y,z)中的坐标。自动驾驶装置100可以通过使用来自一组匹配的特征点的与先前帧中的特征点相应的三维坐标和与当前帧中的特征点相应的三维坐标来计算表示实际空间的变化量的三维运动矢量。自动驾驶装置100可以通过使用该三维运动矢量来识别自动驾驶装置100的当前位置。

在室外环境中,因为道路的纹理既不均匀也不平坦,所以难以使用编码器进行位置识别,并且在全球定位系统(GPS)的情况下,当被人造结构(诸如隧道或建筑物)包围时可能无法接收信号,并且因为其相当昂贵的价格,所以难以使用具有六个自由度的惯性导航系统(INS)。因此,根据实施例,可以通过使用从第二RGB图像提取的特征来识别自动驾驶装置100的位置,因此GPS和INS的缺点可被减轻。

根据实施例,自动驾驶装置100可以基于通过视觉里程计识别的位置信息来产生地图。

根据实施例,自动驾驶装置100可以基于关于从第二RGB图像识别的对象的信息来确定自动驾驶装置100的路线。例如,在从第二RGB图像识别的对象是障碍物的情况下,自动驾驶装置100可以规划用于避开障碍物的运动。例如,自动驾驶装置100可以改变车道或降低其速度。另外,在从第二RGB图像识别的对象是指示停车标志的交通灯的情况下,自动驾驶装置100可以规划用于在停止线前方停车的路线。

因此,根据实施例,通过基于由动态视觉传感器102检测到的信息控制相机101的摄影配置信息,即使在照明极端改变的环境中,自动驾驶装置100也可以提高相机101的对象识别率。另外,随着相机101的对象识别率增大,可以提高当前位置识别率、规划路线的精度和对象跟踪率。

在下文中,将参照图5详细描述自动驾驶装置100使用直方图的操作。

图5是用于解释根据实施例的通过使用直方图来识别对象的方法的流程图。

在操作S500,自动驾驶装置100可以通过使用相机101来获得第一RGB图像。

操作S500与图2的操作S210相应,因此,将省略其详细描述。

在操作S510,自动驾驶装置100可以分析第一RGB图像以获得第一RGB图像的直方图。直方图以图形表示图像的亮度分布。例如,直方图可以具有0到255的亮度值范围,并且每个亮度值的频率(像素的数量)可被表示为矩形的高度。也就是说,直方图的水平轴可以表示亮度值,并且直方图的垂直轴可以表示像素的数量。因此,在第一RGB图像大致为暗的情况下,可以获得具有偏向0的分布的直方图,而在第一RGB图像大致为亮的情况下,可以获得具有偏向255的分布的直方图。

在操作S520,自动驾驶装置100可以通过使用第一RGB图像的直方图来确定在第一RGB图像中是否存在不能识别对象的区域。

根据实施例,在直方图的分布不均匀并且向左或向右偏置的情况下,自动驾驶装置100可以确定存在不能识别对象的区域。

例如,参照图6,第一直方图610的亮度分布不均匀,并且向左和向右偏置。在这种情况下,因为第一RGB图像可能由大部分亮区域和暗区域组成,所以自动驾驶装置100可以确定在第一RGB图像中存在不能识别对象的区域的概率高。另一方面,第二直方图620的亮度分布是均匀的从0到255,自动驾驶装置100可以确定在第一RGB图像中存在不能识别对象的区域的概率低。

在操作S530,在自动驾驶装置100已经确定不存在不能识别对象的区域的情况下,自动驾驶装置100可以不修改相机101的摄影配置信息。也就是说,自动驾驶装置100可以基于相机101的当前摄影配置信息连续地获得RGB图像。在操作S535,因为在第一RGB图像中不存在不能识别对象的区域,所以自动驾驶装置100可以从第一RGB图像识别对象。

在操作S540,在自动驾驶装置100已经确定存在不能识别对象的区域的情况下,自动驾驶装置100可以从第一RGB图像预测不能识别对象的至少一个第一区域(不能识别对象的区域)。这里,不能识别对象的所述至少一个第一区域可以是亮度值在阈值范围之外的区域。

当第一RGB图像被转换为直方图时,第一RGB图像的所有空间信息都丢失。也就是说,直方图指示具有每个亮度值的像素的数量,但是不提供关于像素位于何处的任何信息。因此,自动驾驶装置100可以通过使用直方图来确定阈值,以便识别第一RGB图像中的不能识别对象的区域。例如,自动驾驶装置100可以分析直方图以确定用于检测由于区域的暗度而不能识别对象的区域的第一参考值或用于检测由于区域的亮度而不能识别对象的区域的第二参考值。

例如,参照图7,第一RGB图像的直方图700可以被划分为具有0和70之间的亮度值的一组像素和具有240和250之间的亮度值的另一组像素。因此,自动驾驶装置100可将第一参考值701定义为“80”,用于检测由于区域的暗度而不能识别对象的暗区域710。在这种情况下,自动驾驶装置100可以通过将具有小于80的亮度值的像素表示为“1”并且将具有大于或等于80的亮度值的像素表示为“0”来定义由于区域的暗度而不能识别对象的暗区域710。另外,自动驾驶装置100可以将第二参考值702定义为“230”,用于检测由于区域的亮度而不能识别对象的亮区域720。在这种情况下,自动驾驶装置100可以通过将具有大于230的亮度值的像素表示为“1”并且将具有小于或等于230的亮度值的像素表示为“0”来定义由于区域的亮度而不能识别对象的亮区域720。

尽管图7示出了第一参考值701与第二参考值702不同的情况,但是本公开不限于此。根据实施例,第一参考值701和第二参考值702可以是相同的值。例如,自动驾驶装置100可以将第一参考值701和第二参考值702都定义为“150”。在这种情况下,自动驾驶装置100可以通过将具有小于150的亮度值的像素表示为“1”来定义暗区域710,并且可以通过将具有大于150的亮度值的像素表示为“1”来定义亮区域720。

在操作S550,自动驾驶装置100可以将通过动态视觉传感器102获得的DVS图像的对象信息与第一RGB图像的对象信息进行比较,以从所述至少一个第一区域确定存在对象的至少一个第二区域(感兴趣区域)。

例如,自动驾驶装置100可以将DVS图像具有大量特征信息而第一RGB图像具有少量特征信息的区域定义为感兴趣区域。

操作S550与图2的操作S230相应,因此,将省略其详细描述。

在操作S560,自动驾驶装置100可以控制与所述至少一个第二区域(感兴趣区域)相关的相机101的摄影配置信息。在操作S570,自动驾驶装置100可以基于修改后的摄影配置信息从相机101获得增强的第二RGB图像。

根据实施例,自动驾驶装置100可以检查相机101的当前摄影配置信息并控制摄影配置信息,使得可以修改感兴趣区域的亮度。例如,自动驾驶装置100可以针对感兴趣区域控制曝光、聚焦和白平衡中的至少一个。特别地,自动驾驶装置100可以通过调整相机101的增益、光圈和曝光时间中的至少一个来控制针对感兴趣区域的曝光值。例如,在感兴趣区域是暗区域的情况下,自动驾驶装置100可以适当地调整增益、光圈和曝光时间,以控制感兴趣区域在增强的第二RGB图像中看起来更亮。相反,在感兴趣区域是亮区域的情况下,自动驾驶装置100可以适当地调整增益、光圈和曝光时间,以控制感兴趣区域在增强的第二RGB图像中看起来更暗。

操作S560和操作S570与图2的操作S240相应,将省略它们的详细描述。

在操作S580,在从第二RGB图像的感兴趣区域(与第一RGB图像的所述至少一个第二区域相应的区域)未识别出对象的情况下,自动驾驶装置100可以再次控制与所述至少一个第二区域(感兴趣区域)相关的相机101的摄影配置信息。例如,在感兴趣区域是暗区域的情况下,自动驾驶装置100还可以增大相机101的增益以捕获看起来更亮的感兴趣区域。

在操作S590,自动驾驶装置100可以通过使用识别出的对象来获得自动驾驶装置100的位置信息。

根据实施例,自动驾驶装置100可以将包括在识别的对象中的特征用作将被应用于VIO技术的特征。例如,自动驾驶装置100可以分别从第二RGB图像的当前帧的感兴趣区域和先前帧的感兴趣区域提取特征,并且可以通过匹配提取的特征来预测二维空间中的位置改变。自动驾驶装置100可以通过使用立体相机或惯性传感器来获得实际行驶距离的信息。自动驾驶装置100可以通过使用预测的位置改变和通过立体相机或惯性传感器获得的距离信息来估计三维位置改变的量。自动驾驶装置100可以通过使用三维位置改变的量来产生自动驾驶装置100的周围环境的三维地图。

在下文中,将参照图8详细描述由自动驾驶装置100使用人工智能模型而不是直方图的操作。

图8是用于解释根据实施例的通过使用人工智能模型来识别对象的方法的流程图。

在操作S810,自动驾驶装置100可以通过使用相机101获得第一RGB图像。

操作S810与图2的操作S210相应,因此,将省略其详细描述。

在操作S820,自动驾驶装置100可以通过使用第一人工智能模型来确定在第一RGB图像中是否存在不能识别对象的区域。根据实施例,第一人工智能模型是从RGB图像学习的神经网络模型,并且可以是已经被训练为确定RGB图像中的不能识别对象的区域的模型。根据实施例,可以基于在自动驾驶装置100频繁行进的路线上捕获的RGB图像来训练第一人工智能模型。

根据实施例,当输入第一RGB图像时,第一人工智能模型可以识别第一RGB图像中的暗区域和亮区域。在这种情况下,第一人工智能模型可以通过考虑暗区域和亮区域的分布来确定第一RGB图像中是否存在不能识别对象的区域。例如,在第一RGB图像具有不规则亮度分布并且相当暗或相当亮的情况下,第一人工智能模型可以确定在第一RGB图像中存在不能识别对象的区域。

另外,根据实施例,在接收到周围情况信息(上下文信息)的情况下,第一人工智能模型可以通过考虑周围情况信息来确定第一RGB图像中是否存在不能识别对象的区域。例如,当自动驾驶装置100进入隧道或通过隧道时,第一人工智能模型可以确定在第一RGB图像中存在不能识别对象的区域的概率高。另外,当自动驾驶装置100在当前驾驶路线上的当前位置是出现背光的位置时,第一人工智能模型可以确定在第一RGB图像中存在不能识别对象的区域的概率高。

在操作S830,在已经确定不存在不能识别对象的区域的情况下,自动驾驶装置100可以不修改相机101的摄影配置信息。也就是说,自动驾驶装置100可以基于相机101的当前摄影配置信息连续地获得RGB图像。在操作S835,因为在第一RGB图像中不存在不能识别对象的区域,所以自动驾驶装置100可以从第一RGB图像识别对象。

在操作S840,在已经确定存在不能识别对象的区域的情况下,可以通过使用第一人工智能模型从第一RGB图像预测不能识别对象的至少一个第一区域(不能识别对象的区域)。

例如,在自动驾驶装置100将第一RGB图像应用于第一人工智能模型的情况下,第一人工智能模型可以将第一RGB图像中的亮度值低于第一参考值(例如,100)的区域或亮度值高于第二参考值(例如,150)的区域定义为不能识别对象的区域。

在操作S850,自动驾驶装置100可以通过将DVS图像和第一RGB图像应用于第二人工智能模型来从所述至少一个第一区域确定存在对象的至少一个第二区域。

根据实施例,第二人工智能模型可以是从针对相同场景的DVS图像和RGB图像进行学习的模型。第二人工智能模型可以是将DVS图像与RGB图像进行比较并且从RGB图像的不能识别对象的区域预测存在对象的区域的神经网络模型。

根据实施例,第二人工智能模型可以与第一人工智能模型分离或集成,以确定RGB图像中的不能识别对象的区域。

参照图9,自动驾驶装置100可以在通过隧道时通过相机101获得RGB图像910,并且可以通过动态视觉传感器102获得DVS图像920。RGB图像910和DVS图像920可以被发送到AI处理器900。AI处理器900可以将RGB图像910和DVS图像920输入到第二人工智能模型。在这种情况下,第二人工智能模型可以将RGB图像910与DVS图像920进行比较,并且确定在RGB图像910中从隧道出口区域911仅检测到少量特征或边缘,而在DVS图像920中从隧道出口区域921检测到许多特征或边缘。在这种情况下,第二人工智能模型可以将RGB图像910的隧道出口区域911定义为存在对象但对象未被识别的感兴趣区域930。第二人工智能模型可以将关于感兴趣区域930的信息传送到AI处理器900。

在操作S860,自动驾驶装置100可以通过使用第三人工智能模型来控制相机101的摄影配置信息。在操作S870,自动驾驶装置100可以基于改变后的摄影配置信息获得增强的第二RGB图像。

根据实施例,第三人工智能模型可以是从相机101的RGB图像和摄影配置信息(例如,曝光、白平衡、聚焦)进行学习的神经网络模型。第三人工智能模型可以用于推荐合适的摄影配置信息。第三人工智能模型可以与第一人工智能模型和第二人工智能模型分离。可选地,第三人工智能模型可以与第一人工智能模型和第二人工智能模型集成,以构成单个模型。

参照图10,自动驾驶装置100可以将关于RGB图像910和感兴趣区域930的信息应用于第三人工智能模型。在这种情况下,第三人工智能模型可以确定用于改变RGB图像910的感兴趣区域930的亮度的摄影配置值。根据实施例,第三人工智能模型可以针对感兴趣区域930修改曝光、聚焦和白平衡中的至少一个。具体地,第三人工智能模型可以通过调整相机101的增益、光圈和曝光时间中的至少一个来控制针对感兴趣区域930的曝光值。例如,因为感兴趣区域930是隧道出口的相当亮的区域,所以第三人工智能模型可以确定摄影配置值(例如,高增益值)以捕获看起来更暗的感兴趣区域930。

在自动驾驶装置100将相机101的当前摄影配置值改变为由第三人工智能模型确定的那些值的情况下,相机101可以基于改变后的摄影配置值获得增强的RGB图像1000。例如,增强的RGB图像1000通常可以比RGB图像910更暗,并且特征或边缘可以出现在增强的RGB图像1000的感兴趣区域1030中。因此,自动驾驶装置100可以识别增强的RGB图像1000的感兴趣区域1030中的对象。

参照图11,当进入隧道时,自动驾驶装置100可以通过相机101获得RGB图像1110,并且通过动态视觉传感器102获得DVS图像1120。RGB图像1110和DVS图像1120可以被发送到AI处理器900。AI处理器900可以将RGB图像1110和DVS图像1120输入到第二人工智能模型。在这种情况下,第二人工智能模型可以将RGB图像1110与DVS图像1120进行比较,并且确定从RGB图像1110中的隧道入口区域1111仅检测到少量特征或边缘,而从DVS图像1120中的隧道入口区域1121检测到许多特征或边缘。在这种情况下,第二人工智能模型可以将RGB图像1110的隧道入口区域1111定义为存在对象但对象未被识别的感兴趣区域。第二人工智能模型可以将关于感兴趣区域的信息发送到AI处理器900。

AI处理器900可以将RGB图像1110和关于感兴趣区域的信息应用于第三人工智能模型。在这种情况下,第三人工智能模型可以确定用于改变RGB图像1110的感兴趣区域(例如,隧道入口区域1111)的亮度的摄影配置值。例如,因为感兴趣区域是隧道入口的相当暗的区域,所以第三人工智能模型可以确定摄影配置值(例如,低增益值)以捕获看起来更亮的感兴趣区域。

在自动驾驶装置100将相机101的当前摄影配置值改变为由第三人工智能模型确定的那些值的情况下,相机101可以基于改变后的摄影配置值获得增强的RGB图像1130。例如,增强的RGB图像1130通常可以比RGB图像1110更亮,并且特征或边缘可以出现在增强的RGB图像1130的感兴趣区域1131中。因此,自动驾驶装置100可以识别增强的RGB图像1130的感兴趣区域1131中的对象。

参照图12,当场景中出现背光时,自动驾驶装置100可以通过相机101获得RGB图像1210并且通过动态视觉传感器102获得DVS图像1220。RGB图像1210和DVS图像1220可以被发送到AI处理器900。AI处理器900可以将RGB图像1210和DVS图像1220输入到第二人工智能模型。在这种情况下,第二人工智能模型可以将RGB图像1210与DVS图像1220进行比较,并且确定从RGB图像1210中的左上方区域1211仅检测到少量特征或边缘,而从DVS图像1220中的左上方区域1221检测到许多特征或边缘。在这种情况下,第二人工智能模型可以将RGB图像1210中的左上方区域1211定义为存在对象但对象未被识别的感兴趣区域。第二人工智能模型可以将关于感兴趣区域的信息发送到AI处理器900。

AI处理器900可以将RGB图像1210和关于感兴趣区域的信息应用于第三人工智能模型。在这种情况下,第三人工智能模型可以确定用于改变RGB图像1210的感兴趣区域(例如,由于背光而看起来亮的左上方区域1211)的亮度的摄影配置值。例如,因为感兴趣区域是相当亮的区域,所以第三人工智能模型可以确定摄影配置值(例如,高增益值)以捕获看起来更暗的感兴趣区域。可选地,第三人工智能模型可以通过调整自动聚焦点或改变测光模式来控制曝光。

在自动驾驶装置100将相机101的当前摄影配置值改变为由第三人工智能模型确定的那些值的情况下,相机101可以基于改变后的摄影配置值获得增强的RGB图像1230。例如,增强的RGB图像1230通常可以比RGB图像1210更暗,并且特征或边缘可以出现在增强的RGB图像1230的感兴趣区域1231中。因此,自动驾驶装置100可以识别增强的RGB图像1230的感兴趣区域1231中的对象(例如,标志)。

在操作S880,在从第二RGB图像的感兴趣区域(与第一RGB图像的所述至少一个第二区域相应的区域)未识别出对象的情况下,自动驾驶装置100可以再次控制与所述至少一个第二区域(感兴趣区域)相关的相机101的摄影配置信息。例如,在感兴趣区域是暗区域的情况下,自动驾驶装置100还可以增大相机101的增益以捕获看起来更亮的感兴趣区域。

在操作S890,自动驾驶装置100可以通过使用识别出的对象来获得自动驾驶装置100的位置信息。

操作S890与图5的操作S590相应,将省略其详细描述。

在下文中,将参照图13和图14详细描述在自动驾驶装置100已经定义了多个感兴趣区域的情况下根据所述多个感兴趣区域的优先级来控制相机101的摄影配置信息的操作。

图13是用于解释根据实施例的根据多个感兴趣区域的优先级来控制相机的摄影配置信息的方法的流程图。

在操作S1310,自动驾驶装置100可以通过使用相机101获得第一RGB图像。

操作S1310与图2的操作S210相应,将省略其详细描述。

在操作S1320,自动驾驶装置100可以基于第一RGB图像的亮度信息预测第一RGB图像中的多个不能识别对象的区域。

根据实施例,自动驾驶装置100可以通过使用第一RGB图像的直方图或人工智能模型来预测第一RGB图像中的多个不能识别对象的区域。

例如,自动驾驶装置100可以将第一RGB图像中的亮度值在阈值范围之外的区域(例如,相当暗或相当亮的区域)定义为不能识别对象的区域。在这种情况下,在第一RGB图像中存在亮度值在阈值范围之外的多个区域的情况下,自动驾驶装置100可以检测多个不能识别对象的区域。

操作S1320与图2的操作S220相应,将省略其详细描述。

在操作S1330,自动驾驶装置100可以基于通过动态视觉传感器获得的对象信息,从多个不能识别对象的区域确定存在对象的多个感兴趣区域。

例如,自动驾驶装置100可以将相机101未捕获到对象但动态视觉传感器102检测到对象的多个区域定义为多个感兴趣区域。在这种情况下,所述多个感兴趣区域的亮度值可以彼此不同。例如,第一感兴趣区域可以是暗区域,而第二感兴趣区域可以是亮区域。因此,可能难以通过仅调整一次相机101的摄影配置信息来检测多个感兴趣区域中的每个感兴趣区域中的所有对象。

因此,在操作S1340,自动驾驶装置100可以根据预定义标准确定所述多个感兴趣区域的优先级。

根据实施例,自动驾驶装置100可以为具有低亮度的区域分配更高的优先级。例如,暗区域可以具有比亮区域的优先级更高的优先级。可选地,自动驾驶装置100可以为具有更高亮度的区域分配更高优先级。例如,亮区域可以具有比暗区域的优先级更高的优先级。

根据实施例,自动驾驶装置100可以基于感兴趣区域的面积来确定优先级。例如,宽阔区域的优先级可以高于狭窄区域的优先级。

另外,根据实施例,自动驾驶装置100可以通过使用周围环境信息(例如,上下文信息)来确定感兴趣区域的优先级。例如,在自动驾驶装置100位于隧道入口处的情况下,可以为具有低亮度的区域分配高优先级,而在自动驾驶装置100位于隧道出口处的情况下,可以为具有高亮度的区域分配高优先级,但是本公开不限于此。

在操作S1350至S1380,考虑到多个感兴趣区域的优先级,自动驾驶装置100可以通过控制相机101的摄影配置信息来获得增强的RGB图像。也就是说,在操作S1350,自动驾驶装置100可以通过控制与具有第n优先级的感兴趣区域相关的相机101的摄影配置信息来获得增强的第(n+1)个RGB图像。在操作S1360,自动驾驶装置100可以识别所述第(n+1)个RGB图像中的第n个对象。在操作S1370,自动驾驶装置100可以确定具有第n优先级的感兴趣区域是否是最后的感兴趣区域。在操作S1380,在具有第n优先级的感兴趣区域不是最后的感兴趣区域的情况下,自动驾驶装置100可以选择具有第(n+1)优先级的感兴趣区域并再次执行从S1350起的操作。

例如,自动驾驶装置100可以通过控制与具有第一优先级的感兴趣区域相关的相机101的摄影配置信息来获得增强的第二RGB图像。在这种情况下,自动驾驶装置100可以识别第二RGB图像的感兴趣区域(与具有第一优先级的感兴趣区域相应的区域)中的第一对象。然后,自动驾驶装置100可以通过控制与具有第二优先级的感兴趣区域相关的相机101的摄影配置信息来获得增强的第三RGB图像。自动驾驶装置100可以识别第三RGB图像的感兴趣区域(与具有第二优先级的感兴趣区域相应的区域)中的第二对象。这里,第一对象和第二对象可以彼此不同。自动驾驶装置100可以确定具有第二优先级的感兴趣区域是否是最后的感兴趣区域。当具有第二优先级的感兴趣区域不是最后的感兴趣区域时,自动驾驶装置100可以通过控制与具有第三优先级的感兴趣区域相关相机101的摄影配置信息来获得增强的第四RGB图像,并且识别增强的第四RGB图像的感兴趣区域(与具有第三优先级的感兴趣区域相应的区域)中的第三对象。也就是说,自动驾驶装置100可以控制相机101的摄影配置信息,使得可以根据感兴趣区域的优先级从感兴趣区域顺序地检测对象。

参照图14,将详细描述由自动驾驶装置100考虑多个感兴趣区域的优先级来控制相机101的摄影配置信息的操作。

图14是用于解释根据实施例的多个感兴趣区域的优先级的示图。

自动驾驶装置100可以在通过隧道时通过相机101获得RGB图像1410,并且通过动态视觉传感器102获得DVS图像1420。在这种情况下,自动驾驶装置100可以将RGB图像1410与DVS图像1420进行比较,并且确定从RGB图像1410中的左下方区域(区域①)仅检测到少量特征或边缘,但是从DVS图像1420中的左下方区域(区域①)检测到许多特征或边缘。另外,自动驾驶装置100可以确定从RGB图像1410中的隧道出口区域(区域②)仅检测到少量特征或边缘,但是从DVS图像1420中的隧道出口区域(区域②)检测到许多特征或边缘。在这种情况下,自动驾驶装置100可以将RGB图像1410中的左下方区域(区域①)和隧道出口区域(区域②)定义为感兴趣区域。

在具有低亮度的感兴趣区域被设置为被分配高优先级的情况下,自动驾驶装置100可以为左下方区域(区域①)分配比隧道出口区域(区域②)的优先级更高的优先级。

在这种情况下,自动驾驶装置100可以首先基于左下方区域(区域①)来控制相机101的摄影配置信息。例如,因为左下方区域(区域①)是暗区域,所以自动驾驶装置100可以增大增益以捕获看起来更亮的左下方区域(区域①)。这里,左下方区域(区域①)看起来更亮,自动驾驶装置100可以识别左下方区域(区域①)中的对象(例如,外部车辆)。因为增益已经增大并且因此隧道出口区域(区域②)看起来更亮,所以在隧道出口区域(区域②)中仍然可能检测不到对象。

然后,自动驾驶装置100可以基于隧道出口区域(区域②)来控制相机101的摄影配置信息。例如,因为隧道出口区域(区域②)是亮区域,所以自动驾驶装置100可以减小增益以捕获看起来更暗的隧道出口区域(区域②)。这里,隧道出口区域(区域②)看起来更暗,自动驾驶装置100可以识别隧道出口区域(区域②)中的对象(例如,车道、人行桥、街道树)。

图15是用于解释根据实施例的由自动驾驶装置跟踪对象的方法的流程图。

在操作S1510,自动驾驶装置100可以选择用于对象检测的操作模式。用于对象跟踪的操作模式可以包括但不限于高速检测模式和全区域检测模式。

高速检测模式是指通过对在RGB图像中检测到对象的可能性高的候选区域执行图像处理来高速检测对象的模式。可以基于由动态视觉传感器102检测到的信息来确定所述候选区域。

全区域检测模式是指通过对RGB图像的整个区域执行图像处理来检测对象的模式。

在操作S1520和S1530,当选择了高速检测模式时,自动驾驶装置100可以在高速检测模式下操作。

根据实施例,在动态视觉传感器102未检测到新对象的情况下,自动驾驶装置100可以不对RGB图像执行新对象识别处理。

在操作S1540,自动驾驶装置100可以通过动态视觉传感器检测自动驾驶装置100周围出现的新对象。这里,新对象可以包括动态对象(例如,车辆、摩托车、行人)。

因为动态视觉传感器102基于每个像素获得数据而不是基于每个帧获得数据,所以可以比相机101更早地检测到新对象。

根据实施例,可以通过将DVS图像的当前帧与先前帧进行比较来检测自动驾驶装置100周围出现的新对象。例如,当外部车辆出现在自动驾驶装置100正在行驶的第一车道右侧的第二车道中时,动态视觉传感器102可以比相机101更早地检测到该外部车辆。这里,外部车辆的轮廓可以出现在DVS图像的右侧区域中。

在操作S1550,自动驾驶装置100可以确定在RGB图像中识别出新对象的可能性大于阈值的候选区域。

根据实施例,自动驾驶装置100可以基于关于新对象出现在DVS图像上的位置的信息来确定RGB图像中的候选区域。例如,作为分析DVS图像的结果,在新对象从自动驾驶装置100的右侧区域出现的情况下,自动驾驶装置100可以将RGB图像中的右侧区域定义为候选区域。

在操作S1560,自动驾驶装置100可以通过对候选区域执行图像处理来从RGB图像的候选区域识别新对象。

根据实施例,自动驾驶装置100可以从候选区域提取构成对象的至少一个特征。自动驾驶装置100可以通过使用提取的至少一个特征来识别候选区域中的对象。例如,自动驾驶装置100可以在RGB图像的候选区域中识别正在右侧车道行驶的外部车辆。在这种情况下,因为自动驾驶装置100不需要为了识别新对象而对RGB图像的整个区域执行图像处理,所以可以提高识别对象的速度和准确性。

在操作S1570,当未选择高速检测模式时,自动驾驶装置100可以在全区域检测模式下操作。

根据实施例,在图像处理能力足够的情况下或在关键事件的情况下,自动驾驶装置100可以选择全区域检测模式。可选地,自动驾驶装置100可以周期性地在全区域检测模式下操作。

在操作S1590,当自动驾驶装置100在全区域检测模式下操作时,自动驾驶装置100可以通过对RGB图像的整个区域执行图像处理来识别新对象。

在操作S1590,自动驾驶装置100可以通过使用相机101跟踪新对象。

根据实施例,自动驾驶装置100可以基于从RGB图像的一系列帧提取的新对象的特征信息来跟踪新对象的改变。例如,自动驾驶装置100可以跟踪新对象的位置变化。根据实施例,自动驾驶装置100可以标记正在被跟踪的对象周围的标识图像。

根据实施例,可以省略操作S1510至操作S1590中的一些操作,并且可以改变操作S1510至操作S1590中的一些操作的顺序。

图16是用于解释由自动驾驶装置使用相机识别和跟踪由动态视觉传感器检测到的新对象的操作的示图。

参照图16的第一RGB图像1610,自动驾驶装置100可以通过使用前置相机101来识别和跟踪在自动驾驶装置100前方移动的对象。例如,自动驾驶装置100可以识别和跟踪第一车辆1601、第二车辆1602和第三车辆1603。

参照图16的DVS图像1620,自动驾驶装置100可以通过使用动态视觉传感器102检测接近自动驾驶装置100的新对象1621。例如,自动驾驶装置100可以从DVS图像1620检测接近自动驾驶装置100左侧的第四车辆1621的轮廓。

参照图16的第二RGB图像1630,在通过动态视觉传感器1620检测到新对象的情况下,自动驾驶装置100可以确定在通过相机101获得的第二RGB图像1630中识别出新对象的概率大于阈值的候选区域。例如,在自动驾驶装置100已经通过DVS图像1620识别出新对象正在接近自动驾驶装置100的左侧的情况下,自动驾驶装置100可以将第二RGB图像1630的左侧区域1631定义为候选区域。

自动驾驶装置100可以通过对第二RGB图像1630的左侧区域1631执行图像处理来识别第四车辆1621。另外,自动驾驶装置100可以通过使用相机101跟踪第四车辆1621以及第一车辆1601至第三车辆1603。

根据实施例,自动驾驶装置100可以通过动态视觉传感器102预测新对象的存在和位置,因此可以快速识别和跟踪RGB图像上的新对象。

图17是用于解释根据实施例的自动驾驶装置的配置的框图。

参照图17,自动驾驶装置100可以包括感测单元110、处理器120、通信器130、驱动单元140、输出器150、存储单元160和输入器170。然而,图17所示的所有组件不是自动驾驶装置100的必不可少的组件。自动驾驶装置100可以由比图17所示的组件更多的组件实现,或者由比图17所示的组件更少的组件实现。例如,如图1所示,自动驾驶装置100可以包括相机101、动态视觉传感器102和处理器120。将按顺序描述组件。

感测单元110可以包括被配置为检测关于自动驾驶装置100的周围环境的信息的多个传感器。例如,感测单元110可以包括相机101(例如,立体相机、单色相机、广角相机、环视相机或三维视觉传感器)、动态视觉传感器102、激光雷达传感器103、雷达传感器104、惯性传感器(惯性测量单元(IMU))105、超声传感器106、红外传感器107、距离传感器108、温度/湿度传感器109、位置传感器111(例如,全球定位系统(GPS)、差分GPS(DGPS)、惯性导航系统(INS))和运动感测单元112,但不限于此。

运动感测单元112可以检测自动驾驶装置100的运动,并且可以包括例如地磁传感器113、加速度传感器114和陀螺仪传感器115,但不限于此。

根据实施例,相机101可以包括多个相机,并且所述多个相机可以布置在自动驾驶装置100内部或外部的多个位置。例如,三个相机可被布置在自动驾驶装置100的前部、一个相机可被布置在自动驾驶装置100的后部、两个相机可被布置在自动驾驶装置100的左侧部、并且两个相机可被布置在自动驾驶装置100的右侧部,但是本公开不限于此。本领域普通技术人员可以从名称直观地推导出每个传感器的功能,因此省略其详细描述。

处理器120通常可以控制自动驾驶装置100的整体操作。处理器120可以通过执行存储在存储单元160中的程序来控制感测单元110、通信器130、驱动单元140、输出器150、存储单元160和输入器170。

处理器120可以通过使用相机101获得第一RGB图像。

处理器120可以分析第一RGB图像以获得第一RGB图像的直方图,并且通过使用第一RGB图像的直方图来确定在第一RGB图像中是否存在不能识别对象的区域。

在已经确定在第一RGB图像中存在不能识别对象的区域的情况下,处理器120可以基于第一RGB图像的亮度信息来预测第一RGB图像中的至少一个第一区域。例如,处理器120可以将第一RGB图像中亮度值在阈值范围之外的区域定义为所述至少一个第一区域。

处理器120可以基于通过动态视觉传感器102获得的对象信息,从所述至少一个第一区域确定存在对象的至少一个第二区域。处理器120可以通过控制与所述至少一个第二区域有关的相机101的摄影配置信息来获得增强的第二RGB图像。例如,处理器120可以通过调节相机101的增益、光圈和曝光时间中的至少一个来控制相机101的摄影配置信息。

处理器120可以识别第二RGB图像中的对象。处理器120可以通过使用相机120来跟踪在第二RGB图像中识别出的对象。处理器120可以通过动态视觉传感器102来检测自动驾驶装置100周围出现的新对象,并且可以确定在通过相机101获得的第三RGB图像中识别出新对象的概率大于阈值的候选区域。处理器120可以通过对候选区域执行图像处理来从第三RGB图像识别由动态视觉传感器102检测到的新对象。

处理器120可以将动态视觉传感器102的帧率设置为与相机101的帧率相同。

根据实施例,处理器120可以包括人工智能(AI)处理器。在这种情况下,AI处理器可以通过使用已经从多个RGB图像训练的第一人工智能模型来确定在第一RGB图像中是否存在不能识别对象的区域,并且当已经确定在第一RGB图像中存在不能识别对象的区域时,AI处理器可以通过使用第一人工智能模型来预测第一RGB图像中的至少一个第一区域(不能识别对象的区域)。另外,处理器120可以通过使用AI系统的学习网络模型来规划自动驾驶装置100的运动。

AI处理器可以以AI专用硬件芯片的形式被制造,或者可以被制造为现有的通用处理器(例如,CPU或应用处理器)或专用图形处理器(例如,GPU)的一部分并被安装在自动驾驶装置100上。

通信器130可以包括用于与另一装置(例如,外部车辆或外部服务器)无线通信的至少一个天线。例如,通信器130可以包括允许自动驾驶装置100与外部车辆之间的通信或自动驾驶装置100与服务器之间的通信的一个或更多个组件。例如,通信器130可以包括短距离无线通信器131、移动通信器132和广播接收器133,但不限于此。

短距离无线通信器131可以包括但不限于蓝牙通信器、蓝牙低功耗(BLE)通信器、近场通信器(NFC)、Wi-Fi(WLAN)通信器、Zigbee通信器、红外数据协会(IrDA)通信器、Wi-Fi直连(WFD)通信器、超宽带(UWB)通信器、Ant+通信器、微波通信器等。

移动通信器132可以向移动通信网络上的基站、外部终端和服务器中的至少一个发送无线信号以及从移动通信网络上的基站、外部终端和服务器中的至少一个接收无线信号。这里,无线信号可以包括基于语音呼叫信号、视频呼叫信号或文本/多媒体消息的发送和接收的各种类型的数据。

广播接收器133可以通过广播信道从外部接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和地面信道。根据实施例,自动驾驶装置100可以不包括广播接收器133。

根据实施例,通信器130可以与位于距自动驾驶装置100特定距离内的外部车辆执行车辆到车辆(V2V)通信,或者与位于距自动驾驶装置100特定距离内的基础设施执行车辆到基础设施(V2I)通信。例如,通信器130可以对包括自动驾驶装置100的标识信息、位置或速度的数据包进行广播或通告。此外,通信器130可以接收由外部车辆广播或通告的数据包。

驱动单元140可以包括用于驱动(操作)自动驾驶装置100以及用于执行自动驾驶装置100中的装置的操作的元件。驱动单元140可以包括电源141、推进单元142、行进单元143和外围装置单元144中的至少一个,但不限于此。

外围装置单元144可以包括导航系统、灯、转向信号灯、雨刷器、内部灯、加热器和空调。导航系统可以是被配置为确定自动驾驶装置100的架驶路线的系统。导航系统可以被配置为在自动驾驶装置100行驶时动态地更新驾驶路线。例如,导航系统可以利用由GPS模块收集的数据来确定自动驾驶装置100的驾驶路线。

输出器150可以输出音频信号、视频信号或振动信号,并且可以包括显示器151、音频输出器152、振动单元153等。

显示器151可以显示并输出在自动驾驶装置100中处理的信息。例如,显示器151可以显示包括驾驶路线的地图、显示外部车辆的位置、显示外部车辆的驾驶员的盲点,或者显示当前速度、剩余燃料量、用于引导自动驾驶装置100的驾驶路线的信息等,但不限于此。显示器151可以显示与呼叫模式下的呼叫相关联的用户界面(UI)或图形用户界面(GUI)。

另外,当显示器151和触摸板具有层结构并且被配置为触摸屏时,显示器151除了被用作输出装置之外还可以被用作输入装置。显示器151可以包括以下至少一个:液晶显示器、薄膜晶体管液晶显示器、有机发光二极管、柔性显示器、三维(3D)显示器、电泳显示器等。根据装置100的实施方式,自动驾驶装置100可以包括两个或更多个显示器151。

根据一个实施例,显示器151可以包括透明显示器。除了透明液晶显示器(LCD)类型、透明薄膜电致发光面板(TFEL)类型和透明有机发光二极管(OLED)类型之外,透明显示器还可以以投影类型被实现。投影类型是指在透明屏幕(诸如平视显示器(HUD))上投影并显示图像的方法。

声音输出器152可以输出从通信器130接收的或存储在存储单元160中的音频数据。另外,声音输出器152可以输出与在自动驾驶装置100中执行的功能相关的声音信号。例如,声音输出器152可以输出用于引导自动驾驶装置100的驾驶路线的语音消息。音频输出器152可以包括扬声器、蜂鸣器等。

振动单元153可以输出振动信号。例如,振动单元153可以输出与音频数据或视频数据的输出相应的振动信号(例如,警告消息)。

存储单元160可以存储用于处理器120的处理和控制的程序,并且可以存储输入/输出数据(例如,RGB图像、DVS图像、道路情况信息、精确地图、直方图)。存储单元160可以存储人工智能模型161。

存储单元160可以包括以下至少一种类型的存储介质:闪存型、硬盘型、多媒体卡微型、卡型存储器(例如,SD存储器或XD存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。此外,自动驾驶装置100可以对在互联网上执行存储功能的网络存储器或云服务器进行操作。

输入器170是指用户通过其输入用于控制自动驾驶装置100的数据的装置。例如,输入器170可以包括键盘、圆顶开关、触摸板(接触型电容型、压力型电阻型、红外线检测型、表面超声波传导型、整体张力测量型、压电效应型等)、滚轮、微动开关等,但不限于此。

图18是根据实施例的处理器的框图。

参照图18,处理器120可以包括数据学习器1310和数据识别器1320。

数据学习器1310可以学习用于确定对象识别情况的标准。例如,数据学习器1310可以学习用于确定难以通过相机101识别对象的情况(例如,进入隧道、离开隧道、在晚上或黎明背光、在晚上驾驶、穿过具有极端照明改变的区域、穿过阴影区域)的标准。此外,数据学习器1310可以基于动态视觉传感器102的对象信息来学习用于识别RGB图像中的不能识别对象的区域的标准,或者用于确定RGB图像中的感兴趣区域的标准。数据学习器1310还可以学习关于使用哪个数据来确定相机101的摄影配置信息以及如何通过使用该数据来确定摄影配置信息的标准。数据学习器1310可以获得将被用于学习的数据(例如,图像),将获得的数据应用于下面将描述的数据识别模型,并且学习用于通过相机101识别对象的标准。

根据实施例,数据学习器1310可以学习个性化数据。例如,数据学习器1310可以学习从自动驾驶装置100频繁行进的路线获得的RGB图像、上下文信息等。根据实施例,数据学习器1310可以学习用于规划自动驾驶装置100的运动的标准,或者可以学习用于识别自动驾驶装置100的位置的标准。

数据识别器1320可以基于数据确定对象识别情况。数据识别器1320可以通过使用训练的数据识别模型从检测到的数据确定对象识别情况。数据识别器1320可以通过学习来根据预定义标准获得图像数据(例如,RGB图像或DVS图像),并且通过使用获得的图像数据作为输入值来使用数据识别模型以基于图像数据执行对象识别。另外,由数据识别模型通过使用获得的图像数据作为输入值而输出的结果值可用于细化数据识别模型。

数据学习器1310和数据识别器1320中的至少一个可以以至少一个硬件芯片的形式被制造并被安装在自动驾驶装置100上。例如,数据学习器1310和数据识别器1320中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式被制造,或者可以被制造为现有的通用处理器(例如,CPU或应用处理器)或专用图形处理器(例如,GPU)的一部分并被安装在自动驾驶装置100上。

在这种情况下,数据学习器1310和数据识别器1320可以被安装在单个自动驾驶装置100上,或者可以单独地被安装在电子装置上。例如,数据学习器1310和数据识别器1320中的一个可被包括在自动驾驶装置100中,并且剩余的一个可以被包括在服务器200中。此外,可以将由数据学习器1310建立的模型信息提供给数据识别器1320,并且可以通过有线或无线地将输入到数据识别器1320的数据作为附加训练数据提供给数据学习器1310。

数据学习器1310和数据识别器1320中的至少一个可以被实现为软件模块。当数据学习器1310和数据识别器1320中的至少一个被实现为软件模块(或包括指令的程序模块)时,软件模块可被存储在非暂时性计算机可读记录介质中。此外,在这种情况下,至少一个软件模块可以由操作系统(OS)或预定义应用提供。可选地,至少一个软件模块的一部分可以由操作系统(OS)提供,并且剩余部分可以由预定义应用提供。

图19是根据实施例的数据学习器1310的框图。

参照图19,根据实施例的数据学习器1310可以包括数据获得器1310-1、预处理器1310-2、训练数据选择器1310-3、模型学习器1310-4和模型评估器1310-5。

数据获得器1310-1可以获得确定对象识别情况所需的数据。数据获得器1310-1可以获得用于学习以确定对象识别情况所需的数据(例如,RGB图像或DVS图像)。根据实施例,数据获得器1310-1可以直接产生确定对象识别情况所需的数据,或者可以从外部装置或服务器接收确定对象识别情况所需的数据。

根据实施例,确定对象识别情况所需的数据可以包括但不限于RGB图像、动态视觉传感器100的对象信息、自动驾驶装置100的周围环境信息、个性化训练数据等。

预处理器1310-2可以对获得的数据进行预处理以用于学习来确定对象识别情况。预处理器1310-2可以将获得的数据处理成预定义格式,使得下面将描述的模型学习器1310-4可以使用获得的数据进行学习以确定对象识别情况。

训练数据选择器1310-3可以从多条经过预处理的数据选择学习所需的数据。可以将选择的数据提供给模型学习器1310-4。训练数据选择器1310-3可以根据用于确定对象识别情况的预定义标准从经过预处理的数据选择学习所需的数据。此外,训练数据选择器1310-3可以根据将在下面描述的模型学习器1310-4的学习基于预定义标准来选择数据。

模型学习器1310-4可以基于训练数据来学习关于如何确定对象识别情况的标准。另外,模型学习器1310-4可以学习关于哪个训练数据将被用于确定对象识别情况的标准。

另外,模型学习器1310-4可以通过使用训练数据来训练用于确定对象识别情况的数据识别模型。在这种情况下,数据识别模型可以是预先建立的模型。例如,数据识别模型可以是通过接收基本训练数据(例如,样本图像)预先建立的模型。

可以考虑应用识别模型的领域、学习目的或自动驾驶装置100的计算机性能来建立数据识别模型。数据识别模型可以是例如基于神经网络的模型。例如,诸如深度神经网络(DNN)、递归神经网络(RNN)或双向递归深度神经网络(BRDNN)的模型可以用作数据识别模型,但是本公开不限于此。

根据各种实施例,当存在预先建立的多个数据识别模型时,模型学习器1310-4可以将在输入训练数据和基本训练数据之间具有高关联的数据识别模型确定为将被训练的数据识别模型。在这种情况下,可以根据数据的类型对基本训练数据进行预分类,并且可以根据数据的类型预先建立数据识别模型。例如,可以根据各种标准(诸如产生训练数据的区域、产生训练数据的时间、训练数据的大小、训练数据的类别、训练数据的产生者以及训练数据中的对象的类型)对基本训练数据进行预分类。

此外,模型学习器1310-4可以通过使用包括例如误差反向传播或梯度下降的学习算法来训练数据识别模型。

此外,模型学习器1310-4可以通过使用例如训练数据作为输入值通过监督学习来训练数据识别模型。此外,模型学习器1310-4可以通过无监督学习来训练数据识别模型,以通过在没有监督的情况下自己学习确定情况所需的数据类型来找到用于确定所述情况的标准。此外,模型学习器1310-4可以使用关于根据学习确定对象识别情况的结果是否正确的反馈,通过强化学习来训练数据识别模型。

此外,当数据识别模型已经被训练时,模型学习器1310-4可以存储训练后的数据识别模型。在这种情况下,模型学习器1310-4可以将训练后的数据识别模型存储在包括数据识别器1320的自动驾驶装置100的存储单元160中。可选地,模型学习器1310-4可以将训练后的数据识别模型存储在包括下面将描述的数据识别器1320的自动驾驶装置100的存储单元160中。可选地,模型学习器1310-4可以将训练后的数据识别模型存储在通过有线或无线网络连接到自动驾驶装置100的服务器200的存储器中。

在这种情况下,存储训练后的数据识别模型的存储单元160还可以存储例如与自动驾驶装置100的至少一个其他组件相关的命令或数据。此外,存储单元160可以存储软件和/或程序。所述程序可以包括例如内核、中间件、应用编程接口(API)和/或应用程序(或“应用”)。

模型评估器1310-5可以将评估数据输入到数据识别模型,并且当关于评估数据输出的识别结果不满足预定义标准时,可以允许模型学习器1310-4重新训练数据识别模型。在这种情况下,评估数据可以是用于评估数据识别模型的预定义数据。

例如,在评估数据上输出的训练后的数据识别模型的识别结果中,当不正确的识别结果的数量或比率超过预定义阈值时,模型评估器1310-5可以评估不满足预定义标准。例如,当预定义标准是2%并且在1000条评估数据中的多于20条评估数据上输出不正确的识别结果时,模型评估器1310-5可以评估训练后的数据识别模型是不合适的。

当存在多个训练后的数据识别模型时,模型评估器1310-5可以评估每个训练后的数据识别模型是否满足预定义标准,并且可以将满足预定义标准的模型定义为最终数据识别模型。在这种情况下,当多个模型满足预定义标准时,模型评估器1310-5可以将预设的一个或以评估分数的降序将预设数量的模型定义为最终数据识别模型。

数据学习器1310中的数据获得器1310-1、预处理器1310-2、训练数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的至少一个可以被制造为至少一个硬件芯片,并且可以被安装在自动驾驶装置100上。例如,模型学习器1310-4、预处理器1310-2、训练数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式被制造,或者可以被制造为现有的通用处理器(例如,CPU或应用处理器)或专用图形处理器(例如,GPU)的一部分并被安装在自动驾驶装置100上。

此外,数据获得器1310-1、预处理器1310-2、训练数据选择器1310-3、模型学习器1310-4和模型评估器1310-5可以被安装在单个自动驾驶装置100上,或者可以单独地被安装在电子装置上,例如,数据获得器1310-1、预处理器1310-2、训练数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的一些可以被包括在自动驾驶装置100中,并且其余部分可以被包括在服务器200中。

数据获得器1310-1、预处理器1310-2、训练数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的至少一个可以被实现为软件模块。当数据获得器1310-1、预处理器1310-2、训练数据选择器1310-3、模型学习器1310-4和模型评估器1310-5中的至少一个被实现为软件模块(或包括指令的程序模块)时,软件模块可被存储在非暂时性计算机可读介质中。在这种情况下,至少一个软件模块可以由操作系统(OS)或预定义应用提供。可选地,所述至少一个软件模块的一部分可以由操作系统(OS)提供,并且剩余部分可以由预定义应用提供。

图20是根据实施例的数据识别器1320的框图。

参照图20,根据实施例的数据识别器1320可以包括数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型细化器1320-5。

数据获得器1320-1可以获得确定对象识别情况所需的数据,并且预处理器1320-2可以对获得的数据进行预处理,使得获得的数据可被用于确定对象识别情况。预处理器1320-2可以将获得的数据处理成预定义格式,使得下面将描述的识别结果提供器1320-4可以使用获得的数据来确定对象识别情况。

识别数据选择器1320-3可以从多条经过预处理的数据选择确定对象识别情况所需的数据。可以将选择的数据提供给识别结果提供器1320-4。识别数据选择器1320-3可以根据用于确定对象识别情况的预设标准来选择多条经过预处理的数据中的一些或全部。此外,如下所述,识别数据选择器1320-3可以通过模型学习器1310-4的学习根据预设标准选择数据。

识别结果提供器1320-4可以通过将选择的数据应用于数据识别模型来确定对象识别情况。识别结果提供器1320-4可以根据数据的识别目的提供识别结果。识别结果提供器1320-4可以通过使用由识别数据选择器1320-3选择的数据作为输入值来将选择的数据应用于数据识别模型。此外,识别结果可以由数据识别模型确定。

例如,至少一个图像的识别结果可以被提供为文本、语音、视频、图像或指令(例如,应用执行指令或模块功能执行指令)。例如,识别结果提供器1320-4可以提供包括在至少一个图像中的对象的识别结果。识别结果可包括例如至少一个图像中包括的对象的姿态信息、对象的周围状态信息和视频中包括的对象的运动改变信息。

模型细化器1320-5可以基于对由识别结果提供器1320-4提供的识别结果的评估来细化数据识别模型。例如,模型细化器1320-5可以将由识别结果提供器1320-4提供的识别结果提供给模型学习器1310-4,使得模型学习器1340-4细化数据识别模型。

数据识别器1320中的数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型细化器1320-5中的至少一个可以被制造为至少一个硬件芯片,并且可以被安装在自动驾驶装置100上。例如,数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型细化器1320-5中的至少一个可以以用于人工智能(AI)的专用硬件芯片的形式被制造,或者可以被制造为现有的通用处理器(例如,CPU或应用处理器)或专用图形处理器(例如,GPU)的一部分并被安装在自动驾驶装置100上。

此外,数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供单元1320-4和模型细化器1320-5可以被安装在单个自动驾驶装置100上,或者可以单独地被安装在电子装置上。例如,数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供单元1320-4和模型细化器1320-5中的一些可以被包括在自动驾驶装置100中,并且其余部分可以被包括在服务器200中。

数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型细化器1320-5中的至少一个可以被实现为软件模块。当数据获得器1320-1、预处理器1320-2、识别数据选择器1320-3、识别结果提供器1320-4和模型细化器1320-5中的至少一个被实现为软件模块(或包括指令的程序模块)时,该软件模块可以被存储在非暂时性计算机可读介质中。此外,在这种情况下,至少一个软件模块可以由操作系统(OS)或预定义应用提供。可选地,至少一个软件模块的一部分可以由操作系统(OS)提供,并且剩余部分可以由预定义应用提供。

图21是示出根据实施例的自动驾驶装置100和服务器200交互操作以学习和识别数据的示例的示图。

参照图21,服务器200可以学习用于确定对象识别情况的标准,并且自动驾驶装置100可以基于服务器200的学习结果来确定对象识别情况。

在这种情况下,服务器200的模型学习器2340可以执行图19所示的数据训练器1310的功能。服务器200的模型学习器2340可以学习关于使用哪个数据来确定对象识别情况以及如何通过使用该数据来确定对象识别情况的标准。模型学习器2340可以获得将被用于学习的数据,将获得的数据应用于下面将描述的数据识别模型,并且学习用于确定对象识别情况的标准。

此外,自动驾驶装置100的识别结果提供器1320-4可以通过将由识别数据选择器1320-3选择的数据应用于由服务器200产生的数据识别模型来确定对象识别情况。例如,识别结果提供器1320-4可以将由识别数据选择器1320-3选择的数据发送到服务器200,并且服务器200可以通过将由识别数据选择器1320-3选择的数据应用于识别模型来请求识别模型确定对象识别情况。识别结果提供器1320-4可以从服务器200接收关于由服务器200确定的对象识别情况的信息。

可选地,自动驾驶装置100的识别结果提供器1320-4可以从服务器200接收由服务器200产生的识别模型,并且可以通过使用接收到的识别模型来确定对象识别情况。在这种情况下,自动驾驶装置100的识别结果提供器1320-4可以通过将由识别数据选择器1320-3选择的数据应用于从服务器200接收的数据识别模型来确定对象识别情况。

根据实施例的方法可被实现为可由各种计算机装置执行并且可被记录在计算机可读记录介质上的程序命令。计算机可读记录介质可以单独地包括程序命令、数据文件、数据结构等或组合地包括程序命令、数据文件、数据结构等。将被记录在计算机可读记录介质上的程序命令可以被专门设计和配置用于本公开的实施例,或者可以是计算机软件领域的普通技术人员公知的并且可由计算机软件领域的普通技术人员使用。计算机可读记录介质的示例包括:磁性介质(诸如硬盘、软盘或磁带)、光学介质(诸如光盘只读存储器(CD-ROM)或数字通用盘(DVD))、磁光介质(诸如光软盘)、以及专门被构造为存储和执行程序命令的硬件装置(诸如ROM、RAM或闪存)。程序命令的示例是可以由计算机通过使用解释器等执行的高级语言代码以及由编译器制作的机器语言代码。

一些实施例可以被实现为包括计算机可读指令(诸如计算机可执行程序模块)的记录介质。计算机可读介质可以是计算机可访问的任意可用介质,并且其示例包括所有易失性介质和非易失性介质以及可分离介质和不可分离介质。此外,计算机可读介质的示例可以包括计算机存储介质和通信介质。计算机存储介质的示例包括用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的通过任意方法或技术实现的所有易失性介质和非易失性介质以及可分离介质和不可分离介质。通信介质通常包括:计算机可读指令、数据结构、程序模块、调制数据信号的其他数据、或其他传输机制,并且其示例包括任意信息传输介质。此外,一些实施例可以被实现为包括计算机可执行指令(诸如由计算机执行的计算机程序)的计算机程序或计算机程序产品。

虽然已经参考本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号