首页> 中国专利> 基于语义分割和SLAM的AR设备景深信息应用方法

基于语义分割和SLAM的AR设备景深信息应用方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请涉及一种基于语义分割和SLAM的AR设备景深信息应用方法；包括：对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像；通过SLAM技术对用户需要注意的目标进行规划与提示增强，得到用户自身环境的深度图像；将深度图像与语义分割图像进行融合。本发明使用双目鱼眼相机实现纯视觉的SLAM，通过稠密视觉法动态构建地图以及对环境中各物体的定位与深度分割，实现虚拟信息与现实环境的耦合，通过将深度图像与语义分割图像进行融合后引导用户注视观察不同深度的物体以调节用户视力。

著录项

公开/公告号CN112365604A

专利类型发明专利
公开/公告日2021-02-12

原文格式PDF
申请/专利权人深圳市中科先见医疗科技有限公司;
展开▼

申请/专利号CN202011224040.6
发明设计人瞿岩松;夏轩;陈卫兴;
展开▼

申请日2020-11-05
分类号G06T19/00(20110101);G06T5/50(20060101);G06T7/55(20170101);G06T7/11(20170101);G06T7/73(20170101);G06N3/04(20060101);G06N3/08(20060101);
代理机构44298 广东广和律师事务所;
代理人刘敏
地址 518000 广东省深圳市龙岗区龙城街道龙飞大道333号启迪协信科技园4栋4楼
入库时间 2023-06-19 09:54:18

说明书

技术领域

本申请涉及人工智能图像处理技术领域，特别是涉及一种基于语义分割和SLAM的AR设备景深信息应用方法。

背景技术

随着信息技术的发展，生活越来越趋向于使用物联网（Internet of Things，即IoT）来实现智能生活概念的数字化生活，例如智能家居系统、个人健康监控或广泛的机器对机器通信。而增强现实（Augmented reality，即AR）是促进人类集成到此类系统中的一项核心技术，是一项将虚拟与现实相结合的技术，为人们提供了与智能生活的数字世界进行交互的界面。尽管AR在医疗、生产生活、工业设计等领域尚未准备好进行部署，但在其他如娱乐等领域已经使用了它。近年来，电子微型化的飞跃式发展和计算能力的爆炸性增强使得开发具有与消费者和行业相关能力的AR系统成为可能。AR系统使人类能够通过位于物理世界之上的一层信息来访问数字信息。根据广泛使用的现实-虚拟性连续体，AR位于真实环境和虚拟环境之间，即现实世界环境与虚拟现实环境，通过相机与传感器的方位精准计算系统在环境中的位置以及环境中各物体的位置，再通过图像分析技术让虚拟信息与现实场景进行结合与交互。一般地说，AR系统的基本组件是可视化技术、传感器系统、跟踪系统、处理单元和用户界面。可视化技术可在真实环境中可视化数字信息，主要包括四种技术，即头戴式显示器、手持设备、静态屏幕和投影仪；传感系统的功能是从环境中获取信息，对大多数系统来说，其中央输入是一台及以上的相机，包括普通光学相机、红外相机、深度相机等；跟踪系统则为系统的关键，使数字对象可以准确地放置在物理世界中；用户界面是实现系统与用户之间的双向通信，例如系统输出的力反馈和声音提示以及用户输入的交互方式；处理单元负责执行软件以运行AR系统。但目前的AR系统一般地可以分为两种，以标记点（锚点）作为依据进行虚实结合以及通过非标记的方法进行耦合。前者早期更为普遍且成熟，但是以标记点的方式使得AR应用十分受限；而后者通过传感器与跟踪定位算法进行耦合，较为依赖硬件上的性能，同时传感器与系统复杂度之间的取舍以及算法精确度与硬件性能的权衡使得系统难以得到理想的效果。

因此增强现实有望成为未来通用的计算平台，而AR中的传感与追踪系统是并不可少也是最为关键的一环，这一组件有硬件部分的传感器与软件算法部分的同步定位与地图构建技术（Simultaneous localization and mapping，SLAM）。SLAM是通过在系统运动过程中不断观测到的环境特征再根据自身位置进行增量式的地图构建，同时除了简单的二维平面SLAM（平面地图），还有三维立体SLAM，后者可以更加精细地构建出环境的三维空间中各个物体的位置以及姿态，极大地便于AR系统中虚拟数字信息与真实环境之间的耦合。但是由于AR设备的结构性以及成本等因素，系统中的传感器大多是纯视觉的，也就是基于纯视觉SLAM的。与基于雷达的SLAM和混合SLAM不同，后者可以往往那通过雷达构建出进度更高的地图，而前者由于采集的数据更为丰富语义信息，但是运算成本高且性能有待提高。因此需要在基于AR的应用环境下进一步改进纯视觉的SLAM并且充分利用环境中的语义信息。

现有技术中的AR系统内，算法模型体量大、所占用的算力多，不能做到轻量级，硬件算力有限且要求实时性不具有针对性，此外现有模型与数据集都是基于普遍的分类标签，不适应AR眼镜应用需求，浪费了大量的资源。激光SLAM虽然技术成熟、可靠性高，但是成本高，雷达扫描范围和安装结构都有限制。而且体积较大不适用于AR系统。

发明内容

基于此，有必要针对现有算法体量大、占用算力多的问题，提供一种基于语义分割和SLAM的AR设备景深信息应用方法。

为了实现上述目的，本申请实施例提供了一种基于语义分割和SLAM的AR设备景深信息应用方法，包括：

对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像；

通过SLAM 技术对用户需要注意的目标进行规划与提示增强，得到用户自身环境的深度图像；

将深度图像与语义分割图像进行融合。

优选地，所述对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像之前还包括：

通过卷积神经网络可视化方法对卷积神经网络模型的最后一次卷积的特征图进行反向传播计算出相应的权重，再利用每张特征图乘于权重得到带有权重的特征图，计算出特征图的平均值并进行上采样即可得到由粗注释学习到的细注释，从而能够利用较粗的注释进行基于弱监督的卷积神经网络模型的训练。

优选地，所述粗注释包括边界框或标签，所述细注释包括热图或掩膜。

优选地，所述对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像与通过SLAM 技术对用户需要注意的目标进行规划与提示增强，得到用户自身环境的深度图像之间还包括：

用户根据自身环境对语义分割模型的后端部分参数进行随机解冻实现自定义。

优选地，所述对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像包括：

以包含全部类别的数据集对语义分割模型做预训练，待卷积神经网络层充分学习到各种图像的纹理后再进行迁移学习，对AR设备相关性高的数据进行针对性的训练；

采用空洞卷积和空间金字塔型空洞池化结构设计语义分割模型，其中空洞卷积部分使用多尺度区域进行对象定位，将多个具有不同膨胀度的萎缩卷积分支组合在一起利用多尺度特性进行图像分割；

在语义分割模型的后端使用全连接条件随机场对用户眼前景象中的各物体进行分隔。

优选地，所述SLAM 技术为基于双目鱼眼相机的视觉SLAM技术，通过视觉SLAM技术构建基于ORB-SLAM3的系统。

优选地，所述基于ORB-SLAM3的系统包括：

地图集，所述地图集用于通过由一系列离散的地图组成的混合地图集去维护一个激活地图来定位新的关键帧，并通过局部建图线程不断的优化更新激活地图；

追踪算法，所述追踪算法用于通过处理传感器的数据并实时计算当前帧和激活地图的位姿，计算出最小化匹配特征点的重投影误差及关键帧的筛选，当系统跟丢之后利用混合地图集进行重定位，若重定位成功则继续追踪，若重定位失败则会重新初始化一个新的激活地图进行追踪与建图；

局部建图，所述局部建图用于通过添加关键帧、特征点到激活地图中，删除多余的帧并使用视觉或者视觉惯导的BA优化来优化地图；

循环与地图融合，所述循环与地图融合用于在动态的激活地图和混合地图集中检测相同的区域，如果相同的区域是在激活地图中则执行闭环过程，待闭环过程执行完毕后通过全局BA来优化激活地图，如果激活地图和混合地图集中没有相同的地图，则将激活地图和混合地图集融合成一个地图。

优选地，所述基于ORB-SLAM3的系统在具有惯导的情况下，利用局部建图中的方法来估计初始化和优化IMU的参数。

优选地，所述BA优化的步骤包括：

针对激活地图上的第一图像、第二图像特征匹配好相应的像素坐标，计算出第一图像上的像素坐标对应的归一化的空间点坐标；

根据所述空间点坐标计算重投影到第二图像上的像素坐标，若重投影的像素坐标与匹配好的第二图像上的像素坐标不完全重合，则将每一个匹配好的像素坐标建立方程并联立方程组形成超定方程，解出最优的位姿矩阵或空间点坐标。

优选地，所述语义分割模型为在deeplab模型的基础上改进而来。

上述技术方案中的一个技术方案具有如下优点和有益效果：

本申请各实施例提供的基于语义分割和SLAM的AR设备景深信息应用方法，有效的解决了现有算法体量大、占用算力多的问题，与此同时抛弃了不适用于AR环境的分割对象，合并了一部分弱监督下的分割类别，减小了算法的体积，由SLAM主导的深度图像以及语义分割的分割图像合并而成的深度分割图，通过深度分割图像引导用户注视观察不同深度的物体以调节用户视力，增强了用户的体验。

附图说明

图1为一个实施例中基于语义分割和SLAM的AR设备景深信息应用方法的流程示意图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请的公开内容更加透彻全面。

需要说明的是，当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件并与之结合为一体，或者可能同时存在居中元件。本文所使用的术语“一端”、“另一端”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

为了解决传统技术无法验证人工视网膜产品的可靠性和可行性的问题，在一个实施例中，如图1所示，提供了一种基于语义分割和SLAM的AR设备景深信息应用方法，包括：

S100、对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像；

S200、通过SLAM 技术对用户需要注意的目标进行规划与提示增强，得到用户自身环境的深度图像；

S300、将深度图像与语义分割图像进行融合。

语义分割是对图片的每一个像素点进行分类，简而言之就是图片是由像素点组成，语义分割就是利用人工智能算法阅读图片，把属于同一个物体的像素点归类到一起。比如将拍摄到的一张图片作为输入图片，不同的色块区分为语义分割后的结果图片，通过人工智能图像处理算法，自动的把摄像头拍摄得到的图片中不同的东西就行分类，比如树木覆盖黄色、所有建筑覆盖红色、所有汽车覆盖紫色、道路为灰色、人行道为天蓝色。语义分割会把用户眼前景象中的各物体进行分割，可以帮助用户区分目标。

通过语义分割后，对用户需要注意的目标进行规划与提示增强。系统前置的双目鱼眼相机通过相机间距离进行匹配计算得出比例尺度和空间模型，然后在此基础上进行地图的构建与物体的定位，并得到用户自身环境的深度图像。最后与语义分割的结果相联合，得到深度分割影像，并以此与现实场景进行耦合实现基于景深的注意力引导效果。

上述AR设备不局限于眼镜，还可以是手机等智能终端。

具体实施时，所述对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像之前还包括：

通过卷积神经网络可视化方法对卷积神经网络模型的最后一次卷积的特征图进行反向传播计算出相应的权重，再利用每张特征图乘于权重得到带有权重的特征图，计算出特征图的平均值并进行上采样即可得到由粗注释学习到的细注释，从而能够利用较粗的注释进行基于弱监督的卷积神经网络模型的训练，所述粗注释包括边界框或标签，所述细注释包括热图或掩膜。

上述方法为基于弱监督的数据增强方法，本发明创新地提出利用弱监督的方式增强数据，一般地也会存在直接基于弱监督的方式对弱注释数据进行分割，而本发明在对弱注释进行分割后继续以这个分割结果作为注释进行一下次分割，也就是自监督的形式。

Guided Grad-CAM即卷积神经网络可视化方法，上述最后一次卷积的特征图数量等同于要进行分类的数据的种类数，每一张特征图代表每一个类别的概率图。

具体实施时，所述对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像与通过SLAM 技术对用户需要注意的目标进行规划与提示增强，得到用户自身环境的深度图像之间还包括：

用户根据自身环境对语义分割模型的后端部分参数进行随机解冻实现自定义。根据用户自身环境进行自定义的模型微调，以较低的算力占用通过较长时间的使用逐渐提升用户本人的使用体验。

具体实施时，所述对AR设备的前置相机设计语义分割模型，通过语义分割模型把用户眼前景象中的各物体进行分割得到语义分割图像包括：

在语义分割模型的后端使用全连接条件随机场对用户眼前景象中的各物体进行分隔。

深度学习方法也就是卷积神经网络，深度学习最初流行的分割方法是，打补丁式的分类方法 ( patch classification ) 。逐像素地抽取周围像素对中心像素进行分类。由于当时的卷积网络末端都使用全连接层 ( full connected layers ) ，所以只能使用这种逐像素的分割方法。

具体实施时，所述SLAM 技术为基于双目鱼眼相机的视觉SLAM技术，通过视觉SLAM技术构建基于ORB-SLAM3的系统。这个系统基于词袋模型给系统编码用于重定位、闭环检测和地图融合，可以在纯视觉或者视觉惯导的系统中鲁棒的运行。

视觉SLAM技术成本低无约束，但是多适用于室外进行道路分割与地图构建，对于室内的光照变化复杂，阻碍物多样且小闭环的环境不易于得出精细的结果，而大多只有基于RGB-D相机的稠密视觉法能做出精细的室内SLAM。按照相机划分则为单目相机SLAM，双目相机SLAM，RGB-D相机SLAM等。单目相机SLAM对真实大小的轨迹和地图有一个比例尺，无法感知真实的深度，所以必须要进行初始化；而双目相机SLAM在已知两个单目相机之间基线距离的情况下，可以通过校准匹配并计算得到深度，但是一般较为浪费算力；RGB-D相机SLAM也称为深度相机SLAM，可以直接通过立体结构光和TOF技术得到深度信息，单目、双目和RGB-D利用针孔或者鱼眼模型，也可以自己定义模型。

SLAM所用方法可以是直接法，如稠密视觉法和半稠密视觉法。

具体实施时，所述基于ORB-SLAM3的系统包括：

局部建图，所述局部建图用于通过添加关键帧、特征点到激活地图中，删除多余的帧并使用视觉或者视觉惯导的BA优化来优化地图；

具体实施时，SLAM中的BA优化，先根据相机模型和A、B图像特征匹配好的像素坐标，求出A图像上的像素坐标对应的归一化的空间点坐标，然后根据该空间点的坐标计算重投影到B图像上的像素坐标，重投影的像素坐标(估计值)与匹配好的B图像上的像素坐标(测量值)不会完全重合，BA的目的就是每一个匹配好的特征点建立方程，然后联立形成超定方程，解出最优的位姿矩阵或空间点坐标(两者可以同时优化)。

具体实施时，所述基于ORB-SLAM3的系统在具有惯导的情况下，利用局部建图中的方法来估计初始化和优化IMU的参数。

具体实施时，所述BA优化的步骤包括：

针对激活地图上的第一图像、第二图像特征匹配好相应的像素坐标，计算出第一图像上的像素坐标对应的归一化的空间点坐标；

具体实施时，所述语义分割模型为在deeplab模型的基础上改进而来，在已知开源的数据集中进行广泛的学习，然后再削减相关性低的标签再进行二次训练。其中数据集在预处理阶段进行了基于弱监督的数据增强，因此除了图像分割的数据集外，也可以适用于包含标签边界框的图像分类数据集。在使用过程中也可以是加入在线学习的机制，增强用户自身环境的分割与定位效果。

综上，本发明所提供的一种基于语义分割和SLAM的AR设备景深信息应用方法，AR应用的参数剪枝，解决了现有算法体量大、占用算力多的问题，与此同时抛弃了不适用于AR环境的分割对象，合并了一部分弱监督下的分割类别，将一部分对象物体标签统称为障碍物，减小了算法的体积；同时本发明使用双目鱼眼相机实现纯视觉的SLAM，通过稠密视觉法动态构建地图以及对环境中各物体的定位与深度分割，实现虚拟信息与现实环境的耦合，通过深度分割图像引导用户注视观察不同深度的物体以调节用户视力。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于语义分割和SLAM的AR设备景深信息应用方法 [P] . 中国专利： CN112365604A . 2021-02-12
2. 基于AR的信息显示方法、装置、AR设备、电子设备及介质 [P] . 中国专利： CN112738499A . 2021-04-30
3. GPS AR A Device of providing underground facility information using high precision GPS based on AR [P] . 韩国专利： KR101750546B1 . 2017-06-26

机译： GPS AR一种基于AR的高精度GPS提供地下设施信息的设备
4. INFORMATION DEVICE FOR DRAWING AR OBJECTS BASED ON PREDICTIVE CAMERA ATTITUDE IN REAL TIME, PROGRAM AND METHOD [P] . 日本专利： JP2016019199A . 2016-02-01

机译：实时基于预测相机姿态绘制AR对象的信息设备，程序和方法
5. SCENARIO APPLICATION METHOD AND SYSTEM BASED ON INFORMATION CLASSIFICATION, AND MEDIUM AND DEVICE [P] . WO2021035976A1 . 2021-03-04

机译：基于信息分类的场景应用方法和系统，中和设备