首页> 中国专利> 基于增强现实的远程指导方法、装置、终端和存储介质

基于增强现实的远程指导方法、装置、终端和存储介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明实施例公开了一种基于增强现实的远程指导方法、装置、终端和存储介质。该方法包括：获取目标场景的二维视频，并将二维视频发送至远程端；若远程指导的指导方式为标注方式，则获取远程端于二维视频中的标记图像帧中的标记点对应的二维像素坐标；根据预设三维坐标估计规则和二维像素坐标，确定标记点对应的当前相机坐标，其中，当前相机坐标是指于相机坐标系下标记点对应的当前三维空间坐标；根据呈现方式和当前相机坐标，渲染标记点对应的三维虚拟模型，以于目标场景中显示三维虚拟模型。本发明实施例的技术方案，可以实时跟踪和渲染标记点，从而提高远程指导准确度和指导效率。

著录项

公开/公告号CN108830894A

专利类型发明专利
公开/公告日2018-11-16

原文格式PDF
申请/专利权人亮风台(上海)信息科技有限公司;
展开▼

申请/专利号CN201810628312.5
发明设计人李佩易;周响南;
展开▼

申请日2018-06-19
分类号G06T7/536(20170101);G06T15/20(20110101);
代理机构11332 北京品源专利代理有限公司;
代理人孟金喆
地址 201203 上海市浦东新区中国(上海)自由贸易试验区盛夏路570号501/503-505室
入库时间 2023-06-19 07:15:35

法律信息

法律状态公告日

法律状态信息

法律状态
2023-09-22

专利权质押合同登记的注销 IPC(主分类):G06T 7/536 授权公告日:20200117 申请日:20180619 专利号:ZL2018106283125 登记号:Y2022310000277 出质人:亮风台(上海)信息科技有限公司质权人:兴业银行股份有限公司上海徐汇支行解除日:20230906

专利权质押合同登记的生效、变更及注销
2023-08-08

专利权人的姓名或者名称、地址的变更 IPC(主分类):G06T 7/536 专利号:ZL2018106283125 变更事项:专利权人变更前:亮风台(上海)信息科技有限公司变更后:亮风台(上海)信息科技有限公司变更事项:地址变更前:201203 上海市浦东新区中国(上海)自由贸易试验区盛夏路570号501/503-505室变更后:201210 上海市浦东新区中国(上海)自由贸易试验区申江路5005弄1号7层

专利权人的姓名或者名称、地址的变更
2022-10-25

专利权质押合同登记的生效 IPC(主分类):G06T 7/536 专利号:ZL2018106283125 登记号:Y2022310000277 登记生效日:20221008 出质人:亮风台(上海)信息科技有限公司质权人:兴业银行股份有限公司上海徐汇支行发明名称:基于增强现实的远程指导方法、装置、终端和存储介质申请日:20180619 授权公告日:20200117

专利权质押合同登记的生效、变更及注销
2020-01-17

授权

授权
2018-12-11

实质审查的生效 IPC(主分类):G06T7/536 申请日:20180619

实质审查的生效
2018-11-16

公开

公开

查看全部

说明书

技术领域

本发明实施例涉及计算机视觉技术，尤其涉及一种基于增强现实的远程指导方法、装置、终端和存储介质。

背景技术

在计算机视觉研究领域中，增强现实(Augmented Reality，AR)可以使得智能设备对所处的场景进行理解，并在现实场景中渲染出本不存在的物体，从而用户可以从现实场景中获取更多准确的信息，或者更好的娱乐体验。在基于增强现实的远程指导中，需要渲染远程端的指导人员在某张二维图像帧上的标记点对应的三维虚拟模型，以使现场端的操作人员可以看到该三维虚拟模型，便于操作准确。

通常，现有的远程指导存在两种方式。第一种方式是平面对平面的交互方式，具体为：现场端将摄像头采集到的二维视频发送至远程端，远程端的指导人员对某张二维图像帧进行标注后，再将该二维图像帧传送至现场端的操作人员，现场端的操作人员以查看图像的方式来理解远程端指导人员标注的意思。第二种方式是：现场端上安装RGB(Red GreenBlue)摄像头和深度摄像头两种不同的传感器，来同时采集二维图像以及深度图像，但只将二维图像传送给远程端的指导人员，远程端指导人员对二维图像进行标注后，再传送至现场端的操作人员。根据采集的深度图像，计算远程端指导人员标注的二维像素坐标对应在深度图像中的深度像素坐标，然后从该深度像素坐标获取深度信息，从而得到标记点对应的三维空间坐标，现场端的增强现实眼镜可以通过双目OST(Optical See-Through，光学透镜)镜片将该标记点渲染在真实的现实场景中。

然而，对应第一种远程指导方式，现场端操作人员只能以查看图像的方式，来推测远程端指导人员标注的意思，使得指导不够直观。对应第二种远程指导方式，由于需要在现场端上增加一个深度摄像头，从而大大增加了硬件的成本。此外，当现场端的操作人员想通过另外的一个角度对标记点进行观察时，由于该方式不存在跟踪算法，使得该标记点会标记在错误的位置上，从而现场端的操作人员需要在标注时间内，完全保持佩戴的增强现实眼镜没有空间上的移动。可见，这种远程指导方式的实用限制较大。

可见，目前急需一种只利用一个普通RGB摄像头便可以实时跟踪和渲染标记点对应的三维虚拟模型的技术方案。

发明内容

本发明实施例提供了一种基于增强现实的远程指导方法、装置、终端和存储介质，以实时跟踪和渲染标记点，提高远程指导准确度和指导效率。

第一方面，本发明实施例提供了一种基于增强现实的远程指导方法，包括：

获取目标场景的二维视频，并将所述二维视频发送至远程端；

若远程指导的指导方式为标注方式，则获取所述远程端于所述二维视频中的标记图像帧中的标记点对应的二维像素坐标；

根据预设三维坐标估计规则和所述二维像素坐标，确定所述标记点对应的当前相机坐标，其中，所述当前相机坐标是指于相机坐标系下所述标记点对应的当前三维空间坐标；

根据呈现方式和所述当前相机坐标，渲染所述标记点对应的三维虚拟模型，以于所述目标场景中显示所述三维虚拟模型。

第二方面，本发明实施例还提供了一种基于增强现实的远程指导装置，包括：

二维视频获取模块，用于获取目标场景的二维视频，并将所述二维视频发送至远程端；

二维像素坐标获取模块，用于若远程指导的指导方式为标注方式，则获取所述远程端于所述二维视频中的标记图像帧中的标记点对应的二维像素坐标；

当前相机坐标确定模块，用于根据预设三维坐标估计规则和所述二维像素坐标，确定所述标记点对应的当前相机坐标，其中，所述当前相机坐标是指于相机坐标系下所述标记点对应的当前三维空间坐标；

三维虚拟模型渲染模块，用于根据呈现方式和所述当前相机坐标，渲染所述标记点对应的三维虚拟模型，以于所述目标场景中显示所述三维虚拟模型。

第三方面，本发明实施例还提供了一种终端，所述终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

输入装置，用于获取二维视频；

输出装置，用于显示标记点对应的三维虚拟模型；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所述的基于增强现实的远程指导方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的基于增强现实的远程指导方法。

本发明实施例通过将获取的目标场景的二维视频发送至远程端；当远程指导的指导方式为标注方式时，获取远程端于二维视频中的标记图像帧中的标记点对应的二维像素坐标；根据预设三维坐标估计规则和二维像素坐标，确定标记点对应的当前相机坐标；并根据呈现方式和当前相机坐标，渲染标记点对应的三维虚拟模型，以于目标场景中显示三维虚拟模型。本实施例可以只利用一个普通RGB摄像头拍摄二维视频，无需增加深度摄像头来获取深度图像，从而降低了硬件成本。并且可以实时确定标记点对应的当前相机坐标，从而可以根据当前相机坐标对标记点对应的三维虚拟模型进行实时跟踪和渲染，使得现场端的操作人员在以任意角度观察时，该标记点对应的三维虚拟模型均会标记在准确的位置上，从而大大提高了远程指导的准确度和指导效率。

附图说明

图1是本发明实施例一提供的一种基于增强现实的远程指导方法的流程图；

图2是本发明实施例一提供的基于ORB特征点的即时定位与地图构建SLAM算法的流程图；

图3是本发明实施例一提供的在双目OST镜片方式时标记点对应的三维虚拟模型的呈现示例；

图4是本发明实施例一提供的在VST镜片方式时标记点对应的三维虚拟模型的呈现示例；

图5是本发明实施例二提供的一种基于增强现实的远程指导方法的流程图；

图6是本发明实施例二提供的一种于远程端上三维虚拟模型的呈现示例；

图7是本发明实施例三提供的一种基于增强现实的远程指导装置的结构示意图；

图8是本发明实施例四提供的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种基于增强现实的远程指导方法的流程图，该方法应用于现场端。本实施例可适用于实时跟踪和渲染远程端于二维视频中的标记点对应的三维虚拟模型的情况。该方法可以由基于增强现实的远程指导装置来执行，该装置可以由软件和/或硬件的方式来实现，集成于带有RGB摄像头的现场端中，比如智能手机、平板电脑、AR眼镜、MR(Mix Reality，混合现实)眼镜、带摄像头的VR(Virtual Reality，虚拟现实)眼镜等。该方法具体包括以下步骤：

S110、获取目标场景的二维视频，并将二维视频发送至远程端。

其中，目标场景是指需要远程端的指导人员指导的目标物体所处的真实场景。远程端是指远程指导人员所使用的智能终端，比如智能手机、平板电脑、笔记本电脑等。在本实施例中，现场操作人员可以使用现场端上的普通的RGB摄像头来获取目标场景的二维视频，并且现场端将获取的二维视频发送至远程端，以使远程指导人员可以实时直观地观察现场操作人员的情况，并根据目标场景的二维视频对现场操作人员进行技术指导。二维视频中的每张图像帧不带有物体的深度信息。本实施例中的二维视频可以是指利用运动的单目摄像头拍摄的静态场景下的视频。

S120、若远程指导的指导方式为标注方式，则获取远程端于二维视频中的标记图像帧中的标记点对应的二维像素坐标。

其中，远程指导的指导方式可以包括但不限于标注方式、音频方式、文本注释方式等。若远程指导人员在现场端发送的二维视频中的某张图像帧中的一个物体上选取了一个点进行标注，则此时表明远程指导的指导方式为标注方式。可选的，远程指导人员可以在远程端上通过鼠标点击或者触摸屏触摸等方式来选取二维视频中的任意一张图像帧上的标记点，并且也可以将图像帧中的任意位置确定为标记点，该标记点可以在平面上，也可以处于悬空状态。标记图像帧是指标记点所在的图像帧。示例性的，若标记图像帧的图像内容为包括水杯的一个桌面，则该标记点可以是桌面这个平面上的一点，也可以是放置在桌面上的水杯的杯柄尖端。标记图像帧中的标记点的数量可以是一个，也可以是多个。当存在多个标记点时，可以利用本实施例提供的远程指导方法逐个渲染每个标记点对应的三维虚拟模型。在图像平面上，可以将图像平面的左上角顶点确定为像素坐标系的原点，以水平线和铅直线分别确定为u轴和v轴，从而建立像素坐标系o-uv。标记点对应的二维像素坐标是指于像素坐标系下该标记点对应的像素坐标。当远程指导人员在远程端上选取标记点后，远程端将标记点对应的二维像素坐标发送至现场端。

S130、根据预设三维坐标估计规则和二维像素坐标，确定标记点对应的当前相机坐标，其中，当前相机坐标是指于相机坐标系下标记点对应的当前三维空间坐标。

其中，预设三维坐标估计规则可以是指根据标记点对应的二维像素坐标来估计在相机坐标系下该标记点对应的当前三维空间坐标的规则，其可以根据实际情况和需求预先设置。在空间中，可以将相机光心确定为相机坐标系的原点，建立相机坐标系O_C-X_CY_CZ_C。当现场操作人员移动相机使得观察角度发生变化时，在相机坐标系下，标记点对应的相机坐标也会发生变化。本实施例通过实时确定当前时刻标记点对应的当前相机坐标，从而可以实时跟踪标记点对应的相机三维空间坐标，以对标记点的三维虚拟模型进行实时定位。

可选的，S130包括：根据预设三维估计规则、预设重建算法、以及二维像素坐标，确定标记点对应的世界坐标，其中，世界坐标是指于世界坐标系下标记点对应的世界三维空间坐标；根据预设重建算法和二维视频确定当前相机位姿；根据世界坐标和当前相机位姿，确定标记点对应的当前相机坐标。

其中，预设三维估计规则可以是指在世界坐标系下确定标记点对应的世界三维空间坐标。世界坐标系O_w-X_wY_wZ_w可以用于描述真实场景中相机和物体的空间位置。当现场操作人员移动相机使得观察角度发生变化时，即相机位姿发生变化时，标记点对应的相机坐标随相机位姿的变化而变化，然而标记点对应的世界坐标随相机位姿的变化而保持不变，从而需要根据预设三维估计规则确定标记点对应的世界坐标。预设重建算法可以是指创建三维世界点云以及确定当前相机位姿的算法，其中，三维世界点云是指于世界坐标系下的三维点云。预设重建算法可以包括但不限于三维重建算法以及即时定位与地图构建SLAM(Simultaneous>

可选的，根据预设三维估计规则、预设重建算法、以及二维像素坐标，确定标记点对应的世界坐标，包括：根据像素坐标系与相机坐标系之间的第五转换关系，确定于相机坐标系下二维像素坐标对应的第一映射直线；根据世界坐标系与相机坐标系之间的第六转换关系、预设筛选规则、以及于世界坐标系下的三维世界点云，确定于相机坐标系下的目标相机点，其中三维世界点云和第六转换关系根据二维视频和预设重建算法确定；根据与预设筛选规则相对应的预设估计规则、第一映射直线以及目标相机点，确定于相机坐标系下标记点对应的相机坐标；根据第六转换关系以及相机坐标，确定于世界坐标系下标记点对应的世界坐标。

其中，本实施例中的像素坐标系与相机坐标系之间的第五转换关系可以包括从像素坐标系转换到相机坐标系的第一转换矩阵以及从相机坐标系转换到像素坐标系的第二转换矩阵，其中第二转换矩阵可以为第一转换矩阵的逆矩阵。第五转换关系为相机的内参矩阵，可以根据相机的型号和类型预先确定。当将像素坐标系下的二维像素坐标转换至相机坐标系中的三维坐标时，即从低维度向高维度映射时，可以根据维度映射原理以及像素坐标系与相机坐标系之间的第五转换关系，确定在相机坐标系下二维像素坐标对应的第一映射直线，即在相机坐标系下标记点对应的第一映射直线。

本实施例中的世界坐标系与相机坐标系之间的第六转换关系是指在拍摄标记图像帧时刻，世界坐标系与相机坐标系之间的转换关系。第六转换关系可以利用旋转矩阵和平移向量来表示，其中旋转矩阵可以表示相机在世界坐标系下的指向，平移向量可以表示相机在世界坐标系下的位置。第六转换关系可以包括从世界坐标系转换至相机坐标系下的转换关系以及从相机坐标系转换至世界坐标系下的转换关系。本实施例中的三维世界点云是指于世界坐标系下的三维点云。目标相机点是指在相机坐标系下的三维目标点。预设筛选规则可以是指从点云中确定目标相机点的规则。目标相机点的数量可以为一个，也可以为多个，其可以根据预设筛选规则确定。

预设估计规则可以是指对标记点的深度信息进行估计的规则。预设估计规则与确定目标相机点的预设筛选规则相对应。示例性的，若预设筛选规则确定的目标相机点只有一个，则与该预设筛选规则对应的预设估计规则可以为根据该目标相机点如何确定目标深度信息的规则。若预设筛选规则确定的目标相机点为多个，则与该预设筛选规则对应的预设估计规则可以为根据多个目标相机点如何确定目标深度信息的规则。本实施例中的相机坐标是指在拍摄标记图像帧时，在相机坐标系下标记点对应的三维空间坐标。通过基于预设估计规则，根据在相机坐标系下的第一映射直线和目标相机点来确定标记点对应的相机坐标，无需将标记点的三维空间坐标落到强行拟合的平面上，从而大大提高了三维空间坐标估计的准确度。根据在拍摄标记图像帧时的相机坐标系与世界坐标系之间的第六转换关系，将标记点对应的相机坐标映射至世界坐标系下，从而可以确定在世界坐标系下该标记点对应的世界坐标，此时确定的标记点对应的世界坐标随着摄像头的移动而保持不变。

可选的，预设重建算法包括：基于ORB特征点的即时定位与地图构建SLAM算法；

相应的，三维世界点云根据二维视频和预设重建算法确定，包括：提取二维视频中的当前图像帧的ORB特征点与上一图像帧的ORB特征点；将当前图像帧的ORB特征点与上一图像帧的ORB特征点进行匹配，并根据视差原理，创建ORB特征点的三维世界点云。

其中，ORB是一种快速稳定的局部特征提取器，其可以用于计算机视觉领域中的物体识别、三维重建等。本实施例中的当前图像帧可以是指二维视频中当前时刻拍摄的图像帧，上一图像帧可以是指在二维视频的图像帧序列中，当前图像帧的前一图像帧。图2给出了基于ORB特征点的即时定位与地图构建SLAM算法的流程图。如图2所示，当前图像帧拍摄的图像内容为一个圆形、一个三角形和一个矩形，通过提取当前图像帧中的ORB特征点(如图2中的×标记)，将当前图像帧中的ORB特征点与上一图像帧中的ORB特征点进行特征点的匹配。视差原理是指当摄像头在空间中发生移动时，由于距离摄像头不同深度的点在摄像头拍摄的二维图像帧中的移动距离是不同的，从而可以计算出这些点与摄像头的距离关系。如图2所示，将下一时刻拍摄的图像帧作为当前图像帧循环进行特征点匹配，从而可以根据视差原理创建在世界坐标系下的三维世界点云。

可选的，第六转换关系根据二维视频和预设重建算法确定，包括：根据标记图像帧的ORB特征点和标记图像帧的前一图像帧的ORB特征点，确定标记图像帧对应的标记相机位姿，并将标记相机位姿确定为第六转换关系。

其中，如图2所示，在基于ORB特征点的即时定位与地图构建SLAM算法创建三维世界点云时，可以实时计算出二维视频中每张图像帧对应的相机位置姿态。本实施例可以通过标记图像帧的ORB特征点和标记图像帧的前一图像帧的ORB特征点，来确定拍摄标记图像帧时刻对应的相机位姿。根据标记图像帧时刻对应的相机位姿可以直接获取在拍摄标记图像帧时，相机坐标系与世界坐标系之间的第六转换关系，即可以直接将标记图像帧时刻对应的相机位姿确定为第六转换关系。

可选的，预设重建算法包括：基于ORB特征点的同步定位与地图构建SLAM算法；

相应的，根据预设重建算法和二维视频确定当前相机位姿，包括：根据二维视频中的当前图像帧的ORB特征点和当前图像帧的上一图像帧的ORB特征点，确定当前相机位姿。

其中，如图2所示，在基于ORB特征点的即时定位与地图构建SLAM算法创建三维世界点云时，可以实时计算出二维视频中每张图像帧对应的相机位姿。

在本实施例中，当现场端获取目标场景的二维视频后，将获取的二维视频发送至远程端，以使远程端可以实时查看现场情况，并于二维视频中的图像帧上进行标注，同时现场端根据获取的二维视频和预设重建算法创建三维世界点云，并且确定二维视频中每张图像帧对应的相机位姿。

可选的，根据世界坐标系与相机坐标系之间的第六转换关系、预设筛选规则、以及于世界坐标系下的三维世界点云，确定于相机坐标系下的目标相机点，包括：根据世界坐标系与相机坐标系之间的第六转换关系，以及于世界坐标系下的三维世界点云，确定于相机坐标系下的三维相机点云；根据预设筛选规则、三维相机点云以及二维像素坐标对应的第一映射直线，确定于相机坐标系下的目标相机点。

其中，三维相机点云是指在相机坐标系下的三维点云。本实施例可以根据世界坐标系与相机坐标系之间的第六转换关系，将世界坐标系下的三维世界点云映射至相机坐标系下，从而获取相机坐标系下的三维相机点云。预设筛选规则具体可以是指从三维相机点云中确定目标相机点的规则。第一映射直线是在相机坐标系下二维像素坐标对应的映射直线。目标相机点可以是一个，也可以为多个，由预设筛选规则确定。示例性的，预设筛选规则可以为但不限于根据三维相机点云中的各点与第一映射直线之间的垂直距离进行筛选。

可选的，根据世界坐标系与相机坐标系之间的第六转换关系、预设筛选规则、以及于世界坐标系下的三维世界点云，确定于相机坐标系下的目标相机点，包括：将二维像素坐标映射至于世界坐标系下的三维世界点云中，确定于世界坐标系下二维像素坐标对应的第二映射直线；根据预设筛选规则和第二映射直线确定三维世界点云中的目标世界点；根据世界坐标系与相机坐标系之间的第六转换关系以及目标世界点，确定于相机坐标系下的目标相机点。

其中，将二维像素坐标映射至世界坐标系下的三维世界点云中，即从低维度向高维度映射时，可以根据像素坐标系与相机坐标系之间的第五转换关系以及世界坐标系与相机坐标系之间的第六转换关系，确定在世界坐标系下二维像素坐标对应的第二映射直线。目标世界点是指在世界坐标系下的三维目标点。预设筛选规则具体可以是指从三维世界点云中确定目标世界点的规则。目标世界点可以是一个，也可以为多个，由预设筛选规则确定。示例性的，预设筛选规则可以为但不限于根据三维世界点云中的各点与第二映射直线之间的垂直距离进行筛选。根据世界坐标系与相机坐标系之间的第二转换关系，将确定的每个目标世界点转换至相机坐标系下，从而可以获取相机坐标下的目标相机点。

可选的，根据世界坐标系与相机坐标系之间的第六转换关系、预设筛选规则、以及于世界坐标系下的三维世界点云，确定于相机坐标系下的目标相机点，包括：根据于世界坐标系下的三维世界点云，以及世界坐标系与相机坐标系之间的第六转换关系，确定于相机坐标系下的三维相机点云；根据三维相机点云以及像素坐标系和相机坐标系之间的第五转换关系，确定于像素坐标系下的二维像素点云，并记录三维相机点与二维像素点之间的对应关系；根据预设筛选规则、二维像素点云和二维像素坐标，确定二维像素点云中的目标像素点；根据对应关系以及目标像素点，确定于相机坐标系下的目标相机点。

其中，三维相机点云是指在相机坐标系下的三维点云。二维像素点云是指在像素坐标系下的二维点云。根据世界坐标系与相机坐标系之间的第六转换关系，将于世界坐标系下的三维世界点云中的各点映射至相机坐标系下，从而可以确定在相机坐标系下的三维相机点云。根据像素坐标系与相机坐标系之间的第五转换关系，将在相机坐标系下的三维相机点云降维投影至像素坐标系下，从而可以确定在像素坐标系下的二维像素点云。本实施例在降维投影过程中，记录三维相机点云中的每个三维相机点与投影后的二维像素点之间的对应关系。对应关系可以为每个三维相机点的三维空间坐标与二维像素点的像素坐标之间的对应关系，也可以为每个三维相机点的三维空间坐标中的Z_C值与二维像素点的像素坐标之间的对应关系。预设筛选规则具体可以是指从二维像素点云中确定目标像素点的规则。目标像素点可以是一个，也可以为多个，由预设筛选规则确定。示例性的，预设筛选规则可以为但不限于根据二维像素点云中的各点与二维像素坐标之间的距离进行筛选。根据目标像素点的像素坐标在对应关系中进行匹配，将与目标像素点的像素坐标对应的三维相机点确定为目标相机点。

可见，在本实施例中，可以在三维相机点云中直接确定目标相机点，也可以在三维世界点云中确定目标世界点，进而再确定目标世界点对应的目标相机点，还也可以在二维像素点云中确定目标像素点，进而再确定目标像素点对应的目标相机点。

可选的，根据与预设筛选规则相对应的预设估计规则、第一映射直线以及目标相机点，确定于相机坐标系下标记点对应的相机坐标，包括：根据与预设筛选规则相对应的预设估计规则和目标相机点确定目标深度值；于第一映射直线上确定目标深度值对应的目标估计点，并将目标估计点对应的三维空间坐标确定为标记点对应的相机坐标。

其中，目标深度值是指标记点的深度信息，从而本实施例无需利用深度摄像头来获取标记点的深度信息。本实施例中的第一映射直线是指在相机坐标系系下标记点对应的映射直线，从而表明该标记点对应的相机三维空间坐标即为第一映射直线上某一点的三维空间坐标。本实施例通过根据目标深度值，将第一映射直线上的Z_C值为目标深度值的点确定为该目标深度值对应的目标估计点，并将目标估计点在相机坐标系下对应的三维空间坐标直接确定为该标记点对应的相机坐标。由于在相机坐标系下，每个目标相机点对应的三维空间坐标中的Z_C值可以准确表示该目标相机点的深度值，从而可以准确的确定该标记点对应的目标深度值，使得标记点对应的相机坐标的估计也更加准确。

对于在三维相机点云中直接确定目标相机点的方式而言，可选的，根据预设筛选规则、三维相机点云以及二维像素坐标对应的第一映射直线，确定于相机坐标系下的目标相机点，包括：计算三维相机点云中的各点与二维像素坐标对应的第一映射直线之间的第一垂直距离，将第一垂直距离最小的点确定为于相机坐标系下的目标相机点；相应的，根据与预设筛选规则相对应的预设估计规则和目标相机点确定目标深度值，包括：获取目标相机点的深度值，并将目标相机点的深度值确定为目标深度值。

其中，预设筛选规则可以为将距离第一映射直线最近的点确定为三维相机点云中的目标相机点，此时目标相机点只有一个。可以直接将该目标相机点对应的三维空间坐标中的Z_C值确定为目标深度值。通过将目标相机点对应的深度值直接确定为目标深度值，使得计算简便，提高了估计效率。

对于在三维相机点云中直接确定目标相机点的方式而言，可选的，根据预设筛选规则、三维相机点云以及二维像素坐标对应的第一映射直线，确定于相机坐标系下的目标相机点，包括：计算三维相机点云中的各点与二维像素坐标对应的第一映射直线之间的第一垂直距离，将第一垂直距离小于第一预设距离的多个点确定为于相机坐标系下的目标相机点；相应的，根据与预设筛选规则相对应的预设估计规则和目标相机点确定目标深度值，包括：根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值，并将平均深度值确定为目标深度值。

其中，预设筛选规则可以为将与第一映射直线的第二垂直距离小于第二预设距离的点均确定为目标相机点，此时确定的目标相机点为多个。第一预设距离可以根据实际情况预先确定，用于筛选出三维相机点云中的目标相机点。通过累加每个目标相机点对应的三维空间坐标中的Z_C值，并将累加结果除以目标相机点的数量得到的结果确定为平均深度值，并将平均深度值确定为目标深度值。通过将多个目标相机点的平均深度值确定为目标深度值，从而可以提高深度值估计的准确度。

可选的，在根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值之前，还包括：根据各个目标相机点与二维像素坐标对应的第一映射直线之间的第一垂直距离确定各目标相机点对应的权重值；将目标相机点的深度值与对应的权重值的乘积确定为目标相机点的最终深度值；相应的，根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值，包括：根据各个目标相机点的最终深度值和目标相机点的数量，确定平均深度值。

其中，当根据预设筛选规则确定的目标相机点为多个时，可以在确定平均深度值之前，可以根据每个目标相机点对应的三维空间坐标，计算每个目标相机点与第一映射直线之间的第一垂直距离，并可以根据第一垂直距离确定每个目标相机点对应的权重值。本实施例中的某个目标相机点对应的第一垂直距离越小，则该目标相机点的权重值越大，并且每个目标相机点对应的权重值之和等于1。将每个目标相机点的深度值和与其对应的权重值进行相乘得到的结果确定为该目标相机点的最终深度值。相应的，将每个目标相机点的最终深度值进行相加，并将相加结果除以目标相机点的数量，从而得到平均深度值，进而再将该平均深度值确定为目标深度值。通过加权平均的方式确定目标深度值，可以进一步提高深度值估计的准确度。

对于在三维世界点云中确定目标世界点，进而再确定目标世界点对应的目标相机点的方式而言，可选的，根据预设筛选规则和第二映射直线确定三维世界点云中的目标世界点，包括：计算三维世界点云中的各点与第二映射直线之间的第二垂直距离，将第二垂直距离最小的点确定为三维世界点云中的目标世界点；相应的，根据与预设筛选规则相对应的预设估计规则和目标相机点确定目标深度值，包括：获取目标相机点的深度值，并将目标相机点的深度值确定为目标深度值。

其中，预设筛选规则可以为将距离第二映射直线最近的点确定为三维世界点云中的目标世界点，此时确定的目标世界点只有一个。具体地，在三维世界点云中，根据每个三维世界点的三维空间坐标，计算每个点与第二映射直线之间的第二垂直距离，将第二垂直距离最小的点确定为目标世界点。相应的，当根据预设筛选规则确定的目标世界点只有一个时，表明目标相机点只有一个，即根据世界坐标系与相机坐标系之间的第六转换关系，确定该目标世界点对应的目标相机点。通过获取目标相机点对应的三维空间坐标中的Z_C值，并直接将目标相机点的Z_C值确定为目标深度值。通过将确定的目标相机点对应的深度值直接确定为目标深度值，使得计算简便，提高了估计效率。

对于在三维世界点云中确定目标世界点，进而再确定目标世界点对应的目标相机点的方式而言，可选的，根据预设筛选规则和第二映射直线确定三维世界点云中的目标世界点，包括：计算三维世界点云中的各点与第二映射直线之间的第二垂直距离，将第二垂直距离小于第二预设距离的多个点确定为三维世界点云中的目标世界点；相应的，根据与预设筛选规则相对应的预设估计规则和目标相机点确定目标深度值，包括：根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值，并将平均深度值确定为目标深度值。

其中，预设筛选规则可以为将与第二映射直线的第二垂直距离小于第二预设距离的点均确定为目标世界点，此时确定的目标世界点为多个。第二预设距离可以根据实际情况预先确定，用于筛选三维世界点云中的目标世界点。相应的，当根据预设筛选规则确定的目标世界点为多个时，表明目标相机点有多个，即根据世界坐标系与相机坐标系之间的第六转换关系，确定每个目标世界点对应的目标相机点。目标相机点的深度值是指目标相机点对应的三维空间坐标中的Z_C值。通过累加每个目标相机点的深度值，并将累加结果除以目标相机点的数量得到的结果确定为平均深度值，将平均深度值确定为目标深度值。通过将多个目标相机点的平均深度值确定为目标深度值，可以提高深度值估计的准确度。

可选的，在根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值之前，还包括：计算各个目标相机点与二维像素坐标对应的第一映射直线之间的第三垂直距离，并根据各第三垂直距离确定各目标相机点对应的权重值；将目标相机点的深度值与对应的权重值的乘积确定为目标相机点的最终深度值；相应的，根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值，包括：根据各个目标相机点的最终深度值和目标相机点的数量，确定平均深度值。

其中，当根据预设筛选规则确定的目标相机点为多个时，可以在确定平均深度值之前，可以根据每个目标相机点对应的三维空间坐标，计算每个目标相机点与第一映射直线之间的第三垂直距离，并可以根据第三垂直距离确定每个目标相机点对应的权重值。本实施例中的某个目标相机点对应的第三垂直距离越小，则该目标相机点的权重值越大，并且每个目标相机点对应的权重值之和等于1。在本实施例中，某个点和某条直线均映射至不同坐标系时，在同一坐标系下，该点与该直线之间的垂直距离是固定不变的，从而目标相机点与第一映射直线之间的第三垂直距离等于目标世界点与第二映射直线之间的第二垂直距离。可选的，本实施例还可以直接根据某个目标世界点与第二映射直线之间的第二垂直距离确定该目标世界点对应的目标相机点的权重值，并且第二垂直距离越小，该目标相机点的权重值越大。将每个目标相机点的深度值和与其对应的权重值进行相乘得到的结果确定为该目标相机点的最终深度值。相应的，将每个目标相机点的最终深度值进行相加，并将相加结果除以目标相机点的数量，从而得到平均深度值，进而再将该平均深度值确定为目标深度值。通过加权平均的方式确定目标深度值，可以进一步提高深度值估计的准确度。

对于在二维像素点云中确定目标像素点，进而再确定目标像素点对应的目标相机点的方式而言，可选的，根据预设筛选规则、二维像素点云和二维像素坐标，确定二维像素点云中的目标像素点，包括：计算二维像素点云中的各点与二维像素坐标之间的坐标距离，将坐标距离最小的点确定为二维像素点云中的目标像素点；相应的，根据与预设筛选规则相对应的预设估计规则和目标相机点确定目标深度值，包括：获取目标相机点的深度值，并将目标相机点的深度值确定为目标深度值。

其中，预设筛选规则可以为将距离二维像素坐标最近的点确定为二维像素点云中的目标像素点，此时目标像素点只有一个。具体的，在二维像素点云中，根据每个二维像素点的像素坐标，计算每个点与二维像素坐标之间的坐标距离，将坐标距离最小的点确定为目标像素点。相应的，当根据预设筛选规则确定的目标像素点只有一个时，表明目标相机点只有一个，即根据三维相机点与二维像素点之间的对应关系，确定该目标像素点对应的目标相机点，并根据对应关系获取该目标相机点对应的三维空间坐标中的Z_C值，将该目标相机点的Z_C值确定为目标深度值。通过将目标相机点对应的深度值直接确定为目标深度值，使得计算简便，提高了估计效率。

对于在二维像素点云中确定目标像素点，进而再确定目标像素点对应的目标相机点的方式而言，可选的，根据预设筛选规则、二维像素点云和二维像素坐标，确定二维像素点云中的目标像素点，包括：计算二维像素点云中的各点与二维像素坐标之间的坐标距离，将坐标距离小于预设坐标距离的多个点确定为二维像素点云中的目标像素点；相应的，根据与预设筛选规则相对应的预设估计规则和目标相机点确定目标深度值，包括：根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值，并将平均深度值确定为目标深度值。

其中，预设筛选规则可以为将与二维像素坐标的坐标距离小于预设坐标距离的点均确定为目标像素点，此时确定的目标像素点为多个。预设坐标距离可以根据实际情况预先确定，用于筛选出二维像素点云中的目标像素点。相应的，当根据预设筛选规则确定的目标像素点为多个时，表明目标相机点有多个，即根据三维相机点与二维像素点之间的对应关系，确定每个目标像素点对应的目标相机点以及目标相机点对应的三维空间坐标中的Z_C值。通过累加每个目标相机点的深度值，并将累加结果除以目标相机点的数量得到的结果确定为平均深度值，将平均深度值确定为目标深度值。通过将多个目标相机点的平均深度值确定为目标深度值，可以提高深度值估计的准确度。

可选的，在根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值之前，还包括：计算各个目标相机点与二维像素坐标对应的第一映射直线之间的第三垂直距离，并根据各第三垂直距离确定各目标相机点对应的权重值；将目标相机点的深度值与对应的权重值的乘积确定为目标相机点的最终深度值；或者，根据各个目标像素点与二维像素坐标之间的坐标距离确定各个目标像素点对应的目标相机点对应的权重值；将目标相机点的深度值与对应的权重值的乘积确定为目标相机点的最终深度值；相应的，根据各个目标相机点的深度值和目标相机点的数量，确定平均深度值，包括：根据各个目标相机点的最终深度值和目标相机点的数量，确定平均深度值。

其中，当根据预设筛选规则确定的目标相机点为多个时，可以在确定平均深度值之前，可以根据每个目标相机点对应的三维空间坐标，计算每个目标相机点与第一映射直线之间的第三垂直距离，并可以根据第三垂直距离确定每个目标相机点对应的权重值。本实施例中的某个目标相机点对应的第三垂直距离越小，则该目标相机点的权重值越大，并且每个目标相机点对应的权重值之和等于1。或者本实施例也可以直接根据每个目标像素点与二维像素坐标之间的坐标距离确定该目标像素点对应的目标相机点对应的权重值，并且坐标距离越小，则该目标像素点对应的目标相机点对应的权重值越大。将每个目标相机点的深度值和与其对应的权重值进行相乘得到的结果确定为该目标相机点的最终深度值。相应的，将每个目标相机点的最终深度值进行相加，并将相加结果除以目标相机点的数量，从而得到平均深度值，进而再将该平均深度值确定为目标深度值。通过加权平均的方式确定目标深度值，可以进一步提高深度值估计的准确度。

S140、根据呈现方式和当前相机坐标，渲染标记点对应的三维虚拟模型，以于目标场景中显示三维虚拟模型。

其中，本实施例中的呈现方式可以是指呈现标记点对应的三维虚拟模型的方式。呈现方式可以是但不限于双目OST(Optical See Through，光学透视)镜片方式、双目VST(Video See Through，视频透视)镜片方式和单目VST镜片方式等成像方式。其中，双目OST镜片方式是指利用双目视差，用户可以直接看到渲染在真实场景中的标记点对应的三维虚拟模型；双目VST镜片方式是指用户的两只眼睛均可以看到一个包含标记点对应的三维虚拟模型的虚拟屏幕；单目VST镜片方式是指用户的一只眼睛可以看到一个包含标记点对应的三维虚拟模型的虚拟屏幕。标记点对应的三维虚拟模型是实际中不存在的三维模型，三维虚拟模型的大小、形状、颜色等参数可以预先根据实时情况和需求进行设置。可选的，三维虚拟模型可以是一个三维的箭头模型。本实施例可以将标记点的当前相机坐标确定为三维虚拟模型的指示点的三维空间坐标，其中指示点可以为箭头模型的尖端位置。通过实时确定三维虚拟模型中一个点的三维空间坐标，即可实时确定整个三维虚拟模型在相机坐标系下的空间位置，从而根据呈现方式可以实时渲染三维虚拟模型，以使用户在任何角度观察时，标记点对应的三维虚拟模型都可以准确的标注在目标物体上，大大提高了远程指导的准确度以及指导效率。

可选的，S140包括：若呈现方式为双目光学透视OST镜片方式，则根据相机坐标系与左目虚拟三维坐标系之间的第一转换关系、左目虚拟三维坐标系与左目像素坐标系之间的第二转换关系、以及当前相机坐标，确定标记点对应的三维虚拟模型对应的左目像素坐标；于左目像素坐标处渲染标记点对应的三维虚拟模型，以于左目OST镜片中显示三维虚拟模型对应的左目图像；根据相机坐标系与右目虚拟三维坐标系之间的第三转换关系、右目虚拟三维坐标系与右目像素坐标系之间的第四转换关系、以及当前相机坐标，确定标记点对应的三维虚拟模型对应的右目像素坐标；于右目像素坐标处渲染标记点对应的三维虚拟模型，以于右目OST镜片中显示三维虚拟模型对应的右目图像。

其中，OST镜片是指一种电子显示器，这种显示器可以让用户在看到镜片上显示的内容的同时，也可以透过该镜片看到镜片后的真实场景。双目OST镜片可以让用户左右眼看到不同的渲染成像，从而可以制造出双目视差的效果，让用户看到三维虚拟模型的成像。根据OST镜片的可看穿特性，可以达到让用户以为渲染出来的三维虚拟模型真实存在于目标情景中的效果。本实施例中的左目虚拟三维坐标系是指人眼与左目OST镜片组成的一个虚拟的三维坐标系，右目虚拟三维坐标系是指人眼与右目OST镜片组成的一个虚拟的三维坐标系，并且左目虚拟三维坐标系不同于右目虚拟三维坐标系。当相机固定安装在智能眼镜上后，相机坐标系与左目虚拟三维坐标系之间的第一转换关系、左目虚拟三维坐标系与左目像素坐标系之间的第二转换关系、相机坐标系与右目虚拟三维坐标系之间的第三转换关系、以及右目虚拟三维坐标系与右目像素坐标系之间的第四转换关系均可以预先确定。通过根据标记点的当前相机坐标、第一转换关系和第二转换关系，可以确定在左目像素坐标系下三维虚拟模型对应的左目像素坐标，并将左目像素坐标确定为渲染位置，在左目OST镜片中渲染标记点对应的三维虚拟模型。通过根据标记点的当前相机坐标、第三转换关系和第四转换关系，可以确定在右目像素坐标系下三维虚拟模型对应的右目像素坐标，并将右目像素坐标确定为渲染位置，在右目OST镜片中渲染标记点对应的三维虚拟模型。图3给出了在双目OST镜片方式时标记点对应的三维虚拟模型的呈现示例。如图3所示，真实场景中有一个球、一个圆锥体和一个长方体，图3中的×表示远程指导人员在标记图像帧上选取的标记点，长方体上的箭头表示该标记点对应的三维虚拟模型，该箭头的尖端位置即为标记点在空间中的位置，从而可以使现场操作人员准确的看到远程指导人员标记的位置，使得操作更加准确，并且提高了指导效率。

可选的，根据相机坐标系与左目虚拟三维坐标系之间的第一转换关系、左目虚拟三维坐标系与左目像素坐标系之间的第二转换关系、以及当前相机坐标，确定标记点对应的三维虚拟模型对应的左目像素坐标，包括：根据相机坐标系与左目虚拟三维坐标系之间的第一转换关系以及当前相机坐标，确定标记点对应的三维虚拟模型对应的左目虚拟三维坐标；根据左目虚拟三维坐标系与左目像素坐标系之间的第二转换关系以及左目虚拟三维坐标，确定三维虚拟模型对应的左目像素坐标。

其中，根据当前相机坐标和标记点对应的三维虚拟模型，可以确定三维虚拟模型在当前相机坐标系下的相机坐标，根据相机坐标系与左目虚拟三维坐标系之间的第一转换关系、将当前相机坐标系下的三维虚拟模型映射至左目虚拟三维坐标系，确定三维虚拟模型对应的左目虚拟三维坐标。根据左目虚拟三维坐标系与左目像素坐标系之间的第二转换关系，将左目虚拟三维坐标系下的三维虚拟模型映射至左目像素坐标系，确定三维虚拟模型对应的左目像素坐标。同理，在确定三维虚拟模型对应的右目像素坐标时，可以是根据相机坐标系与右目虚拟三维坐标系之间的第三转换关系以及当前相机坐标，确定标记点对应的三维虚拟模型对应的右目虚拟三维坐标；根据右目虚拟三维坐标系与左目像素坐标系之间的第四转换关系以及右目虚拟三维坐标，确定三维虚拟模型对应的右目像素坐标。

可选的，S140包括：若呈现方式为视频透视VST镜片方式，则根据像素坐标系与相机坐标系之间的第五转换关系和当前相机坐标，将标记点对应的三维虚拟模型投影至像素坐标系下，确定三维虚拟模型对应的像素坐标；根据三维虚拟模型对应的像素坐标，将三维虚拟模型渲染至二维视频中的当前图像帧中，以于VST镜片中显示渲染后的当前图像帧。

其中，像素坐标系为相机拍摄的图像帧对应的二维坐标系。根据当前相机坐标和标记点对应的三维虚拟模型，可以确定三维虚拟模型在当前相机坐标系下的相机坐标。根据像素坐标系与相机坐标系之间的第五转换关系，将三维虚拟模型投影至像素坐标系，从而可以确定三维虚拟模型对应的像素坐标。将三维虚拟模型对应的像素坐标确定为渲染位置，在二维视频的当前图像帧上渲染三维虚拟模型，使得在VST镜片中展示渲染后的当前图像帧，此时用户只能看到带有三维虚拟模型的图像帧，无法看到镜后的真实情景，但现场操作人员利用VST镜片看到的标记点仍然是三维立体的。当呈现方式为双目VST镜片方式时，根据三维虚拟模型对应的像素坐标，在左目VST镜片和右目VST镜片中均展示渲染后的当前图像帧。当呈现方式为单目VST镜片方式时，根据三维虚拟模型对应的像素坐标，只在单目VST镜片中展示渲染后的当前图像帧，从而用户一只眼睛可以观察三维虚拟模型，另一眼睛可以直接透过镜片观察到真实场景。图4给出了在VST镜片方式时标记点对应的三维虚拟模型的呈现示例。如图4所示，真实场景中有一个球、一个圆锥体和一个长方体，图4中的×表示远程指导人员在标记图像帧上选取的标记点，长方体上的箭头表示该标记点对应的三维虚拟模型，该箭头的尖端位置即为标记点在空间中的位置。在双目VST镜片方式时，用户的两只眼睛都能看到带有三维虚拟模型的图像帧。在单目VST镜片方式时，用户只有一只眼睛能看到带有三维虚拟模型的图像帧。

本实施例的技术方案，通过将获取的目标场景的二维视频发送至远程端；当远程指导的指导方式为标注方式时，获取远程端于二维视频中的标记图像帧中的标记点对应的二维像素坐标；根据预设三维坐标估计规则和二维像素坐标，确定标记点对应的当前相机坐标；并根据呈现方式和当前相机坐标，渲染标记点对应的三维虚拟模型，以于目标场景中显示三维虚拟模型。本实施例可以只利用一个普通RGB摄像头拍摄二维视频，无需增加深度摄像头来获取深度图像，从而降低了硬件成本。并且可以实时确定标记点对应的当前相机坐标，从而可以根据当前相机坐标对标记点对应的三维虚拟模型进行实时跟踪和渲染，使得现场端的操作人员在以任意角度观察时，该标记点对应的三维虚拟模型均会标记在准确的位置上，从而大大提高了远程指导的准确度和指导效率。

可选的，该方法还包括：

若远程指导的指导方式为文本注释方式，则获取远程端和/或数据服务器发送的文本信息；根据呈现方式，渲染文本信息，以于目标场景中显示文本信息。

其中，文本注释方式是远程指导人员向现场操作人员展示文本信息的方式。文本信息可以是指对现场操作人员来说重要的信息，比如零件编号、尺寸、库存等。现场端除了与远程端连接外，还可以与数据服务器进行连接，从而直接获取数据服务器中预先存储的文本信息。数据服务器上的数据可以实时进行更新，以使现场操作人员可以获取最新数据。当呈现方式为双目OST镜片方式时，将文本信息渲染至左目OST镜片和/或左目OST镜片中，以于现场操作人员可以在真实场景中直接看到这些文本信息。当呈现方式为VST镜片方式时，将文本信息渲染至二维视频中的图像帧中，以于现场操作人员可以看到这些文本信息。示例性的，当远程指导人员在远程端上输入一些文本信息后，现场操作人员可以通过佩戴的AR眼镜上直观的看到这些文字，并进行阅读。将文本信息直接展示在观察视野中，可以解放现场操作人员的双手，使操作人员更加方便的操作，并且可以根据展示的文本信息反复确认，从而可以保证生产流程无误等。

可选的，该方法还包括：

若远程指导的指导方式为音频方式，则采集目标场景中的场景音频信息，并将场景音频信息发送至远程端。

其中，音频方式是远程指导人员与现场操作人员进行沟通交流的重要方式。可以将音频采集设备安装在现场端上，比如安装在现场操作人员所佩戴的AR眼镜上。通过音频采集设备可以采集操作人员所处的目标场景中的场景音频信息，并将采集的场景音频信息发送至远程端，有助于远程指导人员根据场景音频信息对现场情况进行判断和了解。通过音频采集设备还可以采集操作人员的音频信息，并将操作人员的音频信息发送至远程端。可以通过音频接收设备接收远程端发送的远程指导人员的音频信息，以使远程指导人员与现场操作人员进行沟通交流。

实施例二

图5为本发明实施例二提供的一种基于增强现实的远程指导方法的流程图，本实施例在上述实施例的基础上进行优化：在根据呈现方式和当前相机坐标，渲染标记点对应的三维虚拟模型时，还包括：根据呈现方式，将三维虚拟模型对应的像素坐标发送至远程端，以使远程端根据三维虚拟模型对应的像素坐标渲染三维虚拟模型。

优化后的基于增强现实的远程指导方法具体包括以下步骤：

S210、获取目标场景的二维视频，并将二维视频发送至远程端。

S220、若远程指导的指导方式为标注方式，则获取远程端于二维视频中的标记图像帧中的标记点对应的二维像素坐标。

S230、根据预设三维坐标估计规则和二维像素坐标，确定标记点对应的当前相机坐标，其中，当前相机坐标是指于相机坐标系下标记点对应的当前三维空间坐标。

S240、在根据呈现方式和当前相机坐标，渲染标记点对应的三维虚拟模型时，根据呈现方式，将三维虚拟模型对应的像素坐标发送至远程端，以使远程端根据三维虚拟模型对应的像素坐标渲染三维虚拟模型。

其中，三维虚拟模型对应的像素坐标是指三维虚拟模型在真实相机中的像素坐标系下对应的像素坐标。将三维虚拟模型对应的像素坐标实时发送至远程端，可以使远程端根据三维虚拟模型对应的像素坐标进行渲染，以使远程指导人员也可以在远程端的显示界面上看到标注位置，从而可以实时确认标注位置是否准确，以避免出现指导误差，从而提高指导效率。

可选的，S240包括：若呈现方式为双目光学透视OST镜片方式，则根据像素坐标系与相机坐标系之间的第五转换关系和当前相机坐标，确定三维虚拟模型对应的像素坐标，并将三维虚拟模型对应的像素坐标发送至远程端。

其中，当呈现方式为双目OST镜片方式，由于在OST镜片中渲染标记点对应的三维虚拟模型时，根据的是三维虚拟模型对应的左目像素坐标以及三维虚拟模型对应的右目像素坐标来渲染，并未根据三维虚拟模型对应的像素坐标，从而在双目OST镜片方式时，需要进一步确定三维虚拟模型对应的像素坐标。具体的是，根据像素坐标系与相机坐标系之间的第五转换关系，将相机坐标系下的三维虚拟模型转换至像素坐标系下，从而确定三维虚拟模型对应的像素坐标。

可选的，S240包括：若呈现方式为视频透视VST镜片方式，则将三维虚拟模型对应的像素坐标发送至远程端。

其中，当呈现方式为VST镜片方式时，由于在VST镜片中渲染标记点对应的三维虚拟模型时，根据的是三维虚拟模型对应的像素坐标进行渲染的，从而可以直接将三维虚拟模型对应的像素坐标发送至远程端。

可选的，远程端根据三维虚拟模型对应的像素坐标渲染三维虚拟模型，包括：远程端根据三维虚拟模型对应的像素坐标，将三维虚拟模型渲染至二维视频中的当前图像帧中，以于远程端中显示渲染后的当前图像帧。

其中，远程端可以将三维虚拟模型对应的像素坐标确定为渲染坐标，将三维虚拟模型渲染至接收的二维视频中的当前图像帧上，使得远程指导人员可以在远程端的显示界面上实时观看带有三维虚拟模型的图像帧，其展示效果类似于VST镜片的展示效果。远程指导人员看到的标记点也是三维立体的。图6给出了一种于远程端上三维虚拟模型的呈现示例。如图6所示，远程指导人员可以通过点击方式选取了标记图像帧上的一点，即长方形上的×代表标记点，标记点对应的三维虚拟模型为一个箭头模型。渲染后的箭头模型的尖端位置即为标记点×的位置，从而远程指导人员可以实时确定现场操作人员观看的标记点是否为准确的标记点。

本实施例的技术方案，通过根据呈现方式，将三维虚拟模型对应的像素坐标发送至远程端，可以使远程端根据三维虚拟模型对应的像素坐标进行渲染，以使远程指导人员也可以在远程端的显示界面上看到标注位置，从而可以实时确认标注位置是否准确，以避免出现指导误差，从而提高指导效率。

实施例三

图7为本发明实施例三提供的一种基于增强现实的远程指导装置的结构示意图，本实施例可适用于实时跟踪和渲染远程端于二维视频中的标记点对应的三维虚拟模型的情况。该装置包括：二维视频获取模块310、二维像素坐标获取模块320、当前相机坐标确定模块330和三维虚拟模型渲染模块340。

其中，二维视频获取模块310，用于获取目标场景的二维视频，并将二维视频发送至远程端；二维像素坐标获取模块320，用于若远程指导的指导方式为标注方式，则获取远程端于二维视频中的标记图像帧中的标记点对应的二维像素坐标；当前相机坐标确定模块330，用于根据预设三维坐标估计规则和二维像素坐标，确定标记点对应的当前相机坐标，其中，当前相机坐标是指于相机坐标系下标记点对应的当前三维空间坐标；三维虚拟模型渲染模块340，用于根据呈现方式和当前相机坐标，渲染标记点对应的三维虚拟模型，以于目标场景中显示三维虚拟模型。

可选的，当前相机坐标确定模块330，包括：

世界坐标确定单元，用于根据预设三维估计规则、预设重建算法、以及二维像素坐标，确定标记点对应的世界坐标，其中，世界坐标是指于世界坐标系下标记点对应的世界三维空间坐标；

当前相机位姿确定单元，用于根据预设重建算法和二维视频确定当前相机位姿；

当前相机坐标确定单元，用于根据世界坐标和当前相机位姿，确定标记点对应的当前相机坐标。

可选的，三维虚拟模型渲染模块340，包括：

左目像素坐标确定单元，用于若呈现方式为双目光学透视OST镜片方式，则根据相机坐标系与左目虚拟三维坐标系之间的第一转换关系、左目虚拟三维坐标系与左目像素坐标系之间的第二转换关系、以及当前相机坐标，确定标记点对应的三维虚拟模型对应的左目像素坐标；

左目渲染单元，用于左目像素坐标处渲染标记点对应的三维虚拟模型，以于左目OST镜片中显示三维虚拟模型对应的左目图像；

右目像素坐标确定单元，用于根据相机坐标系与右目虚拟三维坐标系之间的第三转换关系、右目虚拟三维坐标系与右目像素坐标系之间的第四转换关系、以及当前相机坐标，确定标记点对应的三维虚拟模型对应的右目像素坐标；

右目渲染单元，用于右目像素坐标处渲染标记点对应的三维虚拟模型，以于右目OST镜片中显示三维虚拟模型对应的右目图像。

可选的，左目像素坐标确定单元，具体用于：根据相机坐标系与左目虚拟三维坐标系之间的第一转换关系以及当前相机坐标，确定标记点对应的三维虚拟模型对应的左目虚拟三维坐标；根据左目虚拟三维坐标系与左目像素坐标系之间的第二转换关系以及左目虚拟三维坐标，确定三维虚拟模型对应的左目像素坐标。

可选的，三维虚拟模型渲染模块340，还包括：

像素坐标确定单元，若呈现方式为视频透视VST镜片方式，则根据像素坐标系与相机坐标系之间的第五转换关系和当前相机坐标，将标记点对应的三维虚拟模型投影至像素坐标系下，确定三维虚拟模型对应的像素坐标；

图像渲染单元，用于根据三维虚拟模型对应的像素坐标，将三维虚拟模型渲染至二维视频中的当前图像帧中，以于VST镜片中显示渲染后的当前图像帧。

可选的，该装置还包括：

像素坐标发送模块，用于在根据呈现方式和当前相机坐标，渲染标记点对应的三维虚拟模型时，根据呈现方式，将三维虚拟模型对应的像素坐标发送至远程端，以使远程端根据三维虚拟模型对应的像素坐标渲染三维虚拟模型。

可选的，像素坐标发送模块，具体用于：

若呈现方式为双目光学透视OST镜片方式，则根据像素坐标系与相机坐标系之间的第五转换关系和当前相机坐标，确定三维虚拟模型对应的像素坐标，并将三维虚拟模型对应的像素坐标发送至远程端。

可选的，像素坐标发送模块，具体用于：

若呈现方式为视频透视VST镜片方式，则将三维虚拟模型对应的像素坐标发送至远程端。

可选的，远程端中还包括：

远程端渲染模块，用于远程端根据三维虚拟模型对应的像素坐标，将三维虚拟模型渲染至二维视频中的当前图像帧中，以于远程端中显示渲染后的当前图像帧。

可选的，该方法还包括：

若远程指导的指导方式为音频方式，则采集目标场景中的场景音频信息，并将场景音频信息发送至远程端。

可选的，世界坐标确定单元，包括：

第一映射直线确定子单元，用于根据像素坐标系与相机坐标系之间的第五转换关系，确定于相机坐标系下二维像素坐标对应的第一映射直线；

目标相机点确定子单元，用于根据世界坐标系与相机坐标系之间的第六转换关系、预设筛选规则、以及于世界坐标系下的三维世界点云，确定于相机坐标系下的目标相机点，其中三维世界点云和第六转换关系根据二维视频和预设重建算法确定；

相机坐标确定子单元，用于根据与预设筛选规则相对应的预设估计规则、第一映射直线以及目标相机点，确定于相机坐标系下标记点对应的相机坐标；

世界坐标确定子单元，用于根据第六转换关系以及相机坐标，确定于世界坐标系下标记点对应的世界坐标。

可选的，目标相机点确定子单元，包括：

根据世界坐标系与相机坐标系之间的第六转换关系，以及于世界坐标系下的三维世界点云，确定于相机坐标系下的三维相机点云；根据预设筛选规则、三维相机点云以及二维像素坐标对应的第一映射直线，确定于相机坐标系下的目标相机点。

可选的，目标相机点确定子单元，包括：

将二维像素坐标映射至于世界坐标系下的三维世界点云中，确定于世界坐标系下二维像素坐标对应的第二映射直线；根据预设筛选规则和第二映射直线确定三维世界点云中的目标世界点；根据世界坐标系与相机坐标系之间的第六转换关系以及目标世界点，确定于相机坐标系下的目标相机点。

可选的，目标相机点确定子单元，包括：

根据于世界坐标系下的三维世界点云，以及世界坐标系与相机坐标系之间的第六转换关系，确定于相机坐标系下的三维相机点云；根据三维相机点云以及像素坐标系和相机坐标系之间的第五转换关系，确定于像素坐标系下的二维像素点云，并记录三维相机点与二维像素点之间的对应关系；根据预设筛选规则、二维像素点云和二维像素坐标，确定二维像素点云中的目标像素点；根据对应关系以及目标像素点，确定于相机坐标系下的目标相机点。

可选的，预设重建算法包括：基于ORB特征点的即时定位与地图构建SLAM算法；相应的，该装置还包括：三维世界点云确定模块，用于：提取二维视频中的当前图像帧的ORB特征点与上一图像帧的ORB特征点；将当前图像帧的ORB特征点与上一图像帧的ORB特征点进行匹配，并根据视差原理，创建ORB特征点的三维世界点云。

可选的，该装置还包括：第六转换关系确定模块，用于：根据标记图像帧的ORB特征点和标记图像帧的前一图像帧的ORB特征点，确定标记图像帧对应的标记相机位姿，并将标记相机位姿确定为第六转换关系。

可选的，预设重建算法包括：基于ORB特征点的同步定位与地图构建SLAM算法；相应的，当前相机位姿确定单元，具体用于：根据二维视频中的当前图像帧的ORB特征点和当前图像帧的上一图像帧的ORB特征点，确定当前相机位姿。

上述基于增强现实的远程指导装置可执行本发明任意实施例所提供的基于增强现实的远程指导方法，具备执行基于增强现实的远程指导方法相应的功能模块和有益效果。

实施例四

图8是本发明实施例四提供的一种终端的结构示意图。参见图8，该终端包括：

一个或多个处理器410；

存储器420，用于存储一个或多个程序；

输入装置430，用于获取二维视频；

输出装置440，用于显示标记点对应的三维虚拟模型；

当一个或多个程序被一个或多个处理器410执行，使得一个或多个处理器410实现如上述实施例中任意实施例提出的基于增强现实的远程指导方法。

图8中以一个处理器410为例；终端中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于增强现实的远程指导方法对应的程序指令/模块(例如二维视频获取模块310、二维像素坐标获取模块320、当前相机坐标确定模块330和三维虚拟模型渲染模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行终端的各种功能应用以及数据处理，即实现上述的基于增强现实的远程指导方法。

存储器420主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可包括摄像头等采集设备，用于获取二维视频，并将获取获取的二维视频输入到处理器410进行数据处理。

输出装置440可包括显示屏、镜片等显示设备，用于显示标记点对应的三维虚拟模型。

本实施例提出的终端与上述实施例提出的基于增强现实的远程指导方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例具备执行基于增强现实的远程指导方法相同的有益效果。

实施例五

本实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的基于增强现实的远程指导方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上述实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于增强现实的远程指导方法、装置、终端和存储介质 [P] . 中国专利： CN108830894B . 2020.01.17
2. 基于增强现实的显示方法、装置、终端及存储介质 [P] . 中国专利： CN111127662A . 2020-05-08
3. AUGMENTED REALITY-BASED REMOTE GUIDANCE METHOD AND DEVICE, TERMINAL, AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2019242262A1 . 2019-12-26

机译：基于增强现实的远程指导方法和设备，终端和存储介质
4. AUGMENTED REALITY-BASED REMOTE GUIDANCE METHOD AND APPARATUS, TERMINAL, AND STORAGE MEDIUM [P] . US2021120221A1 . 2021-04-22

机译：基于现实的远程指导方法和设备，终端和存储介质
5. Mobile terminal providing augmented reality based maintenance guidance remote managing apparatus and method for remote guidance using the same [P] . 韩国专利： KR102031670B1 . 2019-10-14

机译：提供基于增强现实的维护指导远程管理装置的移动终端以及使用该移动终端进行远程指导的方法