首页> 中国专利> 一种近眼显示设备的摄像头数据的传输方法及近眼显示设备

一种近眼显示设备的摄像头数据的传输方法及近眼显示设备

摘要

本发明涉及一种近眼显示设备的摄像头数据的传输方法和近眼显示器,所述方法包括:获取摄像头传感器的原始视频图像数据;根据预先设定的长宽比,在原始视频图像数据上裁剪出第一视频图像数据;根据预先设定的缩放比例,从第一视频图像数据上裁剪出第二视频图像数据;将第二视频图像数据进行编码压缩,以获取具有目标分辨率的第三视频图像数据;将第三视频图像数据通过USB协议传输至终端处理器。本发明的一个或多个实施例的有益效果为:通过对摄像头传感器图像进行合理的裁切和编码压缩,减少摄像头传感器在中间区域的数据损失,以获得更好的识别距离。

著录项

  • 公开/公告号CN112887702A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 杭州灵伴科技有限公司;

    申请/专利号CN202110031089.8

  • 发明设计人 马超;

    申请日2021-01-11

  • 分类号H04N13/344(20180101);H04N13/161(20180101);

  • 代理机构11019 北京中原华和知识产权代理有限责任公司;

  • 代理人徐民;寿宁

  • 地址 310000 浙江省杭州市余杭区仓前街道景兴路999号6幢209-6-263室

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及软件系统领域,尤其涉及一种在近眼显示设备中的摄像头数据的传输方法和装置。

背景技术

随着AR/MR技术的兴起,近眼显示设备中的摄像头模组(位于眼镜端)和处理单元(位于DOCK端)常常会相互独立,通过USB方式连接,数据传输较慢,摄像头传感器的原始视频图像数据需要压缩成1080P或720P之后再传输到处理单元上,然后在处理单元上做人脸识别/物体识别等后续应用。实际使用过程中,因为核心关注区域(比如人脸或物体)被有损压损,若被识别物体距离摄像头较远,导致人脸识别、物体识别的准确率降低。

发明内容

本发明的一个目的在于提供一种近眼显示设备的摄像头数据的传输方法,包括:获取摄像头传感器的原始视频图像数据;根据预先设定的长宽比,在原始视频图像数据上裁剪出第一视频图像数据;根据预先设定的缩放比例,从第一视频图像数据上裁剪出第二视频图像数据;将第二视频图像数据进行编码压缩,以获取具有目标分辨率的第三视频图像数据;将第三视频图像数据通过USB协议传输至终端处理器。

本发明的另一个目的在于提供一种近眼显示设备,包括:摄像头传感器,用以获取原始视频图像数据;微处理器,其与摄像头传感器通过MIPI CSI协议连接,用以对所述原始视频图像数据进行处理以获取压缩后的视频图像数据;终端处理器,其与图像处理器通过USB数据线连接;存储器,用以存储计算机程序;当所述微处理器执行所述计算机程序时,使得所述近眼显示设备执行如上所述的摄像头数据的传输方法。

通过本发明提供的一个或多个实施方式,可以使得高分辨率的摄像头传感器的视频图像数据在带宽限制时,通过极大降低核心关注区域的图像信息损失的情况下,提升关注区域的像素数,从而达到远距离进行图像识别/物体识别的目的。

附图说明

图1是根据本发明的一个或多个实施例的一种近眼显示设备的摄像头数据的传输方法的流程框图;

图2是根据本发明的一个或多个实施例的摄像头数据传输方法的示意图;

图3是根据本发明的一个或多个实施例的一种近眼显示设备的摄像头数据的传输方法的流程框图;

图4是根据本发明的一个或多个实施例的摄像头数据传输方法的示意图;

图5是根据本发明的一个或多个实施例的近眼显示设备的示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的近眼显示设备的摄像头数据的传输方法及近眼显示设备的具体实施方式、结构、特征及其功效,详细说明如后。

具体地,在本发明的一个或多个实施例中,近眼显示设备(Near-Eye Display)为VR眼镜、AR眼镜、MR眼镜、AR头环等基于增强现实、混合现实、虚拟现实技术的头戴式显示设备,其能够佩戴在用户的头部,实现在人的一只或两只眼睛的视野范围内的图像显示,从而解放用户的双手。近眼显示设备按照结构设计可以分为一体式和分体式。一体式设计是指将设备的处理单元和供电单元和显示单元集成在一起,在这种情况下,近眼显示设备的重量会比较高,导致用户佩戴之后,近眼显示设备对用户的头部产生较大的负重压力,影响长时间的佩戴体验。因此目前的产品趋势是将近眼显示设备进行分体式设计,即将近眼显示设备分为头戴部分和终端部分,在头戴部分只包括基础的微处理器、显示单元、摄像头等,而将高性能处理器、电池等配件设置于另一独立的终端部分中(通常被称为DOCK或终端),头戴部分和DOCK采用USB数据线连接的方式。在分体式设计中,摄像头通常设置于眼镜上,而高性能处理器通常会被设置于DOCK上,所以摄像头数据需要通过USB数据线传输到DOCK中。

如图1所示,示出了根据本发明的一个或多个实施方式的一种近眼显示设备的摄像头数据的传输方法的流程框图,其中包括:

步骤S11、获取摄像头传感器的原始视频图像数据;

步骤S12、根据预先设定的长宽比,在原始视频图像数据上裁剪出第一视频图像数据;

步骤S13、根据预先设定的缩放比例,从第一视频图像数据上裁剪出第二视频图像数据;

步骤S14、将第二视频图像数据进行编码压缩,以获取具有目标分辨率的第三视频图像数据;

步骤S15、将第三视频图像数据通过USB协议传输至终端处理器。

在步骤S11中,获取摄像头传感器的原始视频图像数据。其中摄像头传感器可以为CMOS或CCD的传感器,其拍摄的原始视频图像数据可以具有800万、1500万、4000万等高分辨率的像素值。

在步骤S12中,根据预先设定的长宽比,在原始视频图像数据上裁剪出第一视频图像数据。具体地,由于摄像头传感器拍摄的原始视频图像数据通常具有4:3的长宽比,而常用的后续处理的图像一般都设置为16:9或16:10或其它特定数值的长宽比。因此,通常需要对原始视频图像数据进行裁剪,以获得具有预设的长宽比的视频图像数据。在对原始视频图像数据按照预设的长宽比进行裁剪时,优选按最大范围进行裁剪,以避免在处理的第一步丢失数据。在其中一个实施例中,对于具有4:3长宽比的原始视频图像数据,可以在长度上保留全部数据,而在宽度上选择删除边缘的部分。在另一个实施例中,也可以选择在宽度上保留全部数据,而在长度上选择删除边缘的部分。在一个或多个优选的实施例中,对原始视频图像数据按照预设的长宽比裁剪之后获得的视频图像数据的中心点和原始视频图像数据的中心点重合,由此可以最大化的保留位于原始视频图像数据中心的信息。由于近眼显示设备的摄像头通常和人眼的视线相对应,而人眼会从本能上将关注的信息置于视野的中心,因此在近眼显示设备的摄像头的原始视频图像数据中,默认有效的信息位于中心部分,因此最大化的保留位于原始视频图像数据中心的信息对于后续的图像处理是有利的。

在步骤S13中,根据预先设定的缩放比例,从第一视频图像数据上裁剪出第二视频图像数据。具体地,预先设定的缩放比例的上限为1,在上限为1的时候对第一视频图像数据不进行裁剪,此时第二视频图像数据和第一视频图像数据一致。预先设定的缩放比例的下限可以根据目标视频图像数据的分辨率和第一视频图像数据的分辨率的比值确定。例如,对于目标视频图像数据的分辨率为720P(即1280*720),而第一视频图像数据的分辨率为1440P(2560*1440),则缩放比例的下限720/1440,即0.5。当预先设定的缩放比例处于下限的位置时,裁剪出来的第二视频图像数据和目标视频图像数据的分辨率一致,由此可以最大化避免第二视频图像数据在转为目标视频图像数据中的信息损失,但是由于裁剪区域较小,也可能在裁剪的过程中直接丢失信息的可能。在一个或多个优选的实施例中,第一视频图像数据的中心点和第二视频图像数据的中心点重合,由此可以最大化的保留位于原始视频图像数据中心的信息。在一些实施例中,缩放比例的数值选择可以由用户手动设置,例如用户佩戴AR眼镜进行人脸识别的时候,可以根据使用场景中的人脸识别的距离确定缩放比例,通常来说人脸识别的距离越远,则缩放比例应当越小,从而使得摄像头拍摄的原始的人脸数据在后续的编码压缩中损失更小。在另一些实施例中,也可以根据辅助的距离检测的方法自动设定缩放比例,例如可以使用深度摄像头、毫米波雷达等测距方法获得被测人脸的识别距离,再有处理器根据识别距离自动设定缩放比例。缩放比例和识别距离的关系可以通过标定的方法获得。

在步骤S14中,将第二视频图像数据进行编码压缩,以获取具有目标分辨率的第三视频图像数据。具体地,目标分辨率通常可以为720P或1080P或其他任何应用需要的分辨率。对视频图像数据进行编码压缩可以采用现有技术中已经存在的编码算法,例如H.264、H.265等算法。

在步骤S15中,将第三视频图像数据通过USB协议传输至终端处理器。终端处理器为分体式近眼显示设备的终端(DOCK)上的处理单元,其通常为基于ARM架构的高性能处理器,可以实现本地的神经网络算法的处理,例如可以基于摄像头传来的视频图像数据进行人脸识别、物体检测等。在一些实施例中,终端处理器和摄像头传感器通过USB数据线进行连接,视频图像数据的传输也通过USB协议中的UVC协议进行传输。在另一些实施例中,可以不采用基于USB协议进行数据传输,本发明对此并不做限定。但是基于目前的主流的数据传输技术,使用USB协议进行摄像头数据的传输是目前的优选方案。

如图2所示,示出了根据本发明的一个或多个实施例的摄像头数据传输方法的示意图。在图2的实施例中,设定摄像头传感器的原始视频图像数据100的为800万像素,分辨率为3264*2448(即长宽比为4:3)。原始视频图像数据100会在底部和上部进行裁剪,即按照图2的虚线裁剪后,获得具有分辨率为3264*1836(即长宽比为16:9)的第一视频图像数据101,然后按照缩放比例为0.5进行裁剪,从第一视频图像数据101中裁剪虚线部分,获得分辨率为1632*918(长宽比保持为16:9)的第二视频图像数据102,最后根据后端应用的需求,将第二视频图像数据102通过编码压缩为720P的第三视频图像数据103。从图2的实施例可以看到,在完成整个操作步骤后,位于原始视频图像数据100中的人脸200在第三视频图像数据103中占据了更大的范围。因此在第二视频图像102进行编码压缩,人脸200的数据信息损失会小于对直接对原始视频数据100或第一视频图像101的编码压缩,由此有利于后续的人脸识别等操作中的特征提取。

如图3所示,示出了根据本发明的一个或多个实施方式的一种近眼显示设备的摄像头数据的传输方法的流程框图,其中包括:

S21、获取摄像头传感器的原始视频图像数据;

S22、以目标分辨率的预设的放大比例,在原始视频图像数据上裁剪出第四视频图像数据;

S23、将第四视频图像数据进行编码压缩,以获取具有目标分辨率的第五视频图像数据;

S24、将第五视频图像数据通过USB协议传输至终端处理器。

在步骤S21中,获取摄像头传感器的原始视频图像数据。具体地,其中摄像头传感器可以为CMOS或CCD的传感器,其拍摄的原始视频图像数据可以具有800万、1500万、4000万等高分辨率的像素值。

在步骤S22中,以目标分辨率的预设的放大比例,在原始视频图像数据上裁剪出第四视频图像数据。具体地,目标分辨率通常可以为720P或1080P或其他任何应用需要的分辨率。预设的放大比例的下限为1,在这种情况下,即直接从原始视频图像中裁剪出具有目标分辨率大小的第四视频图像数据。预设的放大比例的上限可以增加至使得所述第四视频图像数据的范围正好超出原始视频图像数据。在一些实施例中,放大比例的数值选择可以由用户手动设置,例如用户佩戴AR眼镜进行人脸识别的时候,可以根据场景中的人脸识别的距离确定放大比例,通常来说人脸识别的距离越远,则放大比例应当越小,从而使得摄像头拍摄的原始的人脸数据在后续的编码压缩中损失更小。在另一些实施例中,也可以根据辅助的距离检测的方法自动设定放大比例,例如可以使用深度摄像头、毫米波雷达等测距方法获得被测人脸的识别距离。放大比例和识别距离的关系可以通过标定的方法获得。

在步骤S23中,将第四视频图像数据进行编码压缩,以获取具有目标分辨率的第五视频图像数据。具体地,对视频图像数据进行编码压缩可以采用现有技术中已经存在的编码算法,例如H.264、H.265等算法。

在步骤S24中,将第五视频图像数据通过USB协议传输至终端处理器。具体地,终端处理器为分体式近眼显示设备的终端(DOCK)上的处理单元,其通常为基于ARM架构的高性能处理器,可以实现本地的神经网络算法的处理,例如可以基于摄像头传来的适配图像数据进行人脸识别、物体检测等。在一些实施例中,终端处理器和摄像头传感器通过USB数据线进行连接,因此其数据的传输也通过USB协议进行传输。在另一些实施例中,可以不采用基于USB协议进行数据传输,本发明对此并不做限定。但是基于目前的主流的数据传输技术,使用USB协议进行摄像头数据的传输是目前的优选方案。

如图4所示,示出了根据本发明的一个或多个实施例的摄像头数据传输方法的示意图。在图4的实施例中,设定摄像头传感器的原始视频图像数据100的格式为800万像素,分辨率为3264*2448(即长宽比为4:3)。目标分辨率为720P(1280*720)。在这种情况下,预设的放大比例的下限为1,上限为2.55。图4中的虚线框代表为放大比例为1.275的情况下,从原始视频图像数据100中裁剪出第四视频图像数据104。然后再将第四视频图像数据104通过编码压缩的方式获得第五视频图像数据105,最终获得720P的视频图像。从图4的实施例可以看到,在完成整个操作步骤后,位于原始视频图像数据100中的人脸200在第五视频图像105数据中占据了更大的范围。因此,对第四视频图像104进行编码压缩,人脸200的数据信息损失会小于直接对原始视频图像100的编码压缩,有利于后续的人脸识别等操作中的特征提取。

相比于图2所示的实施例,可以看到在图4所示的实施例中,省略了先将原始图像数据100调整为16:9的步骤,而直接按照目标分辨率的一定放大比例从原始视频图像数据100中进行抠图,因此图4的实施例的流程更加简洁,处理效率也更高。但是另一方面,对具有长宽比为4:3原始视频图像数据的宽度上进行裁剪,首先获得16:9的视频图像数据,可以用作后续不同应用的处理,具有更好的普适性,且在对16:9的视频图像数据进行缩放的时候,由于目标分辨率的长宽比也为16:9,仅需要传输一个缩放比例的参数就能实现缩放的功能,程序上也会更加简洁。

如图5所示,示出了根据本发明的一个或多个实施例的近眼显示设备的示意图。具体地,近眼显示设备包括头戴部分和终端部分。其中头戴部分包括摄像头传感器、微处理器、存储器、显示单元。摄像头传感器用以获取原始视频图像数据,其与微处理器通过MIPICSI协议连接;微处理器用以对所述原始视频图像数据进行处理以获取压缩后的视频图像数据;存储器,用以存储计算机程序微处理器和视频图像数据;显示单元,用以在用户的眼镜前形成图像。终端部分包括终端处理器,其与微处理器通过USB数据线连接,微处理器和终端处理器以USB协议中的UVC协议传输图像数据;当所述微处理器执行所述计算机程序时,使得所述近眼显示设备执行如上述图1-4所述的实施例中的一个或多个步骤,实现相同或类似的技术效果,再此不再赘述。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号