首页> 中国专利> 在具有手部姿势交互的混合现实环境中设置相机中的焦点的技术

在具有手部姿势交互的混合现实环境中设置相机中的焦点的技术

摘要

混合现实头戴式显示器(HMD)设备中的可调焦PV(图片/视频)相机利用自动聚焦子系统操作,该自动聚焦子系统被配置为基于用户手部的位置和运动而被触发,以减少相机操作期间自动聚焦搜寻的发生。HMD设备被配备有深度传感器,该深度传感器被配置为从周围的物理环境捕获深度数据,以在三个维度上检测和跟踪用户手部的位置、移动和姿势。来自深度传感器的手部跟踪数据可以被评估以确定PV相机的视野中的特定感兴趣区域(ROI)内的手部特性‑诸如用户手部中的哪个手部或者手部的哪个部分被检测到,其大小、运动、速度等。自动聚焦子系统使用所评估的手部特性作为输入来控制PV相机的自动聚焦,以减少自动聚焦搜寻的发生。

著录项

  • 公开/公告号CN113826059A

    专利类型发明专利

  • 公开/公告日2021-12-21

    原文格式PDF

  • 申请/专利权人 微软技术许可有限责任公司;

    申请/专利号CN202080035959.2

  • 发明设计人 M·C·雷;V·简;V·丹吉;

    申请日2020-04-24

  • 分类号G06F3/01(20060101);G02B27/01(20060101);G02B7/28(20210101);G03B13/36(20210101);H04N5/232(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人马明月

  • 地址 美国华盛顿州

  • 入库时间 2023-06-19 13:46:35

说明书

背景技术

混合现实头戴式显示器(HMD)设备能够采用照片和视频(PV)相机,其捕获周围的物理环境的静止和/或视频图像,以促进包括混合现实体验记录和分享的各种用户体验。PV相机可以包括自动聚焦、自动曝光和自动平衡功能。在一些场景中,HMD设备用户的手部移动可能使自动聚焦子系统在尝试解析物理环境的清晰图像时进行搜寻。例如,当与由HMD设备渲染的全息图交互时,用户手部的移动可能在每次手部被场景中的相机检测到时使相机重新聚焦。这种自动聚焦搜寻效应可能会降低本地HMD设备用户和可能正在观看在本地HMD设备处所捕获的混合现实用户体验的远程用户的用户体验质量。

发明内容

混合现实头戴式显示器(HMD)设备中的可调焦PV相机利用自动聚焦子系统操作,该自动聚焦子系统被配置为基于用户手部的位置和运动而被触发,以减少PV相机操作期间自动聚焦搜寻的发生。HMD设备被配备有深度传感器,该深度传感器被配置为从周围的物理环境捕获深度数据,以在三个维度上检测和跟踪用户手部的位置、移动和姿势。来自深度传感器的手部跟踪数据可以被评估以确定PV相机的视野(FOV)中的特定感兴趣区域(ROI)内的手部特性—诸如用户手中的哪只手或者手的哪部分被检测到,其大小、运动、速度等。自动聚焦子系统使用所评估的手部特性作为输入,以控制PV相机的自动聚焦以减少自动聚焦搜寻的发生。例如,如果手部跟踪指示用户在与全息图交互时正在采用手部运动,则自动聚焦子系统能够抑制自动聚焦的触发以减少搜寻效应。

减少自动聚焦搜寻可以是有益的,因为自动聚焦搜寻可能是对HMD设备用户的会不期望的干扰(可能会感知到频繁的PV相机透镜运动),并且还会导致由PV相机捕获的图像和视频的质量下降。通过减少由自动聚焦电机或其他机构消耗的功率,减少自动聚焦搜寻还能够改善HMD设备的操作。

该发明内容被提供来以简化的形式介绍对于下面在详细描述中进一步描述的概念的选择。该发明内容不旨在标识要求保护的主题的关键特征或必要特征,也不旨在用于辅助确定要求保护的主题的范围。此外,要求保护的主题不被限于解决在本公开的任何部分中提到的任何或所有缺点的实现。要了解的是,上述主题可以被实现为计算机控制的装置、计算机过程、计算系统或者诸如一个或多个计算机可读存储介质等制品。通过阅读以下详细描述和回顾相关联的附图,这些和各种其他特征将是明显的。

附图说明

图1示出了示例性混合现实环境,其中在用户查看周围的物理环境的同时,全息图在头戴式显示器(HMD)设备的透视混合现实显示系统上被渲染;

图2示出了本地HMD设备、远程HMD设备和远程服务能够通过网络通信的说明性环境;

图3示出了HMD设备的说明性架构;

图4和图5示出了物理环境中的本地用户与说明性虚拟物体交互;

图6从本地用户的角度示出了本地HMD设备的说明性FOV,包括使用混合现实显示系统在其之上渲染虚拟物体的物理环境视图;

图7示出了从本地HMD设备用户向远程用户共享内容的说明性布置;

图8示出了远程用户操作远程平板计算机,该平板计算机显示复合图像,该复合图像包括从本地用户的HMD设备所传输的现实世界元素和虚拟物体;

图9至图11从本地用户的角度示出了本地HMD设备的FOV中的说明性手部运动和姿势;

图12和图13示出了描述水平和竖直FOV的说明性球坐标系;

图14使用球坐标系从本地用户的角度示出了HMD设备的FOV中的说明性感兴趣区域(ROI);

图15是其中各种数据说明性地被提供作为本地HMD设备的自动聚焦子系统中的输入的图解;

图16示出了能够由本地HMD设备的深度传感器检测到的物理环境的说明性项目的分类;

图17示出了本地HMD设备的自动聚焦子系统在处理内容帧时所执行的说明性过程;

图18示出了自动聚焦子系统在确定是触发还是抑制自动聚焦时所使用的说明性特性的分类;

图19至图21是由HMD设备或采用自动聚焦子系统的其他合适的电子设备执行的说明性方法的流程图;

图22是说明性远程服务或计算机系统的简化框图,该远程服务或计算机系统可以被部分地用于实现在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术;

图23是说明性数据中心的框图,该数据中心可以被至少部分地用于实现在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术;

图24是计算设备(诸如智能电话或平板计算机)的说明性架构的简化框图,该计算设备可以被用于实现在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术;

图25是混合现实HMD设备的说明性示例的示意图;以及

图26是混合现实HMD设备的说明性示例的框图。

相同的附图标记指示附图中的相同元素。除非另有指示,否则元件未按比例绘制。

具体实施方式

图1示出了HMD设备110上受支持的说明性混合现实环境100,混合现实环境100组合了现实世界元素和计算机生成的虚拟物体以实现各种用户体验。用户105能够采用HMD设备110来体验混合现实环境100,该混合现实环境100在透视混合现实显示系统上视觉地被渲染,并且在一些实现中可以包括音频和/或触知/触觉。在该特定的非限制性示例中,HMD设备用户在现实世界的城市区域中物理地行走,该城市区域包括具有各种建筑物、商店等的城市街道。从用户的角度来看,由HMD设备提供的现实世界城市景观的透视混合现实显示系统的视野(FOV)(由图1中的虚线区域表示)随着用户在环境中移动而变化,并且设备能够在现实世界视图之上渲染全息虚拟物体。此处,全息图包括各种虚拟物体,包括标识商业的标签115、到环境中的感兴趣场所的方向120和礼品盒125。FOV中的虚拟物体与三维(3D)物理环境中的真实物体共存,以创建混合现实体验。虚拟物体能够相对于现实世界物理环境被定位,诸如人行道上的礼品盒,或者相对于用户定位,诸如随着用户移动的方向。

图2示出了其中本地和远程HMD设备能够通过网络220与彼此和远程服务215通信的说明性环境。网络可以包括各种联网设备以支持计算设备之间的通信,并且可以包括局域网、广域网、互联网、万维网等中的任何一个或多个。在一些实施例中,设备之间的自组织(例如对等)网络能够使用例如Wi-Fi、

HMD设备110和210能够与远程计算设备和服务(诸如远程服务215)通信。远程服务可以是例如在数据中心中设立的云计算平台,该云计算平台可以使HMD设备能够利用由远程服务提供的各种解决方案,诸如人工智能(AI)处理、数据存储、数据分析等。虽然图2示出了HMD设备和服务器,但HMD设备还能够与其他类型的计算设备通信,诸如智能电话、平板计算机、膝上型计算机、个人计算机等(未示出)。例如,在本地HMD设备上所实现的用户体验能够与远程用户共享,如下面讨论的。本地用户在他或她的HMD设备上看到的混合现实场景的图像和视频连同声音和其他体验元素一起能够在远程位置处在膝上型计算机上被接收和被渲染。

图3示出了HMD设备(诸如本地HMD设备110)的说明性系统架构。虽然各种组件在图3中被描绘,但是列出的组件是非详尽的,并且支持HMD设备的功能的未示出的其他组件也是可能的,诸如全球定位系统(GPS)、其他输入/输出设备(键盘和鼠标)等。HMD设备可以具有一个或多个处理器305,诸如中央处理单元(CPU)、图形处理单元(GPU)和人工智能(AI)处理单元。HMD设备可以具有能够存储由(多个)处理器305可执行的数据和指令的存储器310。该存储器可以包括如随机存取存储器(RAM)的短期存储器设备,并且还可以包括如闪存装置和固态驱动器(SSD)的长期存储器设备。

HMD设备110可以包括由各种组件组成的I/O(输入/输出)系统370,因此用户能够与HMD设备交互。示例性和非详尽的组件包括扬声器380、姿势子系统385和麦克风390。如由箭头382表示性地示出的,姿势子系统能够与深度传感器320互操作,该深度传感器320能够采集关于用户手部的深度数据,并且从而使HMD设备能够执行手部跟踪。

深度传感器320能够将采集的关于手部的数据传递给姿势子系统385,姿势子系统处置与用户手部移动和姿势相关联的操作。用户能够与HMD设备的显示器上的全息图交互,诸如移动全息图、选择全息图、缩小或放大全息图(例如使用捏合运动)以及其他交互。用户可以控制的示例性全息图包括按钮、菜单、图像、来自基于web的搜索的结果、以及人物等其他全息图。

透视混合现实显示系统350可以包括微显示器或成像器355和混合现实显示器365,诸如基于波导的显示器,其使用表面浮雕光栅在HMD设备110上渲染虚拟物体。处理器305(例如图像处理器)可以可操作地连接至成像器355以提供图像数据(诸如视频数据),使得可以使用光引擎和波导显示器365来显示图像。在一些实现中,混合现实显示器可以被配置为包括出射光瞳扩展器(EPE)(未示出)的近眼显示器。

HMD设备110可以包括许多类型的传感器315,以向用户提供混合现实环境中的集成和沉浸式的体验。深度传感器320和图片/视频(PV)相机325是示出的示例性传感器,但是未示出的其他传感器也是可能的,诸如红外传感器、压力传感器、运动传感器等。深度传感器可以使用各种类型的深度感测技术来操作,诸如结构光、被动立体、主动立体、飞行时间、脉冲飞行时间、相位飞行时间或光检测和测距(LIDAR)。通常,深度传感器使用IR(红外)光源工作,但一些传感器能够使用RGB(红、绿、蓝)光源操作。通常,深度传感器感测到目标的距离,并且使用点云表示构建表示目标或物理环境的外表面属性的图像。点云数据点或结构可以在本地、远程服务处或其组合被存储在存储器中。

PV相机325可以被配置有可调焦距以捕获图像,记录用户周围的物理环境的视频,或者将内容从HMD设备110传输给远程计算设备,诸如远程HMD设备210或其他计算设备(例如平板计算机或个人计算机)。PV相机可以被实现为RGB相机,以捕获HMD设备在其中操作的三维(3D)物理空间内的场景。

与HMD设备相关联的相机子系统330可以被至少部分地用于PV相机,并且可以包括自动曝光子系统335、自动平衡子系统340和自动聚焦子系统345。自动曝光子系统能够根据到达相机传感器的光量执行图像亮度的自动调整。自动平衡子系统能够基于光照自动补偿色差,使得白色适当地被显示。自动聚焦子系统能够确保所捕获和所渲染的图像通过聚焦PV相机的透镜而变得清晰,这通常是通过透镜相对于图像传感器的机械移动来实现的。

复合生成器395创建复合内容,该复合内容组合了由PV相机325捕获的物理世界的场景和由HMD设备生成的虚拟物体的图像。复合内容能够被记录或传输给远程计算设备,诸如HMD设备、个人计算机、膝上型计算机、平板计算机、智能电话等。在典型实现中,图像是虚拟物体的非全息2D表示。然而,在备选实现中,数据能够从本地HMD设备被传输给远程HMD设备,以实现全息内容的远程渲染。

通信模块375可以被用于向外部设备(诸如远程HMD设备210、远程服务215或其他计算设备)传输信息并且从外部设备接收信息。通信模块可以包括例如用于与路由器或类似联网设备进行无线通信的网络接口控制器(NIC),或者包括支持Wi-Fi、Bluetooth

图4和图5示出了说明性物理环境,其中用户105与用户通过HMD设备上的透视混合现实显示系统可查看的全息虚拟物体交互(要注意的是,该说明性示例中的全息虚拟物体只能够通过HMD设备查看,并且没有例如被投射到自由空间以允许裸眼查看)。在图4中,虚拟物体包括竖直定向的面板405和圆柱形物体410。在图5中,虚拟物体包括水平定向的虚拟建筑物模型505。虚拟物体被定位在相对于包括植物415和图片420的物理环境的3D空间的各种位置。虽然未被标记,但是地板、墙壁和门也是真实物理环境的一部分。

图6示出了如从HMD设备用户的角度使用透视显示器查看的说明性混合现实场景的视野(FOV)605。用户105能够看到物理世界的部分以及由本地HMD设备110生成的虚拟物体405和虚拟物体410的全息图。例如,全息图可以被定位在物理环境中的任何地方,但通常位于离用户二分之一到五米处,以最小化对趋异适应冲突的用户不适。用户通常使用上和下、左和右以及进和出手部运动的混合来与全息图交互,如图9至11所示以及在所附文本中描述的。在一些实现中,交互能够发生在远离所渲染的全息图的位置的某个空间距离处。例如,暴露在虚拟物体上的虚拟按钮可以由用户通过做出与物体相距一定距离的轻敲姿势来推动。被用于给定实现的特定用户全息图交互可以变化。

图7示出了说明性环境,其中远程用户205操作远程平板设备705,该远程平板设备705渲染来自本地用户的HMD设备110的内容710。在该示例中,该渲染包括复合内容,该复合内容包括由本地HMD设备上的PV相机捕获的本地用户的物理环境的场景以及虚拟物体405和虚拟物体410的2D非全息渲染。如图8所示,复合渲染805与本地用户通过本地HMD设备上的透视混合现实显示器查看的内容基本上类似。远程用户因此能够看到本地用户的手部与虚拟物体405交互和包括植物、墙壁、图片和门的周围物理环境的部分。在远程设备705处所接收的内容可以包括实时流式传输的静止图像和/或视频或者包括所记录的内容。在一些实现中,接收到的内容可以包括支持3D全息内容的远程渲染的数据。

图9至图11示出了本地用户105在操作本地HMD设备110的同时能够做出的示例性手部运动和姿势。图9示出了当用户操纵虚拟物体405时用户的竖直(例如上下)手部移动,如由附图标记905表示性地示出的。图10示出了用户的水平(例如左到右)手部移动以操纵虚拟物体405,如由附图标记1005表示性地示出的。图11示出了用户在混合现实空间内的进和出移动,例如通过执行“绽放”姿势,如由附图标记1105表示性地示出的。在用户操作本地HMD设备的同时未在图9至11中示出的其他方向移动也是可能的,诸如圆周移动、图形移动、各种手部姿势(包括操纵用户的手指)等。

图12和图13示出了描述水平和竖直视野(FOV)的说明性球坐标系。在典型实现中,球坐标系可以利用从用户到3D空间中的点的径向距离、从用户到3D空间中的点的方位角、以及用户和3D空间中的点之间的极角(或仰角/高度角)以协调物理环境中的点。图12示出了用户的顶视图,其描绘了与本地HMD设备110中的各种传感器、显示器和组件相关联的水平FOV。水平FOV具有平行于地面延伸的轴,其原点位于例如用户眼睛之间的HMD设备处。不同的组件可以具有不同的角度水平FOVα

图14示出了说明性HMD设备FOV 605,其中示例性的感兴趣区域(ROI)1405被示出。ROI是在HMD设备FOV 605(图6)中静态或动态地被限定的区域,HMD设备110的自动聚焦子系统能够利用该区域来确定是否聚焦于手部移动或姿势。图14中显示的ROI用于说明性目的,并且在典型实现中,用户在查看本地HMD设备上的透视混合现实显示器上的内容时察觉不到ROI。

ROI 1405可以被实现为能够使用球坐标或直角坐标来描述的3D空间区域。使用球坐标系,在一些实现中,根据与用户的测量距离以及距离对方位角和极角的影响,ROI可以是动态的。通常,ROI可以位于显示系统FOV的中心区域,因为这是用户注视的可能位置,但是ROI可以位于显示系统FOV内的任何位置,诸如在偏离中心的位置。ROI可以具有相对于FOV的静态位置、大小和形状,或者在一些实施例中,能够被动态地定位、确定大小和形状。因此,取决于实现,ROI可以是任何静态或动态2D形状或3D体积。在与虚拟物体的全息图交互期间,图14中的用户105的手部可以位于由一组球坐标限定的ROI内。

图15示出了数据被馈送到相机子系统330的自动聚焦子系统345中的说明性图解。自动聚焦子系统共同利用该数据来控制自动聚焦操作,以减少在与渲染的全息虚拟物体交互期间由手部移动创建的自动聚焦搜寻效应。

被馈送到自动聚焦子系统中的数据包括来自PV相机325和深度传感器320或其他前置传感器1525的描述物理环境的数据。来自前置传感器的数据可以包括当由深度传感器320捕获时的深度数据,但是其他传感器也可以被用于捕获用户周围的物理环境。因此,术语前置传感器1525在本文中被用于反映深度传感器、相机或其他传感器中的一个或多个的利用,该其他传感器捕获物理环境以及下面更详细地讨论的用户的手部移动和姿势。

图16示出了可以由前置传感器1525从物理环境拾取和采集的说明性项目(诸如深度数据)的分类,如由附图标记1605表示性地示出的。能够被前置传感器1525拾取的项目可以包括用户的手部1610、物理现实世界物体(例如椅子、床、沙发、桌子)1615、人类1620、结构(例如墙壁、地板)1625以及其他物体。虽然前置传感器可能会或可能不会从所采集的数据中识别出物体,但是环境的空间映射能够基于收集到的数据被执行。然而,HMD设备可以被配置为检测和识别手部,以支持姿势输入并且进一步影响本文讨论的自动聚焦操作。被传输给自动聚焦子系统的图15所示的被捕获数据包括与HMD设备的用户相关联的手部数据,如下面更详细地讨论的。

图17示出了说明性图解,其中自动聚焦子系统345接收被记录的内容帧1705(例如用于流式传输内容、记录视频或捕获图像),并且使用所捕获的手部数据自动聚焦于内容帧。自动聚焦子系统可以被配置有一个或多个标准,在满意或不满意时,这些标准确定HMD设备是触发还是抑制自动聚焦操作。

自动聚焦操作可以包括自动聚焦子系统自动聚焦于显示器FOV的ROI内的内容(图14)。标准的满足可以指示例如用户正在以用户希望清晰地查看他的手部的方式使用他的手部,并且手部是用户在ROI内的焦点。例如,如果用户正在与ROI中的全息图交互,则自动聚焦子系统可能不想聚焦于用户的手部,因为用户的手部被用于传递以控制全息图,但是全息图仍然是用户感兴趣的主要点。在其他实施例中,用户的手部可能对ROI是瞬态的,并且因此不是用于聚焦于的感兴趣的点。相反,如果用户正在以不同于全息图的方式使用他的手部,诸如以创建新的全息图或打开菜单,则自动聚焦子系统可以选择聚焦于用户的手部。设置标准为自动聚焦子系统提供辅助,以智能地聚焦或不聚焦于用户的手部,并且由此在远程用户的实时流式传输或本地用户的回放期间减少搜寻效应并且提高所记录内容的质量。简而言之,标准的实现有助于确定用户的手部是否是FOV内的用户感兴趣的点。

在步骤1710中,自动聚焦子系统确定一个或多个手部是存在于ROI内还是不存在于该ROI。自动聚焦子系统可以从深度传感器320或另一前置传感器1525获取关于手部的数据。所采集的手部数据可以被协调到显示器FOV上的对应位置,以评估用户的物理手部相对于ROI的位置。这可以基于每帧或使用帧的组而被执行。

在步骤1715中,当用户的一个或多个手部不存在于ROI中时,自动聚焦子系统通过自动聚焦于ROI中检测到的环境而继续正常操作。在步骤1720中,当一个或多个手部在ROI内被检测到时,自动聚焦子系统确定手部的特性是否指示用户正在与全息图交互,或者以其他方式用户的手部不是感兴趣的点。在步骤1730中,当用户的手部被确定为感兴趣的点时,自动聚焦子系统触发相机对ROI内的内容的自动聚焦操作。在步骤1725中,当用户的手部被确定为不是感兴趣的点时,自动聚焦子系统抑制相机的自动聚焦操作。

图18示出了由自动聚焦子系统用于确定是触发还是停用自动聚焦操作的说明性手部特性的分类,如由附图标记1805表示性地示出的。该特性可以包括ROI 1810内和周围的手部移动的步调,当捕获的手部数据指示手部的步调满足或超过或未能满足或超过预设速度限制(例如以米每秒为单位)时,自动聚焦子系统使用该步调来触发或抑制聚焦操作。因此,例如如果手部数据指示手部的步调满足预设速度限制,则即使手部存在于ROI内,自动聚焦操作也可以被抑制。当用户偶发地将手部移动到前置传感器前面或者手部以其他方式是瞬态的时,这防止透镜产生搜寻效应。

能够影响是触发还是停用自动聚焦操作的另一特性包括一个或多个手部被定位在ROI内并且静态定位(例如在ROI的某个区域内)的持续时间1815。当一个或多个手部在满足预设阈值限制(例如3秒)的持续时间内未静态定位时,自动聚焦操作可以被停用。相反,当一个或多个手部在满足预设阈值时间限制的持续时间内静态位于ROI中或ROI的区域内时,自动聚焦操作可以被执行。

检测到的手部的大小1820也可以被用于确定是触发还是停用自动聚焦操作。在自动聚焦子系统确定中使用用户手部的大小作为标准能够帮助防止例如另一用户的手部影响自动聚焦操作。用户的手部姿势(例如手部姿态是否指示设备输入)1825可以由自动聚焦子系统用于确定是触发还是抑制自动聚焦操作。例如,虽然某些姿态可能是不相关或偶发的手部移动,但一些手部姿态可以被用于输入或者可以被识别为用户指向某物。被标识为产生效果的手部姿势可以是自动聚焦子系统聚焦于用户手部的原因。

运动方向(例如来和回、边到边、进和出、对角线等)1830可以被用于确定是触发还是抑制自动聚焦操作。用户手部中的哪个手部(例如左手或右手)在前置传感器FOV中被检测到1835以及手部的什么部分被检测到1840也可以被用于确定是触发还是抑制自动聚焦操作。例如,关于用户在ROI中感兴趣的点,一个手部可能更具确定性。例如,用户可能通常使用一个手部与全息图交互,因此该手部不一定是感兴趣的点。相反,相对的手部可能被用于打开菜单、被用作混合现实空间内的指针或以其他方式是用户感兴趣的点。未示出的其他特性1845也可以被用作确定是触发还是抑制自动聚焦操作的标准。

图19至21是可以使用本地HMD设备110或其他合适的计算设备执行的说明性方法1900、2000和2100的流程图。除非特别规定,否则流程图中示出的以及所附文本中描述的方法或步骤不被约束于特定的顺序或序列。另外,取决于这种实现的要求,一些方法或其步骤可以并发地发生或者被执行,并且并非所有方法或步骤都必须在给定的实现中执行,并且一些方法或步骤可以被可选地利用。

在步骤1905中,在图19中,本地HMD设备启用相机的自动聚焦操作,该相机被配置为通过视野(FOV)捕获本地HMD设备周围的本地物理环境中的场景。在步骤1910,本地HMD设备使用传感器的集合在用户手部上收集数据。在步骤1915中,基于在用户手部上收集的数据未能满足自动聚焦子系统的一个或多个标准,本地HMD设备抑制相机的自动聚焦操作。

在步骤2005中,在图20中,当在物理环境中使用计算设备时,计算设备捕获数据以跟踪用户的一个或多个手部。在步骤2010中,计算设备选择计算设备的视野(FOV)内的感兴趣区域(ROI)。在步骤2015中,计算设备从捕获的手部跟踪数据确定用户的一个或多个手部的部分是否位于ROI内。在步骤2020中,计算设备触发或停用被部署在计算设备上的被配置为捕获场景的相机的自动聚焦操作。

在步骤2105中,在图21中,计算设备在显示器上渲染至少一个全息图,该全息图包括位于物理环境中的已知位置处的虚拟物体。在步骤2110中,计算设备使用深度传感器捕获物理环境内的用户的一个或多个手部的位置跟踪数据。在步骤2115中,计算设备从位置跟踪数据确定用户的一个或多个手部是否正在已知位置处与全息图交互。在步骤2120中,响应于确定用户的一个或多个设备未在与全息图交互,计算设备触发自动聚焦子系统的操作。在步骤2125中,响应于确定用户的一个或多个手部正在与全息图交互,计算设备抑制自动聚焦子系统的操作。

图22是在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术可以利用其被实现的说明性计算机系统2200(诸如PC(个人计算机)或服务器)的简化框图。例如,HMD设备110可以与计算机系统2200通信。计算机系统2200包括处理器2205、系统存储器2211和将包括系统存储器2211的各种系统组件耦合至处理器2205的系统总线2214。系统总线2214可以是包括存储器总线或存储器控制器、外围总线或使用各种总线架构中的任何总线架构的本地总线的多种类型的总线结构中的任何类型的总线结构。系统存储器2211包括只读存储器(ROM)2217和随机存取存储器(RAM)2221。包含有助于诸如在启动期间在计算机系统2200内的元件之间传送信息的基础例程的基础输入/输出系统(BIOS)2225被存储在ROM 2217中。计算机系统2200还可以包括:硬盘驱动器2228,用于读取和写入内部被部署的硬盘(未示出);磁盘驱动器2230,用于读取或写入可移除磁盘2233(例如软盘);以及光盘驱动器2238,用于读取或写入可移除光盘2243,诸如CD(压缩盘)、DVD(数字通用盘)或其他光学介质。硬盘驱动器2228、磁盘驱动器2230和光盘驱动器2238分别通过硬盘驱动器接口2246、磁盘驱动器接口2249和光盘驱动器接口2252而被连接至系统总线2214。驱动器及其关联的计算机可读存储介质为计算机系统2200提供计算机可读指令、数据结构、程序模块和其他数据的非易失性存储装置。尽管该说明性示例包括硬盘、可移除磁盘2233和可移除光盘2243,但是能够存储由计算机可访问的数据的其他类型的计算机可读存储介质(诸如盒式磁带、闪存卡、数字视频盘、数据盒、随机存取存储器(RAM)、只读存储器(ROM)等)也可以在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术的一些应用中使用。另外,如本文使用的,术语计算机可读存储介质包括介质类型的一个或多个实例(例如一个或多个磁盘、一个或多个CD等)。为了本说明书和权利要求的目的,短语“计算机可读存储介质”及其变型旨在覆盖非瞬态实施例,并且不包括波、信号和/或其他瞬态和/或无形通信介质。

多个程序模块可以被存储在硬盘、磁盘2233、光盘2243、ROM 2217或RAM 2221上,该多个程序模块包括操作系统2255、一个或多个应用程序2257、其他程序模块2260和程序数据2263。用户可以通过诸如键盘2266等输入设备和诸如鼠标等指点设备2268将命令和信息录入到计算机系统2200中。其他输入设备(未示出)可以包括麦克风、控制杆、游戏板、卫星碟、扫描仪、轨迹球、触摸板、触摸屏、触敏型设备、语音命令模块或设备、用户运动或用户姿势捕获设备等。这些和其他输入设备通常通过被耦合至系统总线2214的串行端口接口2271而被连接至处理器2205,但是可以通过诸如并行端口、游戏端口或通用串行总线(USB)等其他接口连接。监视器2273或其他类型的显示设备也经由诸如视频适配器2275等接口而被连接至系统总线2214。除了监视器2273之外,个人计算机通常包括其他外围输出设备(未示出),诸如扬声器和打印机。图22所示的说明性示例还包括主机适配器2278、小型计算机系统接口(SCSI)总线2283和连接至SCSI总线2283的外部存储设备2276。

计算机系统2200可以使用与一个或多个远程计算机(诸如远程计算机2288)的逻辑连接在联网环境中操作。远程计算机2288可以被选择为另一个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点,并且通常包括上面相对于计算机系统2200描述的许多或所有元件,尽管仅单个代表性远程存储器/存储设备2290在图22中示出。图22所描绘的逻辑连接包括局域网(LAN)2293和广域网(WAN)2295。这样的联网环境通常被部署在例如办公室、企业范围的计算机网络、内联网和互联网中。

当在LAN联网环境中使用时,计算机系统2200通过网络接口或适配器2296而被连接至局域网2293。当在WAN联网环境中使用时,计算机系统2200通常包括宽带调制解调器2298、网络网关或用于通过诸如互联网等广域网2295建立通信的其他部件。可以在内部或外部的宽带调制解调器2298经由串行端口接口2271而被连接至系统总线2214。在联网环境中,与计算机系统2200相关的程序模块或其部分可以被存储在远程存储器存储设备2290中。要注意的是,图22所示的网络连接是说明性的,并且在计算机之间建立通信链路的其他部件可以取决于在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术的应用的具体要求来使用。

图23是提供云计算服务或分布式计算服务的说明性数据中心2300的高级框图,这些云计算服务或分布式计算服务可以被用于实现在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术。例如,HMD设备105可以利用由数据中心2300提供的解决方案,诸如接收流式传输内容。多个服务器2301由数据中心管理控制器2302管理。负载平衡器2303在服务器2301上分发请求和计算工作负载,以避免单个服务器可能变得不堪重负的情况。负载平衡器2303最大化数据中心2300中的资源的可用容量和性能。路由器/交换机2304经由外部网络2305支持服务器2301之间以及数据中心2300与外部资源和用户(未示出)之间的数据业务,该外部网络2305可以是例如局域网(LAN)或互联网。

服务器2301可以是独立的计算设备,和/或它们可以被配置为一个或多个服务器设备的机架中的个体刀片。服务器2301具有管理与其他数据库实体的通信的输入/输出(I/O)连接器2306。每个服务器2301上的一个或多个主机处理器2307运行支持多个虚拟机(VM)2309的主机操作系统(O/S)2308。每个VM 2309可以运行它自己的O/S,使得服务器上的每个VM O/S 2310不同或者相同或者是两者的混合。VM O/S 2310可以是例如相同O/S的不同版本(例如运行

数据中心2300提供池化的资源,客户能够在其上根据需要动态供应和缩放应用,而无需添加服务器或附加联网。这允许客户获取他们需要的计算资源,而无需在每应用、自组织的基础上产生、供应和管理基础设施。云计算数据中心2300允许客户动态扩展或缩减资源以满足其业务的当前需要。附加地,数据中心运营方能够向客户提供基于使用的服务,使得他们在需要使用资源时只为他们使用的资源付费。例如,客户最初可以使用服务器2301

数据中心2300可以提供有保证的可用性、灾难恢复和备份服务。例如,数据中心可以将服务器2301

域名系统(DNS)服务器2314将域名和主机名解析为数据中心2300中的所有角色、应用和服务的IP(互联网协议)地址。DNS日志2315维护了哪些域名已被角色解析的记录。要理解的是,DNS在本文中被用作示例,并且其他名称解析服务和域名日志记录服务可以被用于标识相关性。

数据中心健康监视2316监视数据中心2300中的物理系统、软件和环境的健康。当检测到关于数据中心2300中的服务器、刀片、处理器或应用的问题时或者当出现网络带宽或通信问题时,健康监测2316向数据中心管理器提供反馈。

图24示出了用于在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术的计算设备(诸如智能手机、平板计算机、膝上型计算机或个人计算机)的说明性架构2400。图24中的计算设备可以是HMD设备110的备选,其也能够受益于减少自动聚焦子系统中的搜寻效应。尽管一些组件在图24中被描绘,但是本文公开但未示出的其他组件对于计算设备也是可能的。

图24所图示的架构2400包括一个或多个处理器2402(例如中央处理单元、专用人工智能芯片、图形处理单元等)、系统存储器2404(包括RAM(随机存取存储器)2406和ROM(只读存储器)2408)以及可操作地并在功能上耦合架构2400中的组件的系统总线2410。包含基础例程的基础输入/输出系统通常被存储在ROM 2408中,该基础例程有助于诸如在启动期间在架构2408内的元件之间传送信息。架构2400还包括用于存储软件代码或其他计算机执行代码的大容量存储设备2412,该软件代码或其他计算机执行代码被用于实现应用、文件系统和操作系统。大容量存储设备2412通过连接至总线2410的大容量存储控制器(未示出)而被连接至处理器2402。大容量存储设备2412及其关联的计算机可读存储介质为架构2400提供非易失性存储装置。尽管本文包含的计算机可读介质的描述是指大容量存储设备,诸如硬盘或CD-ROM驱动器,但本领域技术人员可以了解的是,计算机可读存储介质能够是可以由架构2400访问的任何可用的存储介质。

通过示例而非限制,计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。例如,计算机可读介质包括但不限于RAM、ROM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、闪存或其他固态存储器技术、CD-ROM、DVD、HD-DVD(高清晰度DVD)、蓝光或其他光学存储装置、盒式磁带、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用于存储期望信息并且可以由架构2400访问的任何其他介质。

根据各种实施例,架构2400可以通过网络使用与远程计算机的逻辑连接在联网环境中操作。架构2400可以通过连接至总线2410的网络接口单元2416而被连接至网络。可以了解的是,网络接口单元2416也可以被用于连接至其他类型的网络和远程计算机系统。架构2400还可以包括用于接收和处理来自多个其他设备的输入输入/输出控制器2418,包括键盘、鼠标、触摸板、触摸屏、诸如按钮和开关或电子手写笔等控制设备(未在图24中示出)。类似地,输入/输出控制器2418可以向显示屏、用户接口、打印机或其他类型的输出设备(也未在图24中示出)提供输出。

可以了解的是,在被加载到处理器2402中并且被执行时,本文描述的软件组件可以将处理器2402和整个架构2400从通用计算系统变换成被定制为促进本文提出的功能性的专用计算系统。处理器2402可以由任何数目的晶体管或其他分离电路元件构造,其可以单独或共同地假设任何数目的状态。更具体地,响应于本文公开的软件模块内所包含的可执行指令,处理器2402可以作为有限状态机来操作。这些计算机可执行指令可以通过指定处理器2402如何在状态之间转换来变换处理器2402,从而变换构成处理器2402的晶体管或其他离散硬件元件。

对本文提出的软件模块进行编码也可以变换本文提出的计算机可读存储介质的物理结构。在本描述的不同实现中,物理结构的具体变换可以取决于各种因素。这样的因素的示例可以包括但不限于用于实现计算机可读存储介质的技术,计算机可读存储介质被表征为主要存储装置还是次级存储装置等。例如,如果计算机可读存储介质被实现为基于半导体的存储器,则本文公开的软件可以通过变换半导体存储器的物理状态而被编码在计算机可读存储介质上。例如,该软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。该软件还可以变换这样的组件的物理状态,以便在其上存储数据。

作为另一示例,本文公开的计算机可读存储介质可以使用磁性或光学技术来实现。在这样的实现中,当软件被编码在其中时,本文提出的软件可以变换磁性或光学介质的物理状态。这些变换可以包括更改给定磁性介质内的特定位置的磁性特性。这些变换还可以包括更改给定光学介质内的特定位置的物理特征或特性,以改变那些位置的光学特性。在不脱离本描述的范围和精神的情况下,物理介质的其他变换是可能的,前述示例被提供仅是为了促进该讨论。

鉴于以上内容,可以了解的是,在架构2400中发生了许多类型的物理变换,以便存储和执行本文提出的软件组件。还可以了解的是,架构2400可以包括其他类型的计算设备,包括可穿戴设备、手持式计算机、嵌入式计算机系统、智能手机、PDA以及本领域技术人员已知的其他类型的计算设备。也考虑到架构2400可以不包括图24所示的组件中的所有组件,可以包括未在图24中明确示出的其他组件,或者可以利用与图24所示的架构完全不同的架构。

图25示出了透视混合现实显示系统2500的一个特定说明性示例,并且图26示出了系统2500的功能框图。说明性显示系统2500提供了在贯穿各附图所描绘的HMD设备110的补充描述。显示系统2500包括形成透视显示子系统2504的一部分的一个或多个透镜2502,使得可以使用透镜2502显示(例如使用到透镜2502上的投影、并入到透镜2502中的一个或多个波导系统和/或以任何其他合适的方式)图像。显示系统2500还包括一个或多个面向外的图像传感器2506,其被配置为获取正在由用户查看的背景场景和/或物理环境的图像,并且可以包括一个或多个麦克风2508,其被配置为检测声音,诸如来自用户的语音命令。面向外的图像传感器2506可以包括一个或多个深度传感器和/或一个或多个二维图像传感器。在备选布置中,如上面提到的,混合现实或虚拟现实显示系统可以通过向外图像传感器的取景器(viewfinder)模式显示混合现实或虚拟现实图像,而不是并入透视显示子系统。

显示系统2500还可以包括注视检测子系统2510,其被配置用于检测用户的每个眼睛的注视方向或者焦点的方向或位置,如上所述。注视检测子系统2510可以被配置为以任何合适的方式确定用户眼睛中的每个眼睛的注视方向。例如,在所示的说明性示例中,注视检测子系统2510包括一个或多个闪烁源2512,诸如红外光源,改一个或多个闪烁源2512被配置为引起闪烁光以从用户的每个眼球反射,并且包括一个或多个图像传感器2514,诸如面向内的传感器,该一个或多个图像传感器2514被配置为捕获用户的每个眼球的图像。从使用(多个)图像传感器2514采集的图像数据所确定的来自用户眼球和/或用户瞳孔位置的闪烁变化可以被用于确定注视方向。

另外,从用户眼睛投射的注视线与外部显示器相交的位置可以被用于确定用户正在注视的物体(例如所显示的虚拟物体和/或真实的背景物体)。注视检测子系统2510可以具有任何合适数目和布置的光源和图像传感器。在一些实现中,注视检测子系统2510可以被省略。

显示系统2500还可以包括附加传感器。例如,显示系统2500可以包括全球定位系统(GPS)子系统2516以允许显示系统2500的位置被确定。这可能有助于标识现实世界的物体,诸如可以位于用户的邻接物理环境中的建筑物等。

显示系统2500还可以包括一个或多个运动传感器2518(例如惯性、多轴陀螺仪或加速度传感器),以在用户正穿戴作为混合现实或虚拟现实HMD设备的一部分的系统时检测用户头部的移动和位置/定向/姿态。运动数据可以潜在地连同眼睛跟踪闪烁数据和面向外的图像数据一起被用于注视检测以及图像稳定,以帮助校正来自(多个)面向外的图像传感器2506的图像中的模糊。即使来自(多个)面向外的图像传感器2506的图像数据无法被解析,运动数据的使用也可以允许注视位置的变化被跟踪。

另外,运动传感器2518以及(多个)麦克风2508和注视检测子系统2510也可以作为用户输入设备被采用,使得用户可以经由眼睛、颈部和/或头部的姿势以及在一些情况下经由口头命令与显示系统2500交互。可以理解的是,图25和26所图示的和所附文本中描述的传感器被包括以用于示例的目的,并且不旨在以任何方式是限制性的,因为任何其他合适的传感器和/或传感器的组合可以被用于满足特定实现的需要。例如,生物特征传感器(例如用于检测心率和呼吸率、血压、大脑活动、体温等)或环境传感器(例如用于检测温度、湿度、海拔、UV(紫外线)光水平等)可以在一些实现中被利用。

显示系统2500还可以包括控制器2520,控制器2520具有通过通信子系统2526与传感器、注视检测子系统2510、显示子系统2504和/或其他组件通信的逻辑子系统2522和数据存储子系统2524。通信子系统2526还能够促进显示系统结合位于远程的资源(诸如处理、存储、功率、数据和服务)操作。即,在一些实现中,HMD设备能够作为可以在不同组件和子系统之中分布资源和能力的系统的一部分来操作。

存储子系统2524可以包括存储在其上的指令,这些指令由逻辑子系统2522可执行,例如以接收和解译来自传感器的输入、标识用户的位置和移动、使用表面重构和其他技术标识真实物体,以及基于与物体的距离使显示变暗/淡化以使物体能够被用户看到,以及其他任务。

显示系统2500被配置有一个或多个音频换能器2528(例如扬声器、耳机等),使得音频能够被用作混合现实或虚拟现实体验的一部分。功率管理子系统2530可以包括一个或多个电池2532和/或保护电路模块(PCM)以及相关联的充电器接口2534和/或远程功率接口,以用于向显示系统2500中的组件供应功率。

可以了解的是,显示系统2500是为了示例的目的而描述的,因此并不意味着是限制性的。还要理解的是,在不脱离本布置的范围的情况下,显示设备可以包括除了所示的那些之外的附加和/或备选的传感器、相机、麦克风、输入设备、输出设备等。附加地,在不脱离本布置的范围的情况下,显示设备及其各种传感器和子组件的物理配置可以采用多种不同的形式。

在具有手部姿势交互的混合现实环境中设置相机中的焦点的本技术的各种示例性实施例现在通过说明的方式而不是作为所有实施例的详尽列表来呈现。示例包括一种由头戴式显示器(HMD)设备执行以优化自动聚焦实现的方法,包括:在HMD设备中启用相机的自动聚焦操作,该相机被配置为通过视野(FOV)捕获HMD设备周围的本地物理环境中的场景,其中相机是被可操作地耦合至HMD设备的一个或多个传感器的集合的成员;使用传感器的该集合在用户的手部上收集数据;以及基于在用户手部上所收集的数据未能满足自动聚焦子系统的一个或多个标准,抑制相机的自动聚焦操作。

在另一示例中,传感器的集合采集数据,该数据描述了HMD设备在其中操作的本地物理环境。在另一示例中,HMD设备包括透视混合现实显示器,本地用户通过该透视混合现实显示器观察本地物理环境,并且HMD设备在该透视混合现实显示器上渲染一个或多个虚拟物体。在另一示例中,由相机通过FOV捕获的场景和所渲染的虚拟物体作为内容被传输给远程计算设备。在另一示例中,由相机通过FOV捕获的场景和所渲染的虚拟物体由HDM设备混合为被记录的复合信号。在另一示例中,该方法还包括指定FOV内的感兴趣区域(ROI),并且其中自动聚焦子系统的标准包括指示用户手部中的一个或多个手部位于ROI内的所收集的数据。在另一示例中,ROI包括本地物理环境中的三维空间。在另一示例中,ROI在大小、形状或位置中的至少一项上动态可变。在另一示例中,该方法还包括评估一个或多个手部的特性,以确定在用户手部上所收集的数据是否满足自动聚焦子系统的一个或多个标准。在另一示例中,手部的特性包括手部移动的步调。在另一示例中,手部的特性包括手部的什么部分。在另一示例中,手部的特性包括一个或多个手部被定位在ROI中的持续时间。在另一示例中,手部的特性包括一个或多个手部的大小。在另一示例中,手部的特性包括一个或多个手部的姿态。在另一示例中,手部的特性包括一个或多个手部的运动方向。在另一示例中,相机包括PV(照片/视频)相机,并且传感器的集合包括深度传感器,该深度传感器被配置为在本地物理环境中收集深度数据,以由此跟踪HMD设备的用户手部中的一个或多个手部。

又一示例包括存储计算机可读指令的一种或多种基于硬件的非瞬态计算机可读存储器设备,该计算机可读指令在由计算设备中的一个或多个处理器执行时使计算设备:在用户正在物理环境中使用计算设备的同时,捕获跟踪用户的一个或多个手部的数据;选择计算设备的视野(FOV)内的感兴趣区域(ROI),其中计算设备在耦合至计算设备的透视显示器上渲染一个或多个虚拟物体,以使得用户能够同时查看物理环境和一个或多个虚拟物体作为混合现实用户体验;从所捕获的手部跟踪数据确定用户的一个或多个手部的部分是否位于ROI内;以及响应于确定,触发或停用被部署在计算设备上的相机的自动聚焦操作,该相机被配置为捕获包括FOV中的物理环境的至少一部分的场景,其中自动聚焦操作响应于从所捕获的手部跟踪数据得出的一个或多个手部的特性而被触发,该特性指示用户的一个或多个手部是用户在ROI内的焦点;并且自动聚焦操作响应于从所捕获的手部跟踪数据得出的一个或多个手部的特性而被停用,该特性指示用户的一个或多个手部在ROI中是瞬态的。

在另一示例中,所捕获的手部跟踪数据来自可操作地耦合至计算设备的前置深度传感器。在另一示例中,计算设备包括头戴式显示器(HMD)设备、智能手机、平板计算机或便携式计算机。在另一示例中,ROI位于FOV的中心区域。在另一示例中,所执行的指令还使计算设备在FOV的ROI内的物理环境中协调所捕获的手部跟踪数据。

又一示例包括一种可配置为穿戴在用户头部上的计算设备,该计算设备被配置为减少与该计算设备相关联的自动聚焦子系统的不想要的搜寻效应,包括:显示器,被配置为渲染全息图;可调焦PV(图片/视频)相机,可操作地耦合至自动聚焦子系统并且被配置为捕获用户所位于得物理环境的可调焦图像;深度传感器,被配置为在三个维度上捕获关于物理环境的深度数据;一个或多个处理器;以及存储计算机可读指令的一个或多个基于硬件的存储器设备,该计算机可读指令当由一个或多个处理器执行时使计算设备:在显示器上渲染至少一个全息图,该全息图包括位于物理环境中的已知位置处的虚拟物体;使用深度传感器捕获物理环境内的用户的一个或多个手部的位置跟踪数据;从位置跟踪数据确定用户的一个或多个手部是否正在已知位置处与全息图交互;响应于确定用户的一个或多个手部未在与全息图交互,触发自动聚焦子系统的操作;并且响应于确定用户的一个或多个手部正在与全息图交互,抑制自动聚焦子系统的操作。

在另一示例中,响应于从位置跟踪数据确定用户的一个或多个手部正在使用进出移动与全息图交互,自动聚焦子系统的操作被抑制。

尽管主题已经用特定于结构特征和/或方法动作的语言被描述,但是要理解的是,在所附权利要求中限定的主题并不一定被限于上述具体特征或动作。而是,上述具体特征和动作被公开为实现权利要求的示例形式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号