首页> 中国专利> 可拓展式三维显示远程视频通信方法

可拓展式三维显示远程视频通信方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种可拓展式三维显示远程视频通信方法，在数据发送端：利用RGB-D相机获取第一用户的人物图像，其包含了纹理图像和深度图像，从纹理图像中提取出面部特征信息及表情特征信息，从深度图像中提取肢体特征信息并重建出人物点云；利用人物点云对各特征信息进行优化得到优化后的特征信息并生成三维模型A，将三维模型A投影到对应的纹理图像，提取出相应的纹理信息，将采集到的语音信息连同优化后的特征信息，以及纹理数据发送给第二用户；在数据接收端：第二用户接收来自第一用户的数据后，提取其中优化后的特征信息生成三维模型B，利用纹理数据对三维模型B进行渲染，通过三维显示设备输出渲染结果，并播放所述的语音信息。

著录项

公开/公告号CN103269423A

专利类型发明专利
公开/公告日2013-08-28

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201310176717.7
发明设计人袁立;彭祎帆;韩祥;王锐;李海峰;刘旭;鲍虎军;钟擎;
展开▼

申请日2013-05-13
分类号H04N7/14(20060101);H04N13/00(20060101);
代理机构33224 杭州天勤知识产权代理有限公司;
代理人周丽娟
地址 310027 浙江省杭州市西湖区浙大路38号
入库时间 2024-02-19 20:08:03

法律信息

法律状态公告日

法律状态信息

法律状态
2016-07-06

授权

授权
2013-09-25

实质审查的生效 IPC(主分类):H04N7/14 申请日:20130513

实质审查的生效
2013-08-28

公开

公开

说明书

技术领域

本发明涉及远程视频通信领域，尤其涉及一种可拓展式三维显示远程视频通信方法。

背景技术

远程视频通信系统在当今社会发挥着越来越重要的作用，业界采用了很多技术来提高系统虚拟现实的效果，使远程会议的参与者获得更加身临其境的体验。三维显示技术在学术界及产业界都经历了空前的发展，正可以使用在远程视频通信系统中。由于最新的三维显示技术可以提供自然的可视化效果以及重要的视觉线索，例如眼神会意，面部表情，肢体语言等等，将它应用到远程视频通信系统中，优势不言而喻。

学术界已有一些应用于远程视频通信的三维显示技术，其中视差型自体视三维显示是一种较为成熟的方法。这种多视角的自体视三维显示在一些固定的视角提供了高分辨率的三维图像。然而，随着观察位置数量的提升，这种方法的显示效果会出现问题，它不能在较大的观察角度范围内提供光滑的运动视差，这意味着远程视频通信参与者走动的自由度被严重地限制了。另外一些基于屏幕旋转原理设计的体三维显示系统由于其旋转机制的结构设计，限制了其显示体积，也从成本，简洁性和可伸缩性的方面限制了其在商业远程视频通信系统中的应用。

面向市场的三维远程视频通信系统需要满足一些功能需求。首先，最基本的要求在于使与会者们能够交谈、走动、做一些动作，在这方面的限制越少越好。其次，需要提供自然的，具有平滑的双眼视差和运动视差的三维显示效果。同时，还需要快速地捕获与会者的外形及语言等信息，以便实时呈现出来。从商业角度而言，又要求任何端对端的三维显示远程视频通信系统成本较低、简洁、易于部署，以便于进行大范围的市场推广。

在实时人物三维信息捕捉方面，RGB-D相机的出现为这个问题提供了便捷且成本低廉的潜在解决方案，然而将其应用到视频通信场合，尤其是三维视频通信场合的报道非常少。

发明内容

本发明的目的是克服现有的远程视频通信解决方案在虚拟现实效果、用户自由度以及实现成本上的不足，提供了一种面向市场的可拓展式三维显示远程视频通信系统及方法。

一种可拓展式三维显示远程视频通信方法，实施步骤如下：

数据发送端：获取第一用户的人物图像和语音信息，并提取出人物图像中的特征信息和纹理

1）利用RGB-D相机获取第一用户的人物图像，该人物图像中包含了纹理图像和深度图像；

从纹理图像中提取出面部特征信息及表情特征信息；

从深度图像中提取肢体特征信息并重建出人物点云；

2）利用所述的人物点云对步骤1）中各特征信息进行优化得到优化后的特征信息，通过该优化后的特征信息生成三维模型A；

3）将所述的三维模型A投影到对应的纹理图像，将该三维模型A所对应的纹理数据提取出来；在采集人物图像的同时获取语音信息，将该语音信息连同优化后的特征信息，以及提取出来的纹理数据发送给第二用户；

4）循环操作步骤1）～3），利用后一时刻的数据对前一时刻的数据进行更新并发送给第二用户；

数据接收端：

第二用户通过网络接收来自第一用户的数据后，提取其中的优化后的特征信息生成三维模型B，利用所述提取出来的纹理数据对三维模型B进行渲染，通过三维显示设备输出渲染结果，并播放所述的语音信息。

在数据发送端获取第一用户的人物图像和语音信息，并提取出人物图像中的特征信息和纹理数据，然后发送至数据接收端，数据接收端的第二用户根据所接受到的数据进行建模和渲染处理，并通过三维显示设备输出，以及播放对应的语音信息，实现数据发送端和数据接收端的远程视频通信。

在数据发送端，利用RGB-D相机获取第一用户的人物图像时，在不同时刻改变RGB-D相机相对第一用户的视角，得到不同角度下第一用户的人物图像，然后根据人物图像中的各特征信息，构建三维模型，实现三维显示的效果。

所述的语音信息、优化后的特征信息以及提取出来的纹理数据经压缩、打包处理后通过网络发送给所述的第二用户。其中，语音信息和优化后的特征信息的数据量较小，也可不进行压缩处理，对数据传输的速度影响大不，但是纹理数据的数据量较大，占用的资源较多，如不进行精简与压缩处理，其传输的速度较慢，第一用户与第二用户间存在较大的时间差，影响视频通信的实时性。

利用后一时刻的数据对前一时刻的数据进行更新时，利用后一时刻的优化后的特征信息对前一时刻的优化后的特征信息进行更新处理，并对应生成更新后的三维模型A，将更新后的三维模型A投影到该后一时刻的纹理图像，提取出更新后的纹理数据。

优选的，所述的三维显示设备包括投影模块和定向散射屏模块，所述的定向散射屏模块为具有二向散射特性的屏幕，所述的投影模块为投影阵列。所述的投影阵列为投影仪组成的阵列，或由二维显示器和镜头阵列组成。三维显示设备是使用集成光场三维显示技术的实时空间三维呈现系统，输出视场角度很大且运动视差连续的空间三维场景图像，使观察者通过双目视差形成三维视觉，达到真实的三维视频效果。

本发明将集成光场三维显示技术和基于RGB-D相机的实时人物捕捉技术结合起来，每个终端设备使用集成光场三维显示技术以提供实时真实感，具有细腻双目视差及运动视差的三维效果；同时，使用RGB-D相机捕获人物信息，并且通过互联网互联，发挥了三维显示系统的视觉优势和 RGB-D相机成本低廉以及人物捕获高效的优点。

本发明的主要优点在于：

整合了相关资源，使用价格低廉且方便使用的RGB-D深度相机实时地采集并处理，得到质量较好的人物交互信息，并对这些信息进行精简与压缩降低其网络传输带宽要求，使其可以实时地在互联网上传输，同时应用了高性能的实时光场三维显示装置，可以实现很好的虚拟现实效果，使远程视频通信的参与者可以获得身临其境的交互体验。

附图说明

图1为本发明中三维显示远程视频通信方法的基本逻辑结构示意图。

图2为数据发送端获取交互数据的流程图。

图3为数据接收端利用交互数据生成虚拟现实场景的流程图。

具体实施方式

如图1所示，实现本发明三维显示远程视频通信方法的系统包括数据发送端1以及通过网络与数据发送端1连接的数据接收端2，数据发送端 1和数据接收端2实时地进行数据交互，实现远程视频通信。数据发送端 1和数据接收端2均同时进行数据的接收和发送，两个终端的逻辑结构相同，为方便本发明的描述，人为的分为数据发送端1和数据接收端2。

数据发送端1包括主控计算机8、三维显示设备5、人物捕获设备6，其中，主控计算机8包含网络传输模块9、三维显示软件模块4和人物捕获软件模块3。三维显示设备5和人物捕获设备6分别进入主控计算机8 的三维显示软件模块4和人物捕获软件模块3，三维显示软件模块4和人物捕获软件模块3分别与网络传输模块9相连接，网络传输模块9通过互联网连接至数据接收端2，三维显示设备5在通信交互区域7输出图像数据，人物捕获软件模块3用于获取通信交互区域7内的人物图像，三维显示设备5的可视区域及人物捕获设备6的捕获区域均要能够覆盖通信交互区域7。

网络传输模块9对需要在网络上传输的数据进行了精简与压缩，通过互联网传送至数据接收端2；同时接受其他终端通过互联网发送过来的数据。数据包括人物的表情参数，肢体动作参数，需要更新的人物纹理以及语音信息，数据量比较小，压缩后可以满足网络实时传输。

三维显示设备5是使用集成光场三维显示技术的实时空间三维呈现系统，这是本发明的优点之一。光场三维显示的原理为重构三维场景发出的光线的空间分布，使用该原理的三维显示设备主要包括投影模块和定向散射屏模块。投影模块和定向散射屏模块具有多种排布模式，这里以实现360 度全景观看的多投影式光场显示系统为例。围绕屏幕环状分布的投影仪将所要显示的空间三维模型或三维场景的各个角度投影的组合图像投影成像于环状屏幕的中心区域，该环状屏幕为具有二向散射特性的定向散射屏幕，即在横向具有特定散射角度、在纵向具有较大散射角度特性，呈旋转对称分布的散射屏幕结构。由此，环状分布的投影仪投影的图像就被转换成360度全景可视的空间三维场景图像，供围绕在屏幕周边观察区域内的观众观看。根据光场重建的原理以及环状定向散射屏的特性，在观察区域内的每一个位置仅能观看到对应于这个位置的一个投影仪投射出的一窄条图像，而每一个位置能看多个投影仪投射出的多个窄条图像的组合图像便形成该位置完整的画面，通过这种类似于集成拼接光场的模式呈现出完整的图像信息。那么在观察区域内的不同位置均能观看到对应于相应位置的不同图像，这就能保证在观察区域内的观众的双眼观看到的图像信息是不同的，通过双目视差形成三维视觉，亦可以通过在横向不同位置间的移动获得运动视差。三维显示设备5对于三维显示软件模块4的依赖关系仅在于三维显示设备5需要三维显示软件模块4提供模型、纹理等绘制三维效果所必须的数据和参数。三维显示软件模块4的具体实现方法和三维显示设备5无关。

三维显示远程视频通信系统的主要功能是实现两个方向上的实时信息交换。第一个方向是视频通信参与者的外形、表情、语音、动作等交互数的据获与发送。人物捕获设备6对通信交互区域7中的通信参与用户的外形、动作、语音进行捕捉，获得基本的图像、音频数据。这些数据被传送给人物捕获软件模块3，人物捕获软件模块3通过一些算法从中计算出人物的外形、语音和表情动作信息，并对其进行优化和累积，以得到更加符合真实场景情况的信息，并把这些数据传送给网络传输模块9。网络传输模块9对数据进行压缩和打包，通过互联网将其发送到另一个远程通信终端（即为数据接收端），从而完成这个方向上的数据传输。第二个方向是接收视频通信参与者的外形、表情、语音、动作等交互数据，并生成虚拟现实场景。网络传输模块9通过互联网获得另一个终端发送过来的通信用户数据，并将解压缩后的数据传送给三维显示软件模块4。三维显示软件模块4通过获得的用户外形及表情、动作、语音数据，计算出三维显示设备5需要呈现的三维模型及纹理信息，传送给三维图像显示设备5，使其呈现相应的三维效果并播放语音，供通信交互区域7中的参与者观看。这两个方向的实时信息交换的完成，使得三维显示远程视频通信系统不同终端的使用者们可以实时地观察到对方的外形、表情、动作等三维效果，听到对方的语音，并且也可以实时地把自己的这些信息反馈给对方。

下面详细介绍上面两个方向上实时信息交换的具体实施过程，包括以下步骤：

如图2所示，数据发送端：

1）利用RGB-D相机获取第一用户的人物图像，该人物图像中包含了纹理图像和深度图像；

从纹理图像中提取出面部特征信息及表情特征信息；

从深度图像中提取肢体特征信息并重建出人物点云。

人物捕获设备选用廉价、易用且便于部署的RGB-D相机，利用RGB-D 相机获取第一用户的人物图像时，在不同时刻改变RGB-D相机相对第一用户的视角，在本实施例中具体使用的RGB-D相机是Kinect。Kinect可以实时采集场景的颜色及深度数据流，并作为颜色帧和深度帧输送至人物捕获软件模块。这些数据流本身就是场景部分的纹理信息以及深度信息，其中包含了人物的纹理及深度数据。人物捕获软件模块3从人物的纹理数据中实时地提取出人物的面部特征及表情特征信息，从人物的深度数据中提取人物肢体特征信息，这些信息定义了人物的几何外形、面部表情和肢体动作信息，从深度数据中可以重建出人物的点云，可以反映人物的原始几何数据。

本实施例中，使用Kinect作为RGB-D相机，针对Kinect软件开发，微软公司提供了Kinect的Software Development Kit（SDK），使用Kinect SDK中的接口即可以提取特征信息，重建人物点云。

2）利用所述的人物点云对步骤1）中各特征信息进行优化得到优化后的特征信息，通过该优化后的特征信息生成三维模型A。

这里的各特征信息包括上述的面部特征信息、表情特征信息和肢体特征信息，利用重建的人物点云对各特征信号进行优化得到优化后的特称信息，再通过该优化后的特征信息生成三维模型A。

特征信息优化：定义能量方程，以优化后的特征信息作为未知数。方程描述了优化后的特征信息生成的模型与优化前的特征信息生成的模型在几何形状上的差别程度以及优化后的特征信息生成的模型与点云数据在几何形状上的差别程度这两者之和。求使此能量方程取得最小值的解，即得到优化后的特征信息。

根据特征信息生成三维模型：使用了模型变形方法，包括Morph技术和Skinned Mesh技术。均为常规技术手段。

3）将所述的三维模型A投影到对应的纹理图像，将该三维模型A所对应的纹理数据提取出来；在采集人物图像的同时获取语音信息，将该语音信息连同优化后的特征信息，以及提取出来的纹理数据发送给第二用户。

将三维模型A投影到Kinect采集到的纹理图像中，提取出三维模型A 所对应的纹理数据，其中，语音信息可以通过Kinect中的声音采集设备直接获得，然后网络传输模块9将语音信息、优化后的特征信息以及提取出来的纹理数据经压缩、打包处理后发送给所述的第二用户。对于Kinect 捕获的每个颜色帧，都可以提取出采集到的人物原始纹理，我们对多次采集到的人物原始纹理数据进行积累与优化，提高其鲁棒性，得到质量较好的人物纹理。

纹理的优化：每个人物都有一个基础纹理，每次提取到新的纹理数据都会用来更新基础纹理数据，这种更新是一种累积的方式，能优化纹理。具体的更新方法是：对于每一个像素，根据其累计采集到的纹理数据估计出一个概率分布，用这个概率分布的期望值来更新本像素的颜色值。

4）循环操作步骤1）～3），利用后一时刻的数据对前一时刻的数据进行更新并发送给第二用户。

通过多次改变视角获取人物图像，并对多次采集到的人物原始纹理数据进行积累与优化，在结合对应的三维模型，就可以得到完整的人物的外形、表情、动作数据。

如图3所示，数据接收端：

数据接收端内的网络传输模块接收通过互联网发送过来的数据包，对其中的数据进行解压缩，并完成数据同步的工作。网络传输模块将当前需要进行虚拟现实呈现的数据提供给三维显示软件模块，这些数据包括人物的几何外形的特征信息、面部表情的特征信息、肢体动作的特征信息、需要更新的人物纹理信息、人物语音信息。三维显示软件模块的实施过程为：把人物的几何外形的特征信息、面部表情的特征信息、肢体动作的特征信息作为参数带入算法中，对三维显示软件模块中预存的标准人物模型进行变形。通过变形操作，可以得到符合上述静态及动态特征描述的人物模型。三维显示软件模块中最初存储着人物模型的基础纹理，在每一次得到需要更新的人物纹理信息时，三维显示软件模块就会对人物模型的基础纹理进行更新，并不断地累积，得到当前可以使用的人物纹理。人物语音数据可以直接使用。三维显示软件模块把计算得到的人物模型数据、人物纹理数据提交给三维显示设备，进行虚拟现实呈现，同时播放人物语音。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 可拓展式三维显示远程视频通信方法 [P] . 中国专利： CN103269423B . 2016.07.06
2. 可拓展式三维显示远程视频通信方法 [P] . 中国专利： CN103269423A . 2013-08-28
3. Video conference environment for communication of remote groups and communication method of remote group in such video conference environment [P] . CZ305294B6 . 2015-07-22

机译：用于远程组通信的视频会议环境以及在这种视频会议环境中的远程组通信方法
4. METHOD OF REMOTE VIDEO COMMUNICATION AND SYSTEM OF SYNTHESIS, ANALYSIS AND PROTECTION OF USER VIDEO IMAGES [P] . 世界知识产权组织专利： WO2012107860A1 . 2012-08-16

机译：远程视频通信方法以及用户视频图像的合成，分析和保护系统
5. METHOD OF REMOTE VIDEO COMMUNICATION AND SYSTEM OF SYNTHESIS ANALYSIS AND PROTECTION OF USER VIDEO IMAGES [P] . 美国专利： US2011181684A1 . 2011-07-28

机译：远程视频通信方法及用户视频图像综合分析与保护系统