首页> 中国专利> 基于实时虚拟视角插值的多用户自由视角视频方法及系统

基于实时虚拟视角插值的多用户自由视角视频方法及系统

摘要

本发明提供实时虚拟视角插值方法,包括:获取第一彩色纹理图像和第二彩色纹理图像到需要插值的视角位置的虚拟第三彩色纹理图像的双向光流;获取第一彩色纹理图像和第二彩色纹理图像在虚拟第三彩色纹理图像中的可见性掩码矩阵;基于双向光流,第一彩色纹理图像和第二彩色纹理图像分别扭曲到虚拟第三彩色纹理图像位置;基于可见性掩码,在虚拟第三彩色纹理图像位置处获得初次虚拟第三彩色纹理图像并优化,得到最终插值出的虚拟第三彩色纹理图;迭代,指数级插值出任意数量的虚拟视图。本发明轻量级且高效,能够利用很少的计算资源实时插值出高质量的虚拟中间视角视图,能够方便地被部署在边缘服务器端或者客户端,对自由视角视频系统十分友好。

著录项

  • 公开/公告号CN114897681A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN202210419565.8

  • 发明设计人 宋利;胡经川;解蓉;张文军;

    申请日2022-04-20

  • 分类号G06T3/40(2006.01);H04N9/67(2006.01);H04N21/2343(2011.01);H04N21/4402(2011.01);H04N21/643(2011.01);H04N21/81(2011.01);

  • 代理机构上海恒慧知识产权代理事务所(特殊普通合伙) 31317;上海恒慧知识产权代理事务所(特殊普通合伙) 31317;

  • 代理人徐红银;张琳

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-06-19 16:20:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06T 3/40 专利申请号:2022104195658 申请日:20220420

    实质审查的生效

说明书

技术领域

本发明涉及沉浸式媒体即自由视角视频系统领域,特别涉及一种基于实时虚拟视角插值的多用户自由视角视频方法及系统。

背景技术

自由视角技术作为可交互的沉浸式媒体内容的代表,允许观众根据自身的需要,通过交互来选择任意方向和视点观看视觉场景,而不受用于拍摄的摄像机位置的限制。自由视角技术“由外而内”的交互形式相较于“由内而外”的VR技术,带给用户的立体体验更强,交互也更为直接。自由视角视频是一种新型的具有强交互特性的沉浸式媒体形式,其吸引力超越了云游戏、远程虚拟现实等典型应用场景,有望彻底改变消费视觉内容的方式。

一般来说,自由视角系统包括多视角采集系统、自由视角内容生产以及编码传输和客户端等四个部分。其中多视角采集系统旨在为自由视角系统提供多角度和多方位的视频源信息,然而由于硬件成本和数据量的限制,采集系统只能受限于稀疏的有限数量的摄像机拍摄,虚拟视角合成技术旨在从有限的视角信息获取到其他未经采集到的视点信息。DIBR(Depth Image-Based Rendering)方法是自由视角系统中最常用的视图合成方法。然而,由于三维图像扭曲中引入了遮挡和黑洞,合成结果往往不令人满意,此外,准确深度图的获取也面临很大挑战。

自由视角系统一般可分为中心式和分布式两种模型。

在中心式模型中,不同用户所需的视点在服务器端合成。现有的一些实时视角合成方法需要足够的计算资源,因此一台服务器只能服务于有限数量的用户终端。随着接入用户数量的增加,服务器的数量也需要相应增加。该模型在难以应对高并发性场景,并且在交互过程中会导致额外的响应延迟。

分布式模型能够同时为多个用户提供服务,因为它在客户端执行视图合成过程。然而,视图合成所需的Multiview-VideoPlus-Depth(MVD)表示需要传输给用户,这可能导致高传输带宽。此外,视图合成方法需要大量的处理能力,这对一些低端用户终端来说是不友好的。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于实时虚拟视角插值的多用户自由视角视频方法及系统。

根据本发明的一个方面,提供一种实时虚拟视角插值方法,其特征在于,包括:

S1获取第一彩色纹理图像和第二彩色纹理图像到在空间上需要插值的视角位置的虚拟第三彩色纹理图像之间的双向光流F

S2基于所述双向光流,所述第一彩色纹理图像和所述第二彩色纹理图像分别扭曲到所述虚拟第三彩色纹理图像位置,并基于所述可见性掩码,在所述虚拟第三彩色纹理图像位置处获得初次虚拟第三彩色纹理图像;

S3对所述初次虚拟第三彩色纹理图像进行优化,得到最终插值出的虚拟第三彩色纹理图;

S4重复迭代S1-S3,指数级插值出任意密集的虚拟视图。

优选地,所述获取第一彩色纹理图像和第二彩色纹理图像到在空间上需要插值的视角位置的虚拟第三彩色纹理图像之间的双向光流,包括:

所述第一彩色纹理图像和所述第二彩色纹理图像作为VINET网络输入,降采样到原始图像的四分之一大小,由第一级VIBlock计算出低分辨率的初始光流和掩码,光流和掩码组成了VIBlock输出的不同通道的张量;

将所述初始光流和掩码采样到原始图像的二分之一大小,由第二级VIBlock估计出此分辨率下的光流和掩码的残差;

将所述第二级残差细化后的光流和掩码采样到原始图像大小,由第三级VIBlock计算出所述双向光流F

优选地,所述基于所述双向光流,将所述第一彩色纹理图像和所述第二彩色纹理图像分别扭曲到所述虚拟第三彩色纹理图像位置,包括:

基于所述光流F

基于所述光流F

优选地,所述基于可见性掩码,在虚拟第三彩色纹理图像位置处获得虚拟第三彩色纹理图像,包括:

两个被扭曲后的彩色纹理图像I

I

优选地,所述对虚拟第三彩色纹理图像优化处理,得到最终插值出的中间虚拟视图,包括:

通过卷积神经网络提取所述第一彩色纹理图像和第二彩色纹理图像的高阶上下文信息;

以所述高阶上下文信息作为参考信息输入子卷积神经网络得到最终虚拟第三彩色纹理图像的残差,用来降低整个算法对所估计光流的敏感程度,将初次得到的虚拟第三彩色纹理图像与该残差相加,细化最终插值的中间虚拟视图的质量。

优选地,重复迭代S1-S6,指数级插值出任意密集的虚拟视图,包括:

由所述第一彩色纹理图像和所述第二彩色纹理图像插值得到所述虚拟第三彩色纹理图像;

由所述第一彩色纹理图像和所述虚拟第三彩色纹理图像插值得到虚拟第四彩色纹理图像;

由所述第二彩色纹理图像和所述虚拟第三彩色纹理图像插值得到虚拟第五彩色纹理图像;

重复迭代,n级迭代指数级插值出2

根据本发明的第二个方面,提供一种面向多用户的基于视角插值的自由视角视频方法,包括:

获取面向同一标定物的多个图像采集器采集的多帧彩色图像;

将所述多帧彩色图像两两组合;

将所述每一个两两组合,采用要求1-7任一项所述的方法实时插值获得虚拟视图;

将所述多帧彩色图像和所述虚拟视图进行自适应拼接,形成在空域上的多视角簇;

将所述多视角簇进行编码,在时域上分割成视频片段并通过HLS协议进行传输;

不同客户端通过交互选择需要观看的视角簇进行下载并进行视点切换。

优选地,所述将多帧彩色图像和虚拟视图进行自适应拼接,形成在空域上的多视角簇,包括:

每个图像采集器周围存在多个插值出来的虚拟视图;

将所述多个虚拟视图与所述图像采集器采集到的彩色纹理图像拼接到一个整体尺寸的彩色纹理图像中,由图像采集器采集到的彩色纹理图像为高分辨率,虚拟视角彩色纹理图像为低分辨率;

每个视角以瓦片形式存在一个多视角簇,这些多视角簇在空域上均匀分布,每个多视角簇之间会有重叠区域从而保证切换的连续性。

对于每个所述图像采集器,其临近位置会插值出虚拟的密集视角,将由图像采集器采集到的彩色纹理图像以高分辨率形式与其临近的低分辨率的多个虚拟视角彩色纹理图像一起拼接到一个大尺寸的彩色纹理图像中,从而每个视角以瓦片形式存在形成一个多视角簇;每个图像采集器周围都有许多插值出来的密集虚拟视角,从而每个图像采集器都会有一个对应的多视角簇,这些多视角簇在空域上均匀分布,每个多视角簇之间会有重叠区域从而保证切换的连续性。

优选地,将所述多视角簇进行编码进行时域上分割成视频片段,通过HLS协议进行传输,包括:

对于每一个所述多视角簇,编码后按时间顺序进行时域切片;

每个所述切片分割成固定时间大小,形成多个时域-空域联合分布的视频片段;

所述视频片段用传输协议进行传输,基于segment的传输协议都适用,比如DASH、HLS。

优选地,所述所述不同客户端通过交互选择需要观看的视角簇进行下载并进行视点切换包括:

每个用户通过交互选择需要观看的视角,根据全局视角索引(视角索引中包含了不同视角在多视角簇中的位置信息,可以通过这个索引找到对应的视角瓦片),下载相应的视角簇片段,用户在一个视频切片时间内在视角簇的多个视角进行切换;

一个视频切片时间之后,用户选择其他视角簇进行下载。

根据本发明的第三个方面,提供一种面向多用户的基于视角插值的自由视角视频系统,包括:

采集模块,用于采集面向同一标定物的多个图像采集器采集的多帧彩色纹理图像,各图像采集器采集的帧图像是准同步的;

云端处理和内容分发网络模块,用于对由多个图像采集器采集的多帧彩色纹理图像进行云端处理并由内容分发网络分发给边缘服务器;

边缘服务器模块,基于采集的帧图像利用神经网络实时插值出密集的虚拟视图并将采集的帧图像和插值的帧图像进行自适应拼接形成在空域上均匀分布的多视角簇,然后将多视角簇进行编码并在时域上分割成视频片段,通过HLS协议进行传输;

客户端模块,用于使用户通过交互选择需要观看的视角簇进行下载并进行视点切换。

优选地,所述边缘服务器模块包括:

视角插值单元,所述视角插值单元基于采集的帧图像利用神经网络实时插值出密集的虚拟视图;

自适应视角拼接单元,所述自适应视角拼接单元将采集的帧图像和插值的帧图像进行自适应拼接形成在空域上均匀分布的多视角簇;

编码单元,所述编码单元用于将多视角簇帧进行编码压缩,降低数据量;

HLS传输单元,所述HLS传输单元将编码后的多视角簇在时域上分割成视频片段,通过HLS协议进行传输。

优选地,用户交互和显示单元,所述用户交互和显示单元为用户提供观看和交互界面,用户可以通过按键或滑动屏幕生成交互信令,通过信令选择的视角图像会渲染在显示器上;

视频切片下载单元,所述视频切片下载单元会根据交互信令,选择边缘服务器提供的包含相应视角的多视角簇视频切片进行下载;

视频切片解码单元,所述视频切片解码单元将下载的视频切片解码为原始YUV格式文件;

视角提取单元,所述视角提取单元从多视角簇中提取出需要观看的视角图像瓦片。

与现有技术相比,本发明具有如下的有益效果:

本发明提供的实施例一种实时虚拟视角插值方法,在获取了面向同一标定物的多个图像采集器采集的多帧图像后,基于采集的帧图像利用所述实时虚拟视角插值方法实时插值出密集的虚拟视图,该方法轻量级且高效,能够利用很少的计算资源实时插值出高质量的虚拟中间视角视图,该方法能够很方便地被部署在边缘服务器端或者客户端,对自由视角视频系统十分友好。

本发明提供的实施例一种面向多用户的自由视角视频方法将所述实时虚拟视角插值方法应用于自由视角视频应用,基于此方法搭建的系统解耦了接入用户数量与边缘服务器负载,使得单个边缘服务器能为多个用户提供个性化自由视角视频服务。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明实施例的实时虚拟视角插值方法的流程示意图;

图2为本发明实施例的实时虚拟视角插值方法的架构示意图;

图3为本发明实施例的RefineNet的算法结构示意图;

图4为本发明实施例的面向多用户的基于视角插值的自由视角视频方法流程示意图;

图5为本发明实施例的相机排列示意图;

图6为本发明实施例的所视角簇组织方式示意图;

图7为本发明实施例的时-空视频切片方法示意图;

图8为本发明实施例的自由视角视频系统客户端交互逻辑示意图;

图9为本发明实施例的自由视角视频系统的组成模块和架构示意图;

图10为本发明实施例的实时虚拟视角插值方法输出的效果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

基于现有技术的缺陷,一个能够实时合成虚拟视点视图的轻量级、易部署的视点合成方法是被自由视角系统所需要的,此外,能够同时为多个用户提供服务的实时自由视角系统,并且部署成本低,也是目前亟待解决的一个重大挑战。

基于上述构思,本发明提供一实施例中的实时虚拟视角插值方法,图1为该方法的流程示意图,图2为该方法的架构图。一种实时虚拟视角插值方法,包括;

S100:对于空间上相邻的左右视图,利用VINet同时计算出到中间虚拟视角的像素偏移即光流和可见性掩码矩阵;

S200:基于双向光流,将左视角视图和右视角视图分别扭曲到虚拟中间视角视图位置;

S300:以所述可见性掩码作为权重进行加权求和计算各个像素点的像素值得到粗糙的所述虚拟中间视角视图;

S400:通过一个基于上下文信息的子卷积神经网络RefineNet进一步细化得到最终插值出的中间虚拟视图;

S500:迭代使用S100-S400,可以指数级插值出任意密集的虚拟视图。

本发明提供一个优选实施例执行S100。空间上相邻的两个图像采集器开始相机、摄像机等,两个图像采集器之间的基线不宜过大,将两个图像采集器分别称为第一图像采集器和第二图像采集器。第一图像采集器采集的第一彩色纹理图像为左视角视图,第二图像采集器采集的第二彩色纹理图像为右视角视图,第一彩色纹理图像和第一彩色纹理图像是同步采集的。本实施例中,两个图像采集器为工业摄像机,基线距离为40cm,左视角视图和右视角视图均为RGB格式。

对于空间上相邻的两个图像采集器,利用设计的基于卷积神经网络的算法VINet同时计算出第一图像采集器采集的第一彩色纹理图像和第二图像采集器采集的第二彩色纹理图像到在空间上需要插值的视角位置的虚拟第三彩色纹理图像之间的双向逐像素偏移,以两个二维向量矩阵图即光流F

S101,将左、右视角视图被降采样到原始图像的四分之一大小,由第一级VIBlock计算出低分辨率的粗糙初始光流和掩码;

S102,将第一级的结果(粗糙初始光流和掩码)升采样到原始图像的二分之一大小,由第二级VIBlock估计出此分辨率下(原始图像的二分之一大小)的光流和掩码的残差;

S103,由第二级残差细化后的光流和掩码进一步升采样到原始图像大小,由第三级VIBlock进一步计算光流和掩码的残差,从而获得F

其中,可见性掩码矩阵是和光流一起输出的,光流是一个两通道的张量,可见行掩码矩阵是单通道的张量,所以两个光流加掩码矩阵会形成一个5通道的张量(2+2+1),这个由网络一起输出。

本实施例的S101-S104整个过程是由数据驱动,虚拟第三彩色纹理图像位置默认为两个图像采集器中间位置,即最终插值结果为两个摄像机的中间视角。一方面是因为训练数据集容易获得,另一方面是可以保证方法的效率(不用计算与视角位置相关的参数,保证网络的实时性。

本发明提供一个实施例执行S200,将第一彩色纹理图像和所述第二彩色纹理图像分别扭曲到所述虚拟第三彩色纹理图像位置,也即基于双向光流,将左视角视图和右视角视图分别扭曲到中间视角位置,分别得到由左视角扭曲到中间视角的图片I

光流可以用来描述左、右视图图像到中间虚拟视角图像的像素偏移,以二维向量表示,分别表示图像矩阵中水平方向和垂直方向的偏移量。扭曲过程是左右视角视图与该像素偏移相加的过程,具体地,左视图到中间虚拟视图会有一个整体偏右的像素偏移,扭曲过程相当于把左视图往中间虚拟视角视图右移了一个偏移量,从而描述中间虚拟视角观看到的视图。这个用于描述偏移量的矩阵即光流是由本发明的卷积神经网络方法估计而得,

公式为:

同样的,右视图都中间虚拟视图会有一个整体向左的像素偏移,扭曲过程相当于把右视图往中间虚拟视角视图左移了一个偏移,从而描述中间虚拟视角观看到的视图。

公式为:

本发明提供一个实施例执行S300。两张被扭曲的图片I

可见性掩码矩阵M描述了应该如何融合两张扭曲视图的信息,以可见性掩码作为权重进行加权求和。举例来说,左视图的最左边区域在中间视图中应该是不可见的,扭曲之后,左扭曲视图最左边区域应该是无效信息,此时M=0,整个可见性掩码矩阵M是通过卷积神经网络(在实施例S100中获得可见性掩码矩阵M)学习出来的。具体的,用于描述融合过程的公式如下:

I

其中⊙运算为逐元素相乘,I

经过融合得到的中间视角视图I

本实施例中,原始左右视图中丰富的上下文信息即高阶特征信息被证明可以对修复这种伪影产生效果,所以通过一个基于上下文信息的子卷积神经网络RefineNet来计算插值出的中间虚拟视图的残差,来进一步细化插值结果的质量。

图3描述了本实施例中RefineNet的方法结构,具体地,包括:

S401,首先上下文提取单元提取左右视图中不同尺度下的高阶上下文特征信息;

S402,RefineNet从粗糙的虚拟中间视图中提取不同尺度下的高阶特征,并与相同尺度下的上下文信息进行融合。进一步的,整个RefineNet为金字塔结构,中间层使用跳跃连接进行了联系,以残差估计的形式来获取最终细化中间虚拟视图的残差,粗糙虚拟中间视图最终会与此残差进行加和。

在本发明的一个实施例中执行S500,迭代使用S100-S400,可以指数级插值出任意密集的虚拟视图。

本实施例中,首先基于左右视角可以插值出中间视角,迭代地进行插值,基于左视角和插值出的中间视角又可以插值出1/4位置处的虚拟视角,基于插值出的中间视角和右视角又可以插值出3/4位置处的虚拟视角。

如此迭代,n级迭代指数级插值出2

图2描述了本发明实施例的实时虚拟视角插值方法的完整架构图,具体地,其中三个VIBlock具有相同的结构,但输入通道不同。整个算法轻量且高效,可以实时运行,插值出一个720p分辨率的中间虚拟视角只需要12ms。

基于相同的发明构思,本发明还提供一种面向多用户的基于视角插值的自由视角视频方法,该方法流程如图4所示,包括:

S10:采集面向同一标定物的多个图像采集器采集的多帧彩色图像,各图像采集器采集的帧图像是准同步的;

S20:基于采集的帧图像利用神经网络实时插值出密集的虚拟视图;

S30:将采集的帧图像和插值的帧图像进行自适应拼接形成在空域上均匀分布的多视角簇;

S40:将多视角簇进行编码并在时域上分割成视频片段,通过HLS协议进行传输;

S50:不同客户端通过交互选择需要观看的视角簇进行下载并进行视点切换。

在本发明的一个实施例中执行S10,其中图像采集器为工业摄像机,支持以4K/120FPS拍摄场景。具体地,多个图像采集器共有12台,并按照一个固定圆弧排列,视场角度为70度左右,如图5所示的12架相机对其中的场景进行拍摄(图5中每个方块代表一架相机)。12架相机准同步采集到的图像信息分别传送至云端进行处理。

在本发明的另一个实施例中执行S20,基于采集的帧图像利用神经网络实时插值出密集的虚拟视图。12路相机采集的视频经过云端处理,包括编码压缩等,再由内容分发网络CDN进行分发到边缘媒体服务器。边缘媒体服务器部署了实时虚拟视角插值神经网络,其将接收到的12路视频邻近的两路两两组合,共组合出11对左右视角,然后通过实时虚拟视角插值方法插值出密集的虚拟视角。具体地,本实施例中,共迭代三级虚拟视角插值网络,最终12路视角共插值出89个视角,这个密度的视角分布对于用户的视场大小已经足够密集,用户切换起来也十分流畅。

如何组织如此多的视角,使得能够以一种合理的方式应对多用户场景是需要重点考虑的问题,针对该问题,本发明提供一个优选实施例执行S30,将采集的帧图像和插值的帧图像进行自适应拼接形成在空域上均匀分布的多视角簇。将多个视角以不同的分辨率自适应拼接在一张大图中,具体地,插值出的虚拟视角为低分辨率,原始由相机拍摄的真实视角为高分辨率,以瓦片的形式拼接到一张大图中形成一个多视角簇。每个摄像机周围都有许多虚拟的插值视角,所以经过自适应拼接,同一时刻共有12个在空间上均匀分布的且覆盖了所有89个视角的多视角簇。视角簇帧如图6所示,值得注意的是,一个视角簇中所含视角数量和分辨率大小是自适应的,会因插值出的虚拟视角数量自适应调整,且每个多视角簇之间会有重叠区域,即会有一些相同的虚拟视角,保证在不同的多视角簇之间切换的连续性。

为了应对多用户场景,本发明提供一个优选实施例执行S40,将多视角簇进行编码并在时域上分割成视频片段,通过HLS协议进行传输。本实施例中,采用一种时空分割方法来应对多用户场景。将多个多视角簇的流划分为一系列时域和空域的视频切片,如图7所示。具体地说,12个自适应组织的多视角簇形成空域上的片段,然后按照时间顺序对每个片段进行分割。本实施例采用边缘媒体服务器充当媒体资源存储库,其中服务器负载与客户端数量无关,客户端的操作会另作说明。至于内容传输,HTTP Adaptive Streaming传输协议将视频内容分成一个个拥有相同时长的视频切片进行传输,每个视频片段的帧数为编码GOP Size的整数倍,且第一帧为全帧内参考帧(I帧),从而每个视频片段可以独立解码。HLS协议是其中的一种,十分适合时-空视频切片的传输。

在本发明的另一个实施例中执行S50,不同客户端通过交互选择需要观看的视角簇进行下载并进行视点切换。本实施例中,客户端交互流程如图8所示,当用户以交互方式请求相应的视点时,将执行从全局查找表(与前面所述的全局视角索引相对应,包含了不同视角在多视角簇中的位置信息,可以通过这个查找表找到对应的视角瓦片)中查找相应视图索引的操作。如果所需视点在当前多视角簇中,则视角提取单元提取相应视角瓦片比特流,并通过视频切片解码单元对其进行解码,如果不在当前多视角簇中,则切换会暂时被限制在边界处,但在一段很短的时间后,就可以下载所需视角所在的多视角簇视频片段。用户的交互直接决定了下一个被下载的多视角簇视频片段,即离所需观看视角最近的多视角簇。视频片段解码单元负责解码所提取的比特流为YUV格式,然后由基于OpenGL的视频播放器播放。

基于相同的发明提供,本发明还提供一种面向多用户的基于视角插值的自由视角视频系统,包括:

采集模块,用于采集面向同一标定物的多个图像采集器采集的多帧彩色纹理图像,各图像采集器采集的帧图像是准同步的;

云端处理和内容分发网络模块,用于对由多个图像采集器采集的多帧彩色纹理图像进行云端处理并由内容分发网络分发给边缘服务器;

边缘服务器模块,基于采集的帧图像利用神经网络实时插值出密集的虚拟视图并将采集的帧图像和插值的帧图像进行自适应拼接形成在空域上均匀分布的多视角簇,然后将多视角簇进行编码并在时域上分割成视频片段,通过HLS协议进行传输;

客户端模块,用于使用户通过交互选择需要观看的视角簇进行下载并进行视点切换。

图9为整个系统的组成模块和架构图,系统主要由采集服务器模块、云端处理和内容分发网络模块、边缘服务器模块和客户端模块组成。每个模块的作用可以参见上述的面向多用户的基于视角插值的自由视角视频方法的实施,此处不再赘述。实际应用中,在搭建本实施例的面向多用户的基于视角插值的自由视角视频系统时,可以采用流水线管道的设计模式,利用先进先出的队列数据结构实现数据传输和线程分离,使得系统中各单元高度并行执行,从而系统整体延迟瓶颈只受限于耗时最长的模块,从而取得较好的实时性能,另外还可以通过异构计算,包括CPU和GPU等来大幅提升整个系统的性能。

表一是本发明实施例的实时虚拟视角插值方法的性能测试结果表,包括虚拟视图合成质量以及算法运行速度以及与一些现有最为先进方法的对比。如表一所示,本发明实施例的实时虚拟视角插值方法在三种不同的场景下进行测试,即场景1、场景2和场景3,三个场景的区别在于相机摆放的间距不一样,即相机间的基线不一样。因为要估计左右视角视图到虚拟中间视角视图的像素偏移,左右相机间距越大,网络所要计算的像素偏移也越大,这其实对于网络来说更难处理,所以效果也就会稍差一点。

质量评价标准为常用的峰值信噪比(PSNR),其值越大,图像失真越少;结构相似性指数(SSIM),用于量化两幅图像间的结构相似性的指标,其值越大,相似性越高;学习感知图像块相似度(LPIPS),它比前面两种更符合人类的感知情况,值越低表示两张图像越相似。本发明的方法分为加了RefineNet的版本和没有加RefineNet的版本,分别与如今最为先进的几种方法进行对比,分别为COLMAP+VSS、LLFF和Deep3DMask,对比结果如表一所示,可以看出,本发明的方法在三种评价指标上表现都十分优异。值得一提的是,本发明的方法在运行速度上也表现很好,合成一张分辨率为720p的图像只需要6.27ms和12.85ms,完全能够胜任实时自由视角视频应用场景。

表一虚拟视角插值方法的性能测试结果表

图10为本发明实施例的实时虚拟视角插值方法输出的效果图。图10中分别给出了本发明的方法和对比方法最终输出的效果图。从图10中可以看出,本实施例的实时虚拟视角插值方法在虚拟视角合成质量上,表现很好。

表二自由视角视频系统的性能测试结果表

表二是本发明实施例的面向多用户的基于视角插值的自由视角视频系统流水线的性能测试结果表,对自由视角视频系统的各个单元的延迟和1000帧的平均延迟进行了测试,如表二所示,本发明实施例的面向多用户的基于视角插值的自由视角视频系统取得了很好的实时性能。需要说明的是,本实施例的客户端禁用了PC端和手机端两个客户端进行测试,但本发明的系统可以支持理论上任意数量的客户端进行接入。

本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号