首页> 中国专利> 利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置

利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置

摘要

本发明提出一种利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置。在服务器端将全景视频进行处理,包括时间上的切片和空间上的分块和转码操作;在客户端自适应地选取合适的视频片段进行请求。自适应传输过程包含两方面:视点自适应不断根据用户观看方位传输对应的视频内容,对视点进行预测;码率自适应不断调节视频总体的码率,以适应当前网络带宽的变化。为了合理实施两个自适应过程,本发明提出了一种全新的利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置,不仅可以保证用户观看区域的视频质量,减少视点预测错误造成的黑窗,也可以保证视频在空间上的稳定性,减少了视频质量的抖动。

著录项

  • 公开/公告号CN108833880A

    专利类型发明专利

  • 公开/公告日2018-11-16

    原文格式PDF

  • 申请/专利权人 北京大学;

    申请/专利号CN201810385552.7

  • 发明设计人 张行功;班怡璇;谢澜;郭宗明;

    申请日2018-04-26

  • 分类号H04N13/122(20180101);H04N13/366(20180101);H04N21/44(20110101);H04N21/4402(20110101);H04N21/442(20110101);H04N21/845(20110101);

  • 代理机构11200 北京君尚知识产权代理事务所(普通合伙);

  • 代理人邱晓锋

  • 地址 100871 北京市海淀区颐和园路5号北京大学

  • 入库时间 2023-06-19 07:18:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-22

    授权

    授权

  • 2019-02-22

    实质审查的生效 IPC(主分类):H04N13/122 申请日:20180426

    实质审查的生效

  • 2018-11-16

    公开

    公开

说明书

技术领域

本发明涉及多媒体传输领域,尤指虚拟现实视频,具体涉及一种利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置。

背景技术

虚拟现实视频(VR video),也称全景视频或360度视频,以其充分的沉浸性、真实性、制作简单性等特点正受到人们的广泛关注。它通过全景摄像机记录三自由度或六自由度的自然图像,从而提供现有普通视频所不能达到的真实感。

为在网络中传输虚拟现实视频以供观看,传统的视频网站需要将整个全景空间的视频内容进行传输,然而,由于人眼视度和播放设备的限制,用户在观看全景视频时只能看到视窗内的内容,所以这种全传的方式势必会造成带宽的浪费。由于带宽需求的增加,视窗内内容质量也会下降。所以,自适应传输技术势在必行。

HTTP动态流媒体技术可以实现基于视窗的自适应传输。其主要包括视点自适应和码率自适应两项关键技术:

视点自适应技术是指在视窗内传输高质量的视频内容,视窗外传输低质量的视频内容,从而在整体上减少数据传输量。然而,要想实现为保证播放的连续性,传输系统需对用户视点进行预测。现有的预测手段可大体分为两类:1.基于视点的预测。2.基于内容的预测。基于视点的预测是指利用用户过去的观看行为对将来的视点进行预测,其中较为典型的为线性回归等。基于内容的预测是指利用视频内容本身的信息指导用户视点预测,其中较为典型的为显著性预测等等。然而这两种预测手段都有着较大的缺陷。前者的准确性太差,当预测未来两秒的用户视点时,预测精度会低于70%,当间隔进一步增长时,预测精度会显著下降。后者除准确性难以保证外,算法复杂度和成本开销也极为明显。

码率自适应技术是指将原始视频在时间上进行切片并编码为多种码率,并根据当前网络带宽实时调整,实现视频片段的自适应传输,从而减少播放卡顿。两种自适应技术相辅相成,共同提升用户的观看体验。本发明所涉及到的HTTP动态流媒体技术主要是指基于分块的虚拟现实视频自适应传输。也即将视频内容除时间上切片外,还需在空间上进行分块,对于用户覆盖的分块采取高码率传输,用户没有覆盖的分块采取低码率传输或者不传,从而减少带宽浪费。

然而,即便是采用了先进的分块传输模式,若想为用户提供高质量的视频传输服务还面临着很多挑战:1)用户视点预测不准。2)块与块之间边界效应明显。造成这些后果主要有两点原因:1)用户视点的变化。由于在虚拟现实视频中,用户可以在360度空间内随意观看视频内容,所以用户视点的变化自然会影响客户端下载内容的变化,若用户在转头时新的视窗内容没有被及时下载,势必会造成视窗内出现黑块,严重影响用户体验。2)视频内容的变化。由于分块传输模式需要将原始视频进行空间和时间上的划分再进行转码,所以即使所有的视频块都被转码成相同的码率,在拼接的过程中相邻块之间乃至相邻视频片段之间还可能出现明显的质量抖动。比如运动的篮球和相对静止的蓝天,即使都转码成某固定码率,我们可能仍会认为篮球的运动较为模糊,而蓝天较为清晰。这是由于视频中运动的物体总是需要更多信息才能代表,而静止的物体则不然,这一特性就使得基于分块的虚拟现实视频传输面临很大挑战。

发明内容

本发明针对上述问题,提供一种全新的利用跨用户行为模式预测视点并实现虚拟现实视频最优化传输的方法和装置。

本发明采用的技术方案如下:

一种利用跨用户行为模式进行视点预测的方法,包括以下步骤:

1)客户端根据当前用户的历史运动轨迹,利用线性回归模型找出视频分块的预测视点;

2)客户端根据与当前用户最邻近的k个用户的位置,对所述预测视点进行修正,得到视频分块的观看概率。

进一步地,步骤2)包括:

2.1)客户端寻找距离所述预测视点最近的k个用户的位置;

2.2)客户端对k+1个位置覆盖的视频分块大小进行计算,对每个视频分块的覆盖次数进行加权求和,得出投票数,然后对每个视频分块的投票数进行归一化,得出每个视频分块的观看概率。

进一步地,步骤2.2)采用以下公式计算视频块i是否被覆盖的投票次数Vi

其中,wr代表线性回归预测位置的权重,wf代表其他筛选后的K个用户的位置权重,wf=1,δ表示对未来δ秒的视点位置进行预测;Li(Or)代表视频块i是否被视点Or所覆盖,Or表示根据线性回归预测出的用户位置;表示将所有用户与当前用户球面距离进行排序后最小的K个用户的位置信息,其中1≤k≤K。

进一步地,步骤2.2)采用以下公式计算每个视频分块的观看概率pi

一种利用跨用户行为模式进行视点预测的装置,其包括:

线性回归模块,负责根据当前用户的历史运动轨迹,利用线性回归模型找出视频分块的预测视点;

预测视点修正模块,负责根据与当前用户最邻近的k个用户的位置,对所述预测视点进行修正,得到视频分块的观看概率。

一种实现虚拟现实视频最优化传输的方法,包括以下步骤:

1)服务器端将原始虚拟现实视频进行划分和转码操作并计算对应失真,然后保存所有视频分块及失真信息;

2)客户端采用上面所述方法对视频分块进行视点预测,并根据最优化传输模型从所述服务器获取视频片段进行播放;所述最优化传输模型在最小化视频失真的同时最小化空间上视频质量的波动。

进一步地,所述最优化传输模型为:

其中,Φ(X)代表视频的期望失真;Ψ(X)代表视频空间质量抖动情况;xi,j为第i个分块在第j个码率等级所对应的视频块是否被观看,xi,j=1代表观看,xi,j=0代表不观看,1≤i≤N,1≤j≤M,X={xi,j}代表整体选择结果;ri,j为第i个分块在第j个码率等级所对应的视频块的码率;R为视频片段总码率上限值;η为空间质量抖动情况的权重。

进一步地,所述Φ(X)采用以下公式计算:

其中,si为第i个分块在球面上对应的球面面积;Di,j为第i个分块在第j个码率等级所对应的视频块的球面失真情况,球面失真为视频块平面失真与球面面积的乘积;pi为每个视频分块的观看概率。

进一步地,所述Ψ(X)采用以下公式计算:

其中,Ui代表与编号i的分块相邻的视频分块编号集合,i、u为相邻视频分块。

一种实现虚拟现实视频最优化传输的装置,其包括:

服务器端,负责将原始虚拟现实视频进行划分和转码操作并计算对应失真,然后保存所有视频分块及失真信息;

客户端,负责采用上面所述方法对视频分块进行视点预测,并根据最优化传输模型从所述服务器获取视频片段进行播放;所述最优化传输模型在最小化视频失真的同时最小化空间上视频质量的波动。

本发明提出的利用跨用户行为模式的视点预测方法及虚拟现实视频最优化传输方法和装置,能够在执行视点自适应、码率自适应传输过程的基础上,根据所提出的视点预测模型及最优化传输算法解决用户观看区域质量差,视频分块预测错误,视频空间上质量抖动大的问题。本发明不仅可以保证用户观看区域的视频质量,减少视点预测错误造成的黑窗,并且也可以保证视频在空间上的稳定性,减少了视频质量的抖动。

附图说明

图1为基于分块的虚拟现实视频整体传输框架示意图;

图2为用户视点分布示意图;

图3为k最近邻视点预测过程图;

图4为视频分块观看概率计算图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。

本发明的整体传输框架如图1所示。在服务器端,需对原始全景视频进行处理,主要包括划分和转码两个操作,而划分又分为时间上的切片和空间上的分块。具体地,需先将原始视频在空间上切分成块,接着再将各个分块在时间上切分成多个片段,最后进行转码操作,将视频转码为多个码率。除此以外,还需将转码后的视频与原视频进行对比,计算出视频块对应的质量失真等信息,与处理后的视频块共同存储在HTTP服务器中。在客户端,需要对网络中的用户同时执行视点自适应和码率自适应两个操作,计算出应当选择的视频片段并下载。本发明为了解决背景技术中提到的视点预测问题,提出了一种利用跨用户行为模式的视点预测方法,也即k最近邻预测法。同时,为解决视频传输最优化问题,本发明提出了一种用户质量最优化模型,并将模型转化为一个最优化问题,通过解决此最优化问题来选择视频片段,从而达到最大化视窗内质量,减少分块获取错误数并减少相邻块之间质量抖动的目的。

本发明提出的利用跨用户行为模式的视点预测及虚拟现实视频最优化传输方法具体如下:

首先,需在服务器端对原始虚拟现实视频进行处理。在处理前,需先对虚拟现实视频片段长度,分块个数,分块大小以及码率等级等进行预定义,其中涉及的概念和符号定义如下:

1.视频片段总数:本发明定义L为视频片段总数。

2.视频分块总数:本发明定义N为视频分块总数。

3.视频码率等级总数:本发明定义M为视频码率等级总数。

4.视频块的实际码率:本发明定义ri,j为第i个分块在第j个码率等级所处的实际码率大小,其中,1≤i≤N,1≤j≤M。

5.视频块的质量失真:本发明定义di,j为第i个分块在第j个码率等级所对应的视频块与原始视频对比得到的质量失真,其中,1≤i≤N,1≤j≤M。

经过定义后,即按照以上定义将原始虚拟现实视频进行划分和转码操作并计算对应失真,处理后,所有视频块及失真信息即被保存在HTTP服务器中。

准备工作完成后,分散在网络中的客户端即可根据本发明提出的预测算法对视频块观看概率进行预测,并根据最优化传输策略获取视频片段进行播放,具体细节如下:

为预测用户视点,用户需要对特定时间下每个视频分块的观看概率进行计算。如图2的 (a)、(b)图所示,在每一时刻,用户的视点分布都较为集中(见图2中箭头所示位置)。具体地,视点可能集中在一个或多个簇上。所以,为提升视点预测的准确性,本发明综合考虑了用户自身的行为轨迹信息与跨用户行为信息。也即在根据用户当前移动轨迹进行线性回归的基础上,通过对与当前用户最邻近的K个用户的观看视点对预测视点进行修正。进而,就可以计算出视频分块的观看概率。具体地,如图3所示,客户端需先根据线性回归模型找出预测视点,再寻找出距该点最近的k个用户的观看视点,并利用这k+1个视点对视点进行预测,也就是对每个视频分块进行投票求出观看概率。如图4所示,在掌握了k+1个视点后,客户端需要对每个视点覆盖的视频分块大小进行计算,最后,对每个视频分块的覆盖次数加权求和,得出投票数,最后对每个视频分块的投票数进行归一化,得出每个视频分块的观看概率,至此,视点预测部分就完成了。模型中主要涉及到的概念和变量定义如下:

1.O(α、β、γ)代表用户当前视点,用欧拉角表示。其中,α即偏航角,β即俯仰角,γ即翻滚角。

2.r表示根据线性回归预测出的用户视点。在t0时刻,客户端需对(t0-1,t0]内的历史欧拉角进行线性回归,从而对未来δ秒的视点视点进行预测。假设线性回归结果的斜率为b,那么根据线性回归预测出的用户视点Or可以表示如下:

3.Of表示其他用户的视点。D(Or,Of)表示线性回归预测结果Or与其他用户视点Of的球面距离,计算如下:

D(Or,Of)=arccos(xr·xf+yr·yf+zr·zf)

其中,xr、yr、zr分别为:

xf、yf、zf同理。

4.表示将所有用户与当前用户球面距离进行排序后最小的K个用户的视点信息,其中1≤k≤K。

5.wr代表线性回归预测视点的权重,wf代表其他筛选后的K个用户的视点权重。其中,wf=1,这代表着随着预测时间的延长,线性回归结果的权重越来越小,这与线性回归结果在长时间预测时的准确率显著降低这一特征相符,并且,其他用户视点的权重保持不变,这表示时间越长,视点预测越依赖于跨用户的行为模式。

6.L(O)代表视点O在虚拟现实视频中所覆盖的视频分块区域,如图4所示,Li(O)代表的是视频块i是否被视点O所覆盖,Li(O)=1代表被覆盖,Li(O)=0代表未被覆盖。

7.Vi代表视频块i是否被覆盖的投票次数,也即加权求和结果,如图4所示,1≤i≤N。那么则有:

8.pi代表每个视频块被观看到的概率,1≤i≤N,由于概率的归一化特性,pi就是投票次数Vi的归一化结果,如下:

基于此,每次客户端进行下载时,都需将当前用户的历史运动轨迹进行整合,利用线性回归找出一个预测视点,并寻找本地数据库中在预测时间戳处距离预测视点最近的k个用户的视点,紧接着,客户端需要对以上k+1个视点覆盖的分块求加权平均,最终归一化计算出每一个分块可能被看到的概率。

对于用户而言,若想视频质量达到最优需要保证以下两点:1)视窗内质量最高,也即视频失真最小。2)同一片段下,相邻的视频分块间边界效应最小,即空间质量变化最小。据此,可以建立最优化模型,达到以上两个指标的最优化,从而最大化用户观看质量。为了进行合理的计算,模型中涉及到的变量定义如下:

1.xi,j代表视频块是否被观看:本发明定义xi,j为第i个分块在第j个码率等级所对应的视频块是否被观看,xi,j=1代表观看,xi,j=0代表不观看,其中,1≤i≤N,1≤j≤m,>i,j}代表整体选择结果。

2.ri,j代表视频块的码率:本发明定义ri,j为第i个分块在第j个码率等级所对应的视频块的码率,共计M种码率可选,其中,1≤i≤N,1≤j≤M。

3.di,j代表视频块的失真:本发明定义di,j为第i个分块在第j个码率等级所对应的视频块与原始视频对比出的失真情况,其中,1≤i≤N,1≤j≤M。

4.si代表视频块对应的球面面积:本发明定义si为第i个分块在球面上对应的球面面积,其中1≤i≤N。

5.Di,j代表视频块的球面失真情况:本发明定义Di,j为第i个分块在第j个码率等级所对应的视频块的球面失真情况,球面失真为视频块平面失真与球面面积的乘积,其中,>

Di,j=di,j·si

6.Φ(X)代表视频的期望失真:本发明定义Φ(X)为视频的整体失真情况,根据以上论述,期望失真具体定义如下:

7.Ui代表与编号i的分块相邻的视频分块编号集合。

8.Ψ(X)代表视频空间质量抖动情况:为描述视频空间质量抖动情况,需计算相邻视频分块i、u间的质量差异,具体定义如下:

9.R代表视频片段总码率上限:本发明定义R为视频片段总码率上限值,它由码率自适应算法根据当前网络带宽得出,代表着当前可供用户下载的带宽值。

10.η代表优化目标权重:本发明定义η为空间质量抖动情况的权重。

11.最优化模型:基于上述定义,本发明定义最优化模型如下。此模型代表着装置在最小化视频失真的同时最小化空间上视频质量的波动。限制条件分别代表用户选择的视频片段总码率不能超过当前可供下载的码率值以及单个分块只能以一种码率被下载。

经过以上定义后,用户每次观看视频时,都可以采用本装置对最优化模型进行计算,从而得到下一时刻需要下载的视频块信息,通过HTTP请求获取存储在服务器端的视频内容进行观看。每次下载结束后,装置再启动新一轮计算,直至用户观看完毕。本发明提出的最优化模型不仅提升了用户视窗内视频的质量,还大大减少了时间、空间维度上视频质量的不一致性,极大的提升了用户的体验。

本发明提出的利用跨用户行为模式的视点预测装置及虚拟现实视频最优化传输装置,主要包括服务器端和客户端:

1)服务器端,对全景视频进行划分和转码处理,并将处理过的视频内容及失真信息等保存在服务器端用于请求。

2)客户端,根据本发明提出的视点预测方法及虚拟现实视频最优化传输方法决定用户需要获取的视频片段,发起HTTP请求并下载。

经过实验证明,本发明采用的视点预测方法,可以在现有的线性回归方法上提供20.2%的绝对提升以及48.1%的相对提升。并且,本发明采用的质量最优化方法可以提升30.3%的视频质量并减少29.9%的质量抖动。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号