公开/公告号CN1510923A
专利类型发明专利
公开/公告日2004-07-07
原文格式PDF
申请/专利权人 中国科学院计算技术研究所;
申请/专利号CN02157889.3
申请日2002-12-20
分类号H04N7/24;H04N5/14;
代理机构11021 中科专利商标代理有限责任公司;
代理人戎志敏
地址 100080 北京市中关村科学院南路6号
入库时间 2023-12-17 15:26:25
法律状态公告日
法律状态信息
法律状态
2009-12-30
专利实施许可合同的备案 合同备案号:2009440000979 让与人:中国科学院计算技术研究所 受让人:东莞三泰电器有限公司 发明名称:引入视觉模型的MPEG视频码流码率转换方法 授权公告日:20050914 许可种类:独占许可 备案日期:2009.7.30 合同履行期限:2008.5.10至2014.5.10合同变更 申请日:20021220
专利实施许可合同的备案
2005-09-14
授权
授权
2004-09-15
实质审查的生效
实质审查的生效
2004-07-07
公开
公开
技术领域
本发明涉及MPEG视频码流码率转换方法。
背景技术
随着视频压缩技术和网络技术的发展,各种网络多媒体服务,如多点视频会议、视频点播、数字电视等,不断出现。为了支持各种服务,视频服务器必须适应客户端与传输信道的异质性,从而要求其具有视频码流转换的功能。码流转换包括语法转换、(空间和时间)分辨率转换、码率转换等。本发明针对码率转换,即把已有的视频码流根据传输信道的实际带宽限制转换为与之相适应的更低码率的码流。
目前视频码流转换有许多方法,可以概括为三类体系结构:(1)级联像素域转换;(2)快速级联像素域转换;(3)DCT(离散余弦变换)域转换。级联像素域转换需要经过完全解码,再重新编码的过程,计算量大,转换速度很慢。DCT域转换直接在DCT域上进行,无需DCT/IDCT过程,计算量很小,但是它的灵活性受到限制,当要求改变运动矢量时很难实现,不易实现扩展。快速级联像素域转换是级联像素域转换的简化版,由于不需要进行运动估计,因此转换速度明显高于级联像素域转换;但有由于要进行DCT/IDCT过程,因此转换速度要低于DCT域转换。
目前已有视频码流转换没有很好地利用人类视觉系统(HVS)特性,导致所转换成的低码率码流不能很好地与HVS特性一致,主观质量较差,转换效率低。
发明内容
本发明的目的是提供一种与HVS特性一致的快速MPEG视频码流码率转换方法,在异质网络环境中传递主观质量更好的视频码流。
为了实现上述目的,一种引入视觉模型的MPEG视频码流码率转换方法,包括步骤:
对输入的码流进行部分解码;
DCT系数截断,去除高于截止频率的系数;
码率控制,重新确定各宏块的量化因子;
再编码。
本发明在转换中巧妙地利用了Fovea视觉模型,有效地提高转换效率,产生主观质量相对更好低码率码流,并进一步减少了计算量。
附图说明
图1是本发明的结构示意图;
图2是8×8 DCT系数块的多分辨率频带表示。
具体实施方式
为了更好地理解本发明,首先对Fovea视觉模型给予说明。根据对HVS研究表明:人眼对于视觉信息的采样是非均匀的。一般情况下,人眼观看一幅图像时有一个注视点,可称为Fovea点,在该点处人眼具有最高感知清晰度。以该点为中心,向周围延伸人眼感知清晰度快速下降。依据这样的特性,人们给出可应用于视频图像编码的Fovea视觉模型:给定Fovea点,对于图像中的任意一点(x,y),它的截止频率(人眼的最大可感知频率)fc(x,y)由下面的公式确定:
d=(x-xf)2+(y-yf)2
B[i,V]=min{r2:[fc(r,V)×8]=i,r∈Z+}
其中,(xf,yf)代表图像中Fovea点坐标,V代表视点到图像的距离,模型参数k=13.75,R代表以Fovea点为中心的圆形区域的半径,对该区域给予最高感知清晰度(即fc=1.0)的编码。在图像中频率高于截止频率fc(x,y)的信息不能被人眼感知。
把一帧图像分为8个区域,每个区域中具有相同的截止频率,不同的区域截止频率不同,截止频率取值范围是:
图1给出了本发明的结构示意图,图中缩写的意思是:VLD-变字长解码、VLC-变字长编码、DCT-离散余弦变换、IDCT-反离散余弦变换、Q-量化、IQ-反量化、MV-运动矢量、MC-运动补偿、FM-帧存储。鉴于快速级联像素域转换的体系结构具有计算量较小,结构灵活,便于扩展的优点,本发明基于该结构,并依据Fovea视觉模型进行了相应的改进。本发明主要由以下几个部分构成:
●部分解码
对输入的码率为R1的MPEG视频流进行变字长解码(VLC),之后根据码流中的量化因子信息进行反量化(IQ1),得到每个8×8块DCT系数。
●DCT系数截断
依据Fovea视觉模型,在8×8 DCT块内高于截止频率的系数不能被人主观视觉感知,如果将其去除,不会影响主观视觉质量,可以有效地提高转换效率。DCT系数截断模块就是为实现这一目的而加入的。
可以近似认为一个8×8块具有唯一截止频率,一般取8×8块的中心点为代表,由它的坐标计算该块的截止频率fc。一个8×8的DCT系数块可分成8个频带,构成多分辨率表示,如图2所示。对于任意一频带m,它的频率f(m)为:
●码率控制
要把MPEG视频码流的码率由R1降为R2,就要运用码率控制模块重新确定各宏块的量化因子,根据量化因子对DCT系数重新量化。本发明依据Fovea视觉模型对原有的MPEG TM5码率控制方法进行改进,构成新的基于Fovea视觉模型的码率控制方法,其主要步骤如下:
(1)图像帧级目标编码比特数分配
具体方法与TM5方法相同,不再详细阐述。
(2)宏块级目标编码比特数分配
假设一帧图像的编码比特数为R,在此图像中共有M个宏块,每个宏块中有N个8×8块。原有的TM5方法对每个宏块平均分配目标编码比特数,即对于任一个宏块k,它被分配的目标编码比特数为
其中
(3)码率控制
根据虚拟缓冲区(VBV)的满度,确定各宏块的参考量化因子Qi。此处采用的方法与TM5相同,不再详细阐述。
(4)自适应量化
在TM5方法中,根据宏块的空间活动性来自适应确定它的最终量化因子,而宏块的空间活动性是该宏块内所有8×8块空间活动性的最小值,其中8×8块空间活动性是由块内的信息变化率V来确定,即:
其中pi表示块内第i个像素的亮度值。在压缩域上这样的信息无法得到,为此本发明提出了DCT块空间活动性V DCT的计算方法:
其中,此DCT块内低于此块截止频率的所有交流系数的个数为N,Fi表示这N个系数中的一个的值。
根据宏块内所有8×8DCT块空间活动性宏块的空间活动性,确定该宏块的空间活动性(经规范化后)NVi,那么该宏块的最终量化因子mqi为:
mqi=Qi×NVi
●再编码
根据各宏块的最终量化因子mqi对该宏块内的所有DCT块的系数进行再量化(Q2),之后再进行变字长编码(VLC),生成码率为R2的MPEG视频码流。
●误差漂移补偿
以上过程即可以实现MPEG视频码流转换。然而由于对DCT系数的再量化(Q2)会引起编码端和解码端的参考图像的不匹配,导致误差漂移,影响转换后所生成的码流的图像质量。为此需要误差漂移补偿模块来避免误差漂移。
把再量化前的DCT系数与再量化后的DCT系数的差值进行IDCT变换,得到像素域系数,送入帧存储器中。然后根据部分解码所得到的运动矢量(MV)信息,在像素域进行运动补偿(MC),并将所得的预测值利用DCT变换转换成DCT系数,反馈回去与原有的预测帧的残差DCT系数相加,从而实现误差漂移补偿。
由于要进行IDCT及DCT变换,因此与DCT域转换相比,运算量较大。但是根据Fovea视觉模型,对一部分DCT系数可以不予计算,据此本发明提出了DCT/IDCT快速计算方法,显著减小DCT/IDCT计算量。原有的DCT及IDCT计算公式分别为:
设一个8×8块的截止频率为
u≤t且v≤t否则
最后,需要指出在本发明中,Fovea点的选择可以由用户通过鼠标用交互的方式实现。
机译: 基于视频压缩码流的运动分析方法,码流转换方法及其装置
机译: 基于视频压缩码流的运动分析方法和码流转换方法及其装置
机译: 基于视频压缩码流的运动分析方法,码流转换方法及其装置