首页> 中国专利> 像素域视频转码中确定运动特征和高效编码模式关系的方法

像素域视频转码中确定运动特征和高效编码模式关系的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种像素域视频转码中确定运动特征和高效编码模式关系的方法。首先选择特定分辨率下具有典型运动特征的视频序列和对转码质量提升有重要影响的编码模式，逐视频帧分析典型视频序列的运动向量幅值直方图，逐视频帧遍历各种编码模式组合并记录转码的视频质量，进而通过逐步回归法选择最有效的编码模式，然后对编码模式进行聚类和精简，最后构造以运动向量幅值直方图来表征的运动特征和高效编码模式之间的对应关系模型。本发明给出的方法使运动特征和高效编码模式之间原先难以确定的关系转换为分类器构建问题得以解决。在像素域转码过程中利用本发明确定的运动特征和高效编码模式的关系可提高转码性能。

著录项

公开/公告号CN101583036A

专利类型发明专利
公开/公告日2009-11-18

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN200910100072.2
发明设计人邢卫;魏平;
展开▼

申请日2009-06-22
分类号H04N7/26(20060101);H04N7/50(20060101);G06T7/00(20060101);
代理机构33200 杭州求是专利事务所有限公司;
代理人张法高
地址 310027 浙江省杭州市浙大路38号
入库时间 2023-12-17 23:01:37

法律信息

法律状态公告日

法律状态信息

法律状态
2014-08-13

未缴年费专利权终止 IPC(主分类):H04N7/26 授权公告日:20101117 终止日期:20130622 申请日:20090622

专利权的终止
2010-11-17

授权

授权
2010-01-13

实质审查的生效

实质审查的生效
2009-11-18

公开

公开

说明书

技术领域

本发明涉及视频信息转码技术，具体地涉及一种像素域视频转码中确定运动特征和高效编码模式关系的方法，属于计算机多媒体技术领域。在像素域格式转码中，根据运动特征优化选择编码模式可以取得较高的转码性能，但这需要预先建立视频运动特征和最优编码模式之间的关系。本发明给出了一种建立像素域视频转码中运动特征和高效编码模式关系的方法。

背景技术

在视频转码中，在给定的输出码率下，转码质量和转码时间在很大程度上是一对矛盾。所谓提高转码性能是在保证转码视频质量基本相同的条件下尽量减少计算时间。较新出现的视频编码标准，如H.264等，可以选择如多帧参考、亚像素预测、尺寸可变的宏块划分、帧内预测等多种编码模式，这些编码模式的使用能提高视频转码质量，但会增加编码时间。在将较早的编码标准格式如MPEG-2的视频经过像素域转码到较新的如H.264标准格式的过程中，选择合理的编码模式就可用较少的计算时间获得较高的转码视频质量。另一方面，对不同运动特征的视频选择不同编码模式时转码性能有很大的差异，如剧烈运动的视频采用子像素采样能够显著提高视频质量，但运动平缓的视频采用子像素预测虽耗费了大量的计算时间，但视频质量却只有微小的提升。

在实际的转码应用中，如果能建立运动特征和编码模式的关系，选择使用那些能够明显提升视频质量的编码模式，关闭对视频质量提高没有多大帮助却增加许多计算量的模式，可以取得和打开全部编码模式相当的编码视频质量，同时可以显著地节约时间，提高转码性能。到目前为止，没有人给出确定这种对应关系的方法。

发明内容

本发明的目的是克服现有技术的不足，提出一种像素域视频转码中确定运动特征和高效编码模式关系的方法。

像素域视频转码中确定运动特征和高效编码模式关系的方法是：从第一格式的源视频通过像素域转换到第二格式的目标视频的视频转码过程中，通过分析典型特征视频在第二格式编码器的各种模式组合下的转码性能数据，得到第一编码格式的源视频中的运动向量特征和第二编码格式的编码器的最优编码模式之间的关系；具体包括以下步骤：

1)计算运动向量幅值直方图

选取固定分辨率下具有典型运动特征的视频序列，用第一编码格式的解码器解码到像素域，并且以视频帧为单位，计算运动向量幅值直方图，作为其运动特征的表征；

2)遍历第二格式编码器的各种编码模式组合并记录视频质量

选取第二格式编码器对视频质量有重要影响的n个编码模式M＝{m₁，m₂，...，m_n}，对每个编码模式，定义能提高视频质量的状态为“打开”状态，反之为“关闭”状态，对已采用第一编码格式的解码器解码到像素域的特征视频，在第二编码格式的编码器中遍历编码模式的所有“打开”、“关闭”状态组合，这样的状态组合总共有2ⁿ种，以视频帧为单位进行编码，记录在每种编码模式状态下的编码时间和输出视频质量；

3)选择最有效的编码模式

以视频帧为单位，以编码模式全部关闭时的转码视频质量为基准，考察依次打开各个编码模式时转码视频质量的增量，用逐步回归法按照编码模式状态对转码后输出视频质量影响的程度选择最有效的编码模式；

4)对有效编码模式的组合进行聚类和精简

根据步骤3)获得的结果，逐帧选择最有效的k个编码模式，其中0≤k≤n，按照选择出来的有效编码模式对所有特征视频序列的帧进行聚类，即把具有相同最有效编码模式的帧分为一类，并做精简，最后形成l个结果分类C₁，C₂，...，C_l，至此，每个视频帧都有一个运动向量幅值直方图和一个唯一确定的类别C_j，其中1≤j≤l；

5)构建运动特征和最优编码模式的分类器

考察步骤4)获得的每个视频帧的运动向量幅值直方图和类别的对应关系，构建运动特征和高效编码模式的对应关系的分类器。

上述步骤3)的具体操作过程为：

(1)令M′＝φ，i＝1；其中，φ表示空集；

(2)在保持M′中的编码模式为“打开”状态的情况下，考察在M-M′中仅取一个编码模式为“打开”状态时的视频质量增量，选择M-M′中打开后取得最大增量的的编码模式，记为m′_i，令M′＝M′∪{m′_i}；

(3)若M≠M′，则令i＝i+1，转步骤2)执行；否则结束。

上述步骤4)的具体操作过程为：

(1)设在每个视频帧中，上述的步骤3)采用逐步回归法依次打开的编码模式为全关闭，m′₁，m′₁m′₂，m′₁m′₂m′₃，...，m′₁m′₂m′₃...m′_n，对应的视频质量为p₀，p₁，p₂，...，p_n，即从全关闭直到打开所有模式对应的视频质量。计算在打开i个模式后所有参与实验的帧的平均视频质量为p_i，1≤i≤n，一般有p_i≥p_i-1成立，取k＝min{i|p_n-p_i≤Δ}，Δ为一给定的小正数，这样确定最有效的编码模式为k个，每个视频帧对应最有效的编码模式为m′₁，m′₂，...，m′_k，即逐步回归过程中出现的前k个编码模式。

(2)不考虑k个最有效编码模式出现的顺序，将具有相同最优编码模式的帧聚为一类，理论上共有C_n^k类，设实际上总共有L类，记为C₁，，...，C_L；

(3)删除C₁，C₂，...，C_L中包含帧数较少的类以及这些类对应的帧运动向量幅值直方图，记剩余的类为C₁，C₂，...，C_l，其中1≤l≤L，每一类都对应着k个编码模式。

所述的从第一格式的源视频通过像素域转换到第二格式的目标视频的视频转码过程具有以下特征：

1)输入的第一格式的源视频是经过宏块划分、运动预测补偿和变换编码的压缩视频；输出的第二格式的目标视频是经过宏块划分、运动预测补偿和变换编码的压缩视频。

2)第二格式的目标视频可采用多种编码模式进行优化编码，这些编码模式包含但不限于多帧参考、亚像素预测、尺寸可变的宏块划分、帧内预测。本发明与现有技术相比具有的有益效果：

1)给出了一种寻找视频运动特征和最优编码模式的方法，使原先难以确定的关系转换为分类器构建问题得以解决。

2)以视频帧为单位，用运动向量幅值直方图表征运动特征，采用逐步回归法选择使得转码视频质量最优的编码模式组合，简化了对应关系的求解过程。

3)对于不同空间分辨率的视频，运动向量和高效编码模式的关系并不是固定的。利用本发明的方法建立相应的模型，可用于像素域转码过程的编码模式优化决策，能有效提高转码性能。

附图说明

图1是确定源视频运动特征和高效编码模式关系的方法示意图；

图2是确定源视频运动特征和高效编码模式关系的详细过程示意图；

图3是利用运动特征与高效编码模式关系的一种转码器结构示意图。

具体实施方式

像素域视频转码中确定运动特征和高效编码模式关系的方法是：从第一格式的源视频通过像素域转换到第二格式的目标视频的视频转码过程中，通过分析典型特征视频在第二格式编码器的各种模式组合下的转码性能数据，得到第一编码格式的源视频中的运动向量特征和第二编码格式的编码器的最优编码模式之间的关系。

参见图1，本方法包含以下步骤：首先选择特定分辨率下具有典型运动特征的视频序列，逐视频帧分析运动向量幅值直方图；选择对视频质量提升有重要影响的编码模式，逐视频帧考察在编码模式的各种组合下转码的视频质量；进而采用逐步回归法选择最有效的编码模式；然后对编码模式进行聚类和精简；最后构造以运动向量幅值直方图来表征的运动特征和高效编码模式之间的对应关系模型。

参见图2，下面具体说明各个步骤：

1)计算运动向量幅值直方图

选取固定分辨率下具有典型运动特征的视频序列，用第一编码格式的解码器解码到像素域，并且以视频帧为单位，计算运动向量幅值直方图，作为其运动特征的表征；以采用MPEG-2编码格式的源视频为例进行说明。

1.1)选择具有典型运动特征的视频序列集合S＝{S_i|i∈[0，N]}参与考察，典型运动特征的视频序列集合20具有包含表1所列的运动特征的视频。将这些视频序列通过第一格式编码器即MPEG-2编码器22获得MPEG-2编码格式的源视频24。

表1 具有典型运动特征的常用源视频序列

视频序列(s_i) 运动特征 s₁ 有明显的视频转场特征 s₂ 背景颜色复杂，运动缓慢场景 s₃ 背景向周围扩散 s₄ 角落监视场景，偶尔出现一个运动 s₄ 运动较小，颜色灰暗 s₆ 大块前景，小块背景快速运动 s₇ 大块物体的慢速运动

1.2)对每一个MPEG-2格式的典型运动特征的源视频24，由第一编码格式的解码器即MPEG-2解码器26逐帧解码到像素域34；在解码的同时，记录预测帧(P帧和/或B帧)中每一宏块的运动向量28。

1.3)每个宏块的运动向量的幅值d用欧几里德距离(Euclidean distance)表示，计算公式是 $d = \sqrt{{mvx}^{2} + {mvy}^{2}},$ 其中mvx和mvy表示宏块运动向量的x分量和y分量。在每一帧中，统计具有相同运动向量幅值d的宏块个数占该帧全部宏块个数的百分比H(d)。设源视频流采用的运动估计搜索窗口为m，则 ${H (d) | d \in [0, \sqrt{m^{2} + m^{2}}]}$ 即为运动向量幅值直方图32。

2)遍历第二格式编码器的各种编码模式组合并记录视频质量

2.1)选用表2所列的前5种编码模式M＝{m₁，m₂，m₃，m₄，m₅}作为考察的编码模式，确定“打开”、“关闭”状态如下：

m₁“打开”状态指可采用表2中H.264支持的可变宏块划分尺寸，“关闭”状态指采用固定16×16宏块尺寸；

m₂“打开”状态指可采用表2中H.264支持的多帧参考，“关闭”状态指参考帧对于P帧只能为一帧，对B帧，只能是前后各取一帧；

m₃“打开”状态指可采用1/4像素精度估计，“关闭”状态指只采用整像素精度估计；

m₄“打开”状态指可采用帧内预测，“关闭”状态指无帧内预测；

m₅“打开”状态指采用去除块效应滤波器，“关闭”状态指不采用滤波器。

表2 MPEG-2和H.264的主要编码模式区别举例

m_i 编码模式 MPEG-2 H.264 m₁ 运动估计宏块划分尺寸 16×16 16×16，16×8，8×16， 8×8，8×4，4×8，4×4 m₂ 运动估计是否参考多帧 1(P帧)或 2(B帧) 1-15(多帧参考) m₃ 运动估计精度 1/2像素 1/4像素 m₄ 帧内预测无空域 m₅ 去块效应过滤无循环过滤 m₆ 量化线性指数 m₇ 率失真优化无有 m₈ 块变换 8×8DCT 4×4整数DCT m₉ 熵编码变长编码 CAVLC或CABAC m₁₀ 加权预测无 P帧，或者P和B帧

2.2)对于2.1)选定的5种编码模式，所有可能的“打开”、“关闭”状态组合36共有2⁵＝32种，对于每一个特征视频，用1.2)中由MPEG-2解码器解码获得的像素域数据34作为第二格式编码器即H.264编码器38的输入，H.264编码器逐个采用32种编码模式状态组合中的每一种进行编码设置，并对输入的像素域数据34逐帧进行编码。这样每一个特征视频，有32种第二格式即H.264格式的输出视频40，每一种分别对应一种编码模式状态组合。这些视频经H.264解码器42解码后的像素域数据44可以采用如峰值信噪比PSNR计算单元46来计算视频质量。每一个视频帧都有与编码模式状态组合对应的32种编码视频质量。记录这些视频质量的数据48。

3)选择最有效的编码模式

以视频帧为单位，以编码模式全部关闭时的转码视频质量为基准，考察依次打开各个编码模式时转码视频质量的增量，用逐步回归法3按照编码模式状态对转码后输出视频质量影响的程度选择最有效的编码模式64。

4)对有效编码模式的组合进行聚类和精简

继续结合上述实例进行说明。根据步骤3)获得的结果，逐帧选择最有效的k个编码模式64，其中0≤k≤n，在本实例中n＝5。按照选择出来的有效编码模式对所有特征视频序列的帧进行聚类，即把具有相同最有效编码模式的帧分为一类，并做精简，最后形成l个结果分类C₁，C₂，...，C_l，在本实例中结果l＝3。至此，每个视频帧都有一个运动向量幅值直方图和一个唯一确定的类别C_j，其中1≤j≤l；

5)构建运动特征和最优编码模式的分类器

考察步骤4)获得的每个视频帧的运动向量幅值直方图和类别的对应关系，构建运动特征和高效编码模式的对应关系的分类器5，形成结果70。

构建分类器的方法有很多，如采用启发式规则的方法，采用基于统计理论的最大似然估计法，采用基于学习的神经网络方法，采用支持向量基方法等，可选择使用。

这里给出一个基于最小距离的分类器构造法的简单实例予以说明。

分别计算本实例中步骤4)所得的C₁，C₂，C₃类中所有帧的平均运动向量幅值直方图向量 ${H (d) | d \in [0, \sqrt{m^{2} + m^{2}}]}$ ，j＝1，2，3，其中每个分量都是属于该类的所有帧的运动向量幅值直方图向量对应分量的平均。这三个向量分别是C₁，C₂，C₃的中心向量。

可构建的分类器Ψ(I)如下：对于任意一个运动向量幅值直方图，对应的类是与类中心向量的距离最小的那个类。具体应用时，对于一个待判定类别的帧I，分别计算其运动向量幅值直方图向量与C₁，C₂，C₃的中心向量的距离，记为D₁，D₂和D₃；分类器Ψ(I)根据最小距离确定转码时可设置为“打开”状态的最有效的3个编码模式。

$Ψ (I) = (\begin{matrix} if \min {D_{1}, D_{2}, D_{3}} = D_{1}, & I \in C_{1} \to {m_{1}, m_{2}, m_{3}} \\ if \min {D_{1}, D_{2}, D_{3}} = D_{2}, & I \in C_{2} \to {m_{2}, m_{3}, m_{4}} \\ if \min {D_{1}, D_{2}, D_{3}} = D_{3}, & I \in C_{3} \to {m_{1}, m_{2}, m_{4}} \end{matrix})$

构建的分类器70越准确，建立的运动特征和高效编码模式关系在后续的像素域转码实际应用中就越有效。

上述步骤3)的具体操作过程为：

(1)令M′＝φ，i＝1；其中，φ表示空集；

(2)在保持M′中的编码模式为“打开”状态的情况下，考察在M-M′中仅取一个编码模式为“打开”状态时的视频质量增量，选择M-M′中打开后取得最大增量的的编码模式，记为m′_i，令M′=M′∪{m′_i)；

(3)若M≠M′，则令i＝i+1，转步骤2)执行；否则结束。

上述步骤4)的具体操作过程，结合上述实例为：

(1)设在每个视频帧中，上述的步骤3)采用逐步回归法依次打开的编码模式为全关闭，m′₁，m′₁m′₂，m′₁m′₂m′₃，m′₁m′₂m′₃m′₄，m′₁m′₂m′₃m′₄m′₅，对应的视频质量为p₀，p₁，p₂，p₃，p₄，p₅，即从关闭所有模式到打开所有5个模式对应的视频质量。计算在打开i个模式后所有参与实验的帧的平均视频质量为p_i，1≤i≤5，一般有p_i≥p_i-1成立。取k＝min{i|p_n-p_i≤Δ}，Δ为一给定的小正数，在本例中取Δ＝0.1dB。最后确定最有效的编码模式个数为k＝3个，最有效的编码模式为m′₁，m′₂，m′₃，即逐步回归中出现的前3个编码模式。

(2)不考虑这3个最有效编码模式出现的顺序，将具有相同最优编码模式的帧聚为一类，共有 $C_{5}^{3} = 10$ 类。记为C₁，C₂，...，C₁₀；

(3)删除C₁，C₂，...，C₁₀中包含帧数较少的类以及这些类对应的帧运动向量幅值直方图，在这个实例中，由于考察的各个视频序列共有约4000帧，所以这里删除包含帧数少于20帧的类。删除后还剩余3类。记精简之后剩余的类68为C₁，C₂，C₃，对应的为打开状态的编码模式为：C₁→{m₁，m₂，m₃}，C₂→{m₂，m₃，m₄)，C₃→{m₁，m₂，m₄)。

通过上述步骤，对于样本视频序列中的绝大部分视频帧，每一帧都有一个运动向量幅值直方图以及对应的最有效编码模式类C₁，C₂或C₃。

所述的从第一格式的源视频通过像素域转换到第二格式的目标视频的视频转码过程具有以下特征：

2)第二格式的目标视频可采用多种编码模式进行优化编码，这些编码模式包含但不限于多帧参考、亚像素预测、尺寸可变的宏块划分、帧内预测。

本发明建立的运动向量幅值直方图和最优编码模式的关系可以用于像素域视频转码过程的优化，获得更好的转码性能。图3给出了这样的一个转码器结构。该结构采用级联转码，解码器92解码源视频90到像素域94，统计单元82逐视频帧统计运动向量并计算运动向量幅值直方图84，模式选择单元86依据本专利方法建立的运动向量直方图与最优编码模式之间的关系模型70选择最优编码模式，然后编码器96以选取的最优编码模式将像素域数据94编码成目标视频98。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 像素域视频转码中确定运动特征和高效编码模式关系的方法 [P] . 中国专利： CN101583036B . 2010.11.17
2. 像素域视频转码中确定运动特征和高效编码模式关系的方法 [P] . 中国专利： CN101583036A . 2009-11-18
3. System and method of video Telecommunication to compress and decompress The Video Data of color digitalThe present Invention relates to a method for compressing a digital color Video Data in a Telecommunication System Video that has a means for generating a video signal that is uN means for generating a video signal to a Plurality of color video framerate,With Every Frame Image consisting of a Plurality of Scanning Lines composed of a Plurality of pixelsAnd each pixel in the image Frame consists of the components of color digitalThe Method comprises the steps of determining a function); Luminance pixel based on at least one of the three components of color digital(b) identify at least one parameter decision for at least a significant portion of pixels in the scanlines of a Table of current image based on the difference ofThe role in Luminance between the pixels at a Predetermined distance from at least one pixel in each Scan line and at least a (c) comparison of decision parameter with [P] . MX166516B . 1993-01-11

机译：用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法，该方法具有用于生成视频信号的装置，该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率，每个帧图像由多个扫描线组成，扫描线由多个像素组成，图像中的每个像素由彩色数字分量组成（该方法包括确定功能的步骤）;基于彩色数字（b）的三个分量中的至少一个的亮度像素，基于两个像素之间的亮度差异，针对当前图像表的扫描线中的至少大部分像素，确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素，以及至少（c）比较决策参数与
4. Method and system for efficient video transcoding using coding modes, motion vectors and residual information [P] . 美国专利： US9100656B2 . 2015-08-04

机译：使用编码模式，运动矢量和残差信息进行有效视频转码的方法和系统
5. Method and System for Efficient Video Transcoding Using Coding Modes, Motion Vectors and Residual Information [P] . 美国专利： US2012300834A1 . 2012-11-29

机译：利用编码模式，运动矢量和残差信息进行有效视频转码的方法和系统