首页> 中国专利> 基于支持向量机的视频转码快速帧内预测方法

基于支持向量机的视频转码快速帧内预测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于支持向量机的视频转码快速帧内预测方法，属于数字视频转码技术领域。本发明具体包括以下步骤：(1)将输入的高分辨率视频码流解码来提取编码信息，组成多维特征向量训练支持向量机模型，建立高分辨率视频编码信息与降尺寸视频中宏块的帧内编码模式之间的相关性；(2)构建分层式SVM分类器，对降尺寸视频中宏块的帧内预测模式进行分类，以此减少预测模式数量；(3)利用缩减后的帧内模式对降尺寸视频进行编码，实现转码再编码过程中率失真优化算法的提前终止，达到降低转码运算复杂度的目的，实现一个低复杂度的H.264视频转码器；(4)输出转码后的低分辨率视频码流。本方法既能够保证转码后视频质量，又有效解决了降尺寸视频转码实时性问题。

著录项

公开/公告号CN102025999A

专利类型发明专利
公开/公告日2011-04-20

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN201010618333.2
发明设计人贾克斌;吕卓逸;孙中华;
展开▼

申请日2010-12-31
分类号H04N7/26(20060101);H04N7/50(20060101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人张慧
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-12-18 02:09:16

法律信息

法律状态公告日

法律状态信息

法律状态
2012-05-16

授权

授权
2011-06-08

实质审查的生效 IPC(主分类):H04N7/26 申请日:20101231

实质审查的生效
2011-04-20

公开

公开

说明书

技术领域

本发明属于数字视频转码技术领域，具体涉及一种基于支持向量机的视频转码快速帧内预测的方法。

背景技术

近年来，多媒体通信随着网络技术的飞速发展广泛融入到社会和个人生活中。由于网络种类的多样性(如Internet网、电信网和蜂窝无线网等)，终端设备性能(如显示分辨率、处理能力和存储能力等)的差异，使得提高视频码流在不同应用环境之间的兼容性变得十分重要。转换空间分辨率的视频转码，为支持各类视频显示设备提供了有效的解决方法，它将原始分辨率的视频码流转换为适合接收端显示的目标分辨率码流。H.264在压缩高效性和传输可靠性方面优于其它视频编码标准，并在各个领域中得到了广泛应用，基于H.264的视频编码及转码技术成为近年来国内外研究的热点。

理想的视频转码器应具备低运算复杂度，高转码质量等性能。H.264帧内编码充分利用图像空间相关性，结合率失真优化技术选择最优帧内模式。高效的帧内预测编码极大降低了空间冗余，提高视频编码压缩率，同时也大大增加了编码器的计算复杂度，影响到算法的实时性。因此，如何有效利用输入码流中的编码信息来提高转码速度成为视频转码研究中的关键问题。对此，众多科研人员做了大量工作来优化帧内编码算法。包括降低率失真优化运算复杂度，以及利用边界方向分析宏块特性等等。然而，这些帧内优化算法没有充分利用输入的编码信息来提高转码效率，无法在视频转码中达到理想的效果。因此，如何提高视频转码效率，同时保证图像质量仍然是一个有待探索的课题。

发明内容

本发明的目的是充分利用从输入的高分辨率视频码流中提取的编码信息，组成多维特征向量训练支持向量机(Support Vector Machine，SVM)分类器模型，构建分层式SVM分类器，对降尺寸视频中宏块的帧内预测模式进行分类，降低转码运算复杂度。

为了解决上述技术问题，本发明提供了一种基于支持向量机的视频转码快速帧内预测方法，其特征在于：首先从输入的高分辨率视频码流中提取模式特征组成多维特征向量训练支持向量机(Support Vector Machine，SVM)分类器模型，建立高分辨率视频编码信息与降尺寸视频宏块帧内编码模式之间的相关性。然后设计构建出分层式SVM分类器，对降尺寸视频中宏块的帧内预测模式进行分类，以此减少预测模式数量，实现转码再编码过程中率失真优化算法的提前终止。具体包括下述步骤：

1)将输入的高分辨率视频码流解码来提取编码信息，包括：帧内编码模式、残差宏块和离散余弦变换系数，利用编码信息计算得到表征宏块特征的参量来组成多维特征向量训练支持向量机模型，通过该模型建立高分辨率视频编码信息与降尺寸视频中宏块的帧内编码模式之间的相关性；

2)由顶层分类器，中间层分类器和下层分类器构建成分层式SVM分类器架构，分三步对降尺寸视频中宏块的帧内预测模式进行分类，首先划分Intra 16×16和Intra 4×4，其次对Intra4×4中的模式{0，1，2}和其它模式进行划分，最后划分Intra 4×4中的垂直预测模式和水平预测模式，以此减少预测模式数量；

3)利用缩减后的帧内模式对降尺寸视频进行编码，实现率失真优化算法的提前终止，避免转码中再编码过程中的穷举式全搜索，实现一个低复杂度的H.264视频转码器；

4)输出转码后的低分辨率视频码流。本方法既能够保证转码后视频质量，又有效解决了降尺寸视频转码实时性问题。

在本发明所提供的基于支持向量机的视频转码快速帧内预测方法中，所述的支持向量机特征向量的选取，包括下述步骤：

1)顶层分类器：实验数据表明，在原始高分辨率视频的四个相邻宏块中出现频率最高的编码模式往往就是通过率失真优化算法计算获得的最优编码模式。本方法选择Intra 16×16和Intra 4×4在当前宏块所对应的原始高分辨率视频的四个相邻宏块中的出现次数作为特征向量之一。此外，鉴于残差块不为零的离散余弦变换(DCT)系数的个数(nzcoef)与宏块空间特征的紧密联系，且提取方法简单，无需进行DCT逆变换，因此将不为零的离散余弦变换系数的个数选作顶层分类器的另一个特征向量；

2)中间层分类器：本方法利用如下公式中定义的方向差值参量来衡量宏块的亮度分布特征，进而划分出采用模式{0，1，2}的宏块。

C_V＝|E₀-E₂|+|E₁-E₃|，C_H＝|E₀-E₁|，|E₂-E₃|

C_P＝2min{|E₁-E₂|，|E₀-E₃|}，

$> C_{DC} = 0.5 Σ_{n = 0}^{3} | E_{n} - \overline{E} |,$ >

$> E_{n} = Σ_{i, j = 0}^{3} | D_{n} (i, j) |,$ >n＝0，1，2 and 3

其中，C_V，C_H，C_P和C_DC分别代表垂直、水平、平面和DC的方向差值参量，D_n(i，j)表示(i，j)上的DCT系数，E_n表示宏块亮度值；

3)下层分类器：本方法利用DCT系数计算获得4×4块的边界方向tanθ，将与tanθ最接近的预测方向作为该块的候选预测方向。其中，θ表示边界方向与水平方向的夹角，F_u，v代表4×4块(u，v)的AC系数。

$> \tan θ = \frac{F_{0,1} + F_{0,2} + F_{0,3}}{F_{1,0} + F_{2,0} + F_{3,0}}$ >

为了得到更加准确的预测结果，将第一行的AC系数绝对值之和定义为ac_sum_h，第一列AC系数绝对值之和定义为ac_sum_v，结合边界方向tanθ对4×4块进行预测。如果ac_sum_h小于ac_sum_v，则该4×4块采用垂直预测模式的机会较小，去除模式{0，3，5，7}；相反，如果ac_sum_v小于ac_sum_h，则该4×4块采用水平预测模式的机会较小，去除模式{1，4，6，8}。

$> ac_sum_h = Σ_{j = 1}^{3} | AC [0, j] |,$ > $> ac_sum_h = Σ_{j = 1}^{3} | AC [i, 0] |$ >

在本发明所提供的基于支持向量机的视频转码快速帧内预测方法中，所述的支持向量机核函数的选择，为了选取适用于视频转码帧内预测算法的最优核函数，本方法按如下步骤定义了核函数性能参数J：

1)假设输入空间中的两类样本：(x₁，x₂，...，x_l)和(x_l+1，x_l+2，...，x_2l)分别属于类别C₁和C₂，其中l为样本数量。各类中心点在特征空间中表示为：

$> C_{1} = \frac{1}{l} Σ_{i = 1}^{l} φ (x_{i}),$ > $> C_{2} = \frac{1}{l} Σ_{i = l + 1}^{2 l} φ (x_{i})$ >

2)用核函数K(x_i，x_j)替代映射函数Φ，计算类中心的二次范数：

$> {| | C_{1} | |}^{2} = < C_{1}, C_{1} > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j})$ >

$> {| | C_{2} | |}^{2} = < C_{2}, C_{2} > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j})$ >

3)由下式计算获得各类紧凑度参数δ²₁和δ²₂：

$> {δ^{2}}_{s} = \frac{1}{l} Σ_{m = 1}^{l} {| | φ (x_{m}) - C_{s} | |}^{2} = \frac{1}{l} Σ_{m = 1}^{l} K (x_{m}, x_{m}) + \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}),$ >s＝1 or 2

4)类别间的中心距离为：

$> {| | C_{1} - C_{2} | |}^{2} = < C_{1}, C_{1} > + < C_{2}, C_{2} > - 2 < C_{1}, C_{2} >$ >

$> = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}) + \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j}) - \frac{2}{l} Σ_{i = 1}^{l} Σ_{j = l + 1}^{2 l} K (x_{i}, x_{j})$ >

5)最后，得到核函数性能参数J，其中，分子为类别间的中心距离，分母为同类内的紧凑度，选择J值最大的作为最优核函数：

$> J = \frac{{| | C_{1} - C_{2} | |}^{2}}{δ_{1}^{2} + δ_{2}^{2}}$ >

在本发明所提供的基于支持向量机的视频转码快速帧内预测方法中，所述的分层式SVM分类器的构建，包括下述步骤：

1)顶层分类器划分Intra 16×16模式和Intra 4×4模式。如果当前宏块被划分为Intra 16×16模式，则仅预测Intra 16×16模式。换而言之，此分类器用于划分出位于纹理分布较均匀或运动平缓区域内的宏块；

2)中间层分类器划分Intra 4×4中的模式{0，1，2}和其它模式；

3)下层分类器对Intra 4×4中的9种预测模式进行细分，划分为垂直预测模式和水平预测模式。垂直预测模式仅对模式{0，3，5，7}进行预测，水平预测模式仅对模式{1，4，6，8}进行预测。

附图说明

图1是本发明采用的基于支持向量机的视频转码快速帧内预测方法的框架图；

图2是本发明采用的基于支持向量机的视频转码快速帧内预测方法的流程图；

图3是foreman序列实验结果PSNR-Bitrate曲线图；

图4是silent序列实验结果PSNR-Bitrate曲线图；

图5是耗费运算时间的实验结果对比图；

具体实施方式

本发明提供了一种基于支持向量机的视频转码快速帧内预测方法，其具体实施例详细步骤如下：

采用H.264/AVC的测试模型JM12.2，实验平台采用Visual C++6.0。首先将CIF格式(352×288)的标准测试序列缩小为QCIF格式(176×144)；其次对CIF格式视频在JM12.2上编码再解码，在解码过程中读取编码信息并将其写入TXT格式的外部文件中，在对降尺寸以后的视频进行编码时通过读取外部文件获得编码信息；然后调用本发明中提到的方法来完成对降尺寸视频具体的编码工作。每个序列选取前50帧进行转码，编码方式全部采用帧内编码(I帧)。

具体实施中，在计算机中完成以下程序：

第一步：读取TXT文件中的编码信息，包括：帧内编码模式，残差宏块和离散余弦变换(DCT)系数；

第二步：支持向量机特征向量的选取按照如下步骤进行：

1)顶层分类器：实验数据表明，在原始高分辨率视频的四个相邻宏块中出现频率最高的编码模式往往就是通过率失真优化算法计算获得的最优编码模式。本方法选择Intra 16×16和Intra 4×4在当前宏块所对应的原始高分辨率视频的四个相邻宏块中的出现次数作为特征向量之一。此外，鉴于残差块不为零的离散余弦变换(DCT)系数(nzcoef)与宏块空间特征的紧密联系，且提取方法简单，无需进行DCT逆变换，因此选作顶层分类器的另一个特征向量；

2)中间层分类器：本方法利用如下公式中定义的方向差值参量来衡量宏块的亮度分布特征，进而划分出采用模式{0，1，2}的宏块。

C_V＝|E₀-E₂|+|E₁-E₃|，C_H＝|E₀-E₁|，|E₂-E₃|

C_P＝2min{|E₁-E₂|，|E₀-E₃|}，

$> C_{DC} = 0.5 Σ_{n = 0}^{3} | E_{n} - \overline{E} |,$ >

$> E_{n} = Σ_{i, j = 0}^{3} | D_{n} (i, j) |,$ >n＝0，1，2 and 3

其中，C_V，C_H，C_P和C_DC分别代表垂直、水平、平面和DC的方向差值参量，D_n(i，j)表示(i，j)上的DCT系数，E_n表示宏块亮度值；

$> \tan θ = \frac{F_{0,1} + F_{0,2} + F_{0,3}}{F_{1,0} + F_{2,0} + F_{3,0}}$ >

$> ac_sum_h = Σ_{j = 1}^{3} | AC [0, j] |,$ > $> ac_sum_h = Σ_{j = 1}^{3} | AC [i, 0] |$ >

第三步：支持向量机核函数的选择，为了选取适用于视频转码帧内预测算法的最优核函数，本发明按如下步骤定义了核函数性能参数J：

1)假设输入空间中的两类样本：(x₁，x₂，...，x_l)和(x_l+1，x_l+2，...，x_2l)分别属于类别C₁和C₂，其中l为样本数量。各类中心点在特征空间中表示为：

$> C_{1} = \frac{1}{l} Σ_{i = 1}^{l} φ (x_{i}), C_{2} = \frac{1}{l} Σ_{i = l + 1}^{2 l} φ (x_{i})$ >

2)用核函数K(x_i，x_j)替代映射函数Φ，计算类中心的二次范数：

$> {| | C_{1} | |}^{2} = < C_{1}, C_{1} > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j})$ >

$> {| | C_{2} | |}^{2} = < C_{2}, C_{2} > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} < φ (x_{i}), φ (x_{j}) > = \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j})$ >

3)由下式计算获得各类紧凑度参数δ²₁和δ²₂：

$> {δ^{2}}_{s} = \frac{1}{l} Σ_{m = 1}^{l} {| | φ (x_{m}) - C_{s} | |}^{2} = \frac{1}{l} Σ_{m = 1}^{l} K (x_{m}, x_{m}) + \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}),$ >s＝1 o r2

4)类别间的中心距离为：

$> {| | C_{1} - C_{2} | |}^{2} = < C_{1}, C_{1} > + < C_{2}, C_{2} > - 2 < C_{1}, C_{2} >$ >

$> = \frac{1}{l^{2}} Σ_{i, j = 1}^{l} K (x_{i}, x_{j}) + \frac{1}{l^{2}} Σ_{i, j = l + 1}^{2 l} K (x_{i}, x_{j}) - \frac{2}{l} Σ_{i = 1}^{l} Σ_{j = l + 1}^{2 l} K (x_{i}, x_{j})$ >

5)最后，得到核函数性能参数J，其中，分子为类别间的中心距离，分母为同类内的紧凑度，选择J值最大的作为最优核函数：

$> J = \frac{{| | C_{1} - C_{2} | |}^{2}}{δ_{1}^{2} + δ_{2}^{2}}$ >

第四步：分层式SVM分类器的构建，包括下述步骤：

1)顶层分类器划分Intra 16×16模式和Intra 4×4模式。如果当前宏块被划分为Intra 16×16模式，则仅预测Intra 16×16模式。换而言之，此分类器用于划分出位于纹理分布较均匀或运动平缓区域的宏块；

2)中间层分类器划分Intra 4×4中的模式{0，1，2}和其它模式；

第五步：通过分层式SVM分类器对降尺寸视频中宏块的帧内预测模式进行分类，以此减少预测模式数量。

第六步：利用缩减后的帧内模式对降尺寸视频进行编码，实现转码再编码过程中率失真优化算法的提前终止，达到降低转码运算复杂度的目的，实现一个低复杂度的H.264视频转码器。

第七步：输出转码后的低分辨率视频码流。

为了验证本发明所提出方法的普遍适用性和高效性，以下给出实验结果。实验选取分辨率格式CIF，具有不同运动程度及纹理特征的测试序列训练SVM分类器模型。首先将高分辨率视频利用JM12.2进行编码再解码，以便提取编码信息训练SVM模型。然后将CIF格式视频Foreman，Mother-daughter，Paris和Silent以1/4尺寸缩小。编码全部采用帧内编码(I帧)，QP值设置从24到32。

本发明提出的基于支持向量机的视频转码快速帧内预测算法(3-SVM)，与全搜索算法(JM72.2)和参考文献中提出的主导模式(Majority Method.MM)结合HVDC修正算法(MM+HVDC)在转码质量，比特率和转码速度三方面进行比较。如图3，4，5和表1(正值表示增加，负值表示减小)所示，基于SVM的帧内预测算法比全搜索算法(JM12.2)平均节省65.29％运算时间，并保证PSNR仅下降0.065dB，比特率增加6.33％。文献提出的算法MM+HVDC比JM12.2方法平均节省55.69％运算时间，PSNR下降0.123dB，比特率增加10.52％。

表1

综合衡量运算复杂度、转码质量和压缩率等因素，本文提出的算法在有效提高降尺寸转码速度的同时，与现有算法相比，取得了更优的编码效果和更广泛的适用性。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于支持向量机的视频转码快速帧内预测方法 [P] . 中国专利： CN102025999B . 2012.05.16
2. 基于支持向量机的AVS到HEVC优化视频转码方法 [P] . 中国专利： CN104837019B . 2018.01.02
3. VIDEO ENCODING METHOD USING INTRA PREDICTION, VIDEO DECODING METHOD USING INTRA PREDICTION, VIDEO ENCODING EQUIPMENT USING INTRA PREDICTION AND VIDEO DECODING EQUIPMENT USING INTRA PREDICTION [P] . BRPI0807912B1 . 2020-10-06

机译：使用帧内预测的视频编码方法，使用帧内预测的视频解码方法，使用帧内预测的视频编码设备以及使用帧内预测的视频解码设备
4. SVM method of providing automatic calibratiion of SVM video processing based on marker homography transformation [P] . 韩国专利： KR101989369B1 . 2019-06-14

机译：基于标记单应变换的支持向量机视频处理自动校准的支持向量机方法
5. ON THE FLY TRANSCODING OF VIDEO ON DEMAND CONTENT FOR ADAPTIVE STREAMING [P] . 美国专利： US2015007237A1 . 2015-01-01

机译：基于自适应流的按需内容视频的快速转码