首页> 中国专利> 一种基于随机森林的VVC帧内编码快速CU划分决策方法

一种基于随机森林的VVC帧内编码快速CU划分决策方法

摘要

本发明涉及一种基于随机森林的VVC帧内编码快速CU划分决策方法,属于视频编码领域,包括以下步骤:S1:根据纹理信息与上下文信息将CU分为三类,并为各类CU选取一系列具有代表性的特征;S2:选取一系列具有不同分辨率与内容的视频序列进行编码,提取编码过程中各类CU的五类特征构建数据集;S3:为不同种类的CU分别构建随机森林分类器,通过数据集对随机森林分类器进行训练;S4:将训练好的随机森林分类器嵌入VVC原始编码流程中,预测各类CU的划分模式,替换原始递归的CU划分过程。本发明将随机森林分类器引入到VVC帧内编码中,在保证RD性能的同时有效地减小了编码复杂度。

著录项

  • 公开/公告号CN112437310B

    专利类型发明专利

  • 公开/公告日2022-07-08

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN202011510836.8

  • 发明设计人 罗雷;何全;

    申请日2020-12-18

  • 分类号H04N19/182(2014.01);H04N19/11(2014.01);H04N19/593(2014.01);G06K9/62(2022.01);G06V10/764(2022.01);

  • 代理机构北京同恒源知识产权代理有限公司 11275;

  • 代理人赵荣之

  • 地址 400065 重庆市南岸区黄桷垭崇文路2号

  • 入库时间 2022-08-23 13:59:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-08

    授权

    发明专利权授予

说明书

技术领域

本发明属于视频编码领域,涉及一种基于随机森林的VVC帧内编码快速CU划分决策方法。

背景技术

多功能视频编码(VVC)是最新的视频编码标准,由ITU-T视频编码组(VCEC)和ISO/IEC运动图像专家组(MPEG)的联合视频探索小组(JVET)开发。VVC标准的目标是提供比高效率视频编码(HEVC)标准更高的编码效率,以使其能够满足未来视频市场的需求,例如4K/8K超高清(UHD),高动态范围(HDR),虚拟现实(VR)和360度视频内容。据报道,与普通测试条件下的HEVC参考软件(HM)相比,VVC参考软件(VTM)的总体比特率降低了45%。但是,为了实现这种极大的编码效率改进,采用了一系列高级视频编码技术(例如基于四叉树嵌套多类型树(QTMT)的块划分结构,67种帧内预测模式和仿射运动补偿预测等),从而导致极高的编码复杂度增加。根据AHG报告,在全帧内测试配置下,VTM的帧内编码复杂度是HM的10倍以上。较高的复杂度使得难以将VVC实施在多媒体应用中,因此有必要在保障RD性能条件下显著降低编码复杂度。

很多文献都对帧内编码快速算法行了研究。对于快速CU划分决策方法,大致可分为三种策略,包括提前终止、多分类和联合分类。提前终止策略尝试确定递归的CU划分过程在当前深度级别的划分之后是否终止。不难理解,提前终止主要发生在平滑纹理区域,它可以很好地保持RD性能,但是降低的计算复杂度也是有限的。多分类策略设计了一个复杂的预测模型,可以直接获得最佳的划分模式。多分类策略大大降低了计算复杂度,但由于VVC的块划分结构更复杂,因此预测精度受到限制,从而导致RD性能损失要高得多。为了在显著降低复杂度的同时提高预测精度,有研究者设计了联合分类策略来预测每种划分模式的概率,并且选择具有最高概率的一个或多个划分模式作为最终划分模式的候选。

对于以上三种策略,都有三类通用方法实现,包括启发式方法,传统机器学习方法和端到端深度学习方法。启发式方法首先在编码过程中手动提取一些特征(例如,图像纹理复杂度,RD Cost,上下文信息),并且根据预设的阈值进行决策。启发式方法的最大优点是非常简单,但是准确性通常是有限的。传统的机器学习方法采用高级分类器(例如,支持向量机,决策树)来自动学习决策函数。端到端深度学习方法尝试使用深度神经网络自动完成特征提取和决策工作。

发明内容

有鉴于此,本发明的目的在于降低视频帧内编码的复杂度同时保持RD性能,提供一种基于随机森林的VVC帧内编码快速CU划分决策方法。

为达到上述目的,本发明提供如下技术方案:

一种基于随机森林的VVC帧内编码快速CU划分决策方法,包括以下步骤:

S1:根据纹理信息与上下文信息将CU分为三类,并为各类CU选取一系列具有代表性的特征;

S2:选取一系列具有不同分辨率与内容的视频序列进行编码,提取编码过程中各类CU的五类特征构建数据集;

S3:为不同种类的CU分别构建随机森林分类器,通过数据集对随机森林分类器进行训练;

S4:将训练好的随机森林分类器嵌入VVC原始编码流程中,预测各类CU的划分模式,替换原始递归的CU划分过程。

进一步,步骤S1具体包括:

S11:对于CU分类,使用方差定义CU的全局纹理复杂度,计算当前CU与周围CU的全局纹理复杂度;如果当前CU的纹理复杂度小于其相邻CU的最小纹理复杂度,则将其分类为简单CU;如果当前CU的纹理复杂度大于其相邻CU的最大纹理复杂度,则将其分类为复杂CU;如果当前CU的纹理复杂度介于其相邻CU的最小、最大纹理复杂度之间,则将其分类为模糊CU;

S12:对于特征选取,对JVET26条标准视频序列在不同QP下进行编码,统计CU深度分布,分析划分模式与视频内容关系,据此选取五类特征,包括纹理复杂度、梯度信息、上下文信息、局部复杂度差异、块信息。

进一步,步骤S2具体包括:

S21:提取纹理复杂度,包括全局纹理复杂度Var与局部纹理复杂度NMSE;

其中,W与H分别为当前CU的宽和高,P(i,j)为当前CU位置(i,j)处的像素值,Mean为当前CU像素的均值;

其中,MADP

S22:提取梯度信息,包括水平、垂直、45°、135°四个方向上对应的梯度值G

G

其中,P表示当前CU的像素矩阵,G

S23:提取上下文信息,包括相邻CU的纹理复杂度信息及深度信息相,所述相邻CU包括左下、左、左上、上、右上方的CU;相邻CU的纹理复杂度信息包括相邻CU全局纹理复杂度的最大值ACC

S24:提取局部复杂度差异,包括五种划分类型对应子CU之间的全局纹理复杂度差异:SCCD

其中var

S25:提取块信息,包括当前CU的宽W,高H,四叉树深度D

进一步,步骤S3具体包括:

复杂类型CU与简单类型CU对应的随机森林RF

其中p

其中,C

其中,D

其中F表示所有的特征,i表示特征A所取的值。

进一步,步骤S4具体包括:

将训练好的随机森林分类器嵌入VVC参考软件VTM7.0中;输入CU时,计算当前CU的五类特征,并根据纹理信息与上下文信息对当前CU进行分类;对于复杂和简单类型CU,将其特征输入随机森林RF

本发明的有益效果在于:本发明能够快速地进行CU划分决策,能够在降低视频帧内编码的复杂度同时保持RD性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1为本发明的求解流程图;

图2为本发明的随机森林结构示意图;

图3为本发明加速CU划分决策流程图;

图4为本发明的效果图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

下面将结合本发明实施例中的附图,对本发明实施例中的具体实施方式进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的求解流程如图1所示。选取JVET标准测试视频序列:Tango2、CatRobot、Cactus、PartyScene、BlowingBubbles、FourPeople、SlideEditing,配置文件为:encoder_intra_vtm.cfg,QP设置为:22、27、32、37,编码帧数为40帧,使用VTM7.0进行编码,提取CU的特征构建数据集。

随机森林中树的数量设置为10,最大深度设置为15,使用CART作为随机森林分类器的基础树,基于基尼系数确定每棵树各个节点的最优划分特征及对应最优取值。随机森林结构如图2所示。将数据集按4:1分为训练集与测试集,对随机森林进行训练与测试,得到直接预测划分模式的随机森林RF

使用VTM7.0对JVET A1-F类别中26个标准测试视频序列进行编码,配置文件为:encoder_intra_vtm.cfg,QP设置为:22、27、32、37,编码帧数为10帧。记录编码时间、PSNR、比特率。

将本发明中训练的两个随机森林嵌入VTM7.0中,替换原始的CU划分决策过程,流程如图3所示。对JVET中A1-F类别中26个标准测试视频序列进行编码,配置文件为:encoder_intra_vtm.cfg,QP设置为:22、27、32、37,编码帧数为10帧。记录编码时间、PSNR、比特率。

对结果进行对比,如图4所示。从图4可以看出本方法能节省57%的编码时间,这表明我们的方法能够快速地进行CU划分决策。同时,BDBR仅上升1.21%,BDPSNR仅下降0.12dB,这表明我们的方法引起的压缩效果降低与图像失真是几乎可以忽略的。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号