首页> 中国专利> 一种融合时空特征的无参考视频质量评估方法

一种融合时空特征的无参考视频质量评估方法

摘要

本发明涉及一种融合时空特征的无参考视频质量评估方法,包括以下步骤:步骤S1:获取视频数据集,作为训练集;步骤S2:构建空域特征提取子网络,并基于训练集下采样得到的帧集合训练;步骤S3:构建时域特征提取子网络,并基于训练集的残差图像序列训练;步骤S4:根据训练后的空域特征提取子网络和时域特征提取子网络,构建视频质量评估网络,并通过注意力机制自适应的调整时域和空域特征对于视频感知质量的影响,训练得到视频质量评估模型;步骤S5:根据得到的视频质量评估模型,提取待测视频的时域和空域特征,并计算待测视频的质量分数。本发明可以显著提高无参考视频质量评估的性能。

著录项

  • 公开/公告号CN112954312A

    专利类型发明专利

  • 公开/公告日2021-06-11

    原文格式PDF

  • 申请/专利权人 福州大学;

    申请/专利号CN202110176125.X

  • 发明设计人 牛玉贞;钟梦真;陈俊豪;

    申请日2021-02-07

  • 分类号H04N17/00(20060101);G06T7/00(20170101);G06T3/40(20060101);G06N3/08(20060101);G06N3/04(20060101);G06K9/62(20060101);

  • 代理机构35100 福州元创专利商标代理有限公司;

  • 代理人陈鼎桂;蔡学俊

  • 地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学

  • 入库时间 2023-06-19 11:21:00

说明书

技术领域

本发明涉及图像和视频处理以及计算机视觉领域,具体涉及一种融合时空特征的无参考视频质量评估方法。

背景技术

随着社交媒体应用的发展和消费者捕获设备的普及,人们可以随时随地通过便携式移动设备捕获视频来记录他们的日常生活,并通过各种媒体平台共享。这导致用户生成内容(user-generated content,UGC)视频在互联网上共享和流式传输的数量激增。因此,研究针对消费者视频的准确视频质量评估(video quality assessment,VQA)模型来监控、控制和优化这一庞大的内容是非常有必要的。此外由于大部分的用户并没有经过专业的培训,不具备专业的摄像知识导致其中可能包含因相机抖动、传感器噪音、失焦等引起的失真。而且在视频的编解码、存储、传输、处理过程中难以避免地会丢失部分原始数据,导致视频产生失真现象,出现噪点、变形、扭曲、缺失等现象。失真会不同程度地丢失原始视频中所包含的信息,从而影响人们对视频的观感、影响人们从视频中获取信息。对于提供以用户为中心的视频服务的组织而言,确保制作和分发链之后的视频能够满足视频接收端的质量要求至关重要。视频质量评估模型可以根据视频失真程度来对视频的质量进行评估,从而为后续的视频处理提供基础。视频质量评估是视频处理领域的关键技术之一,对于当下图像在医学、航空、教育、娱乐等领域来说是至关重要的。

视频的质量评估可分为主观质量评估和客观质量评估。其中依赖人工评分的主观质量评价是最准确合理的质量评估,但是由于它消耗的时间和人力限制了它在现实世界中的广泛使用。因此,研究者提出了客观质量评估方法来自动预测失真视频的视觉质量。根据参考信息的可用性,客观质量评估方法分为:全参考,半参考和无参考。由于在实际应用中许多视频并不具有参考视频,例如用户生成内容视频,因为在视频捕获过程中,它无法捕获完全没有失真的“完美”视频,参考视频的附加信息也导致视频传输期间的高带宽占用。因此不需要参考原始视频的无参考质量评估方法具有更广泛的实际应用价值。

现有的大部分无参考视频质量评估模型主要针对合成失真(如压缩失真)。真实失真视频和合成失真视频之间存在较大的区别,前者可能遭受复杂的混合现实世界失真,且同一视频在不同的时间段,失真也可能是不同的。并且根据最近的研究,一些合成失真数据集上验证的最先进的视频质量评估方法在真实失真视频数据集上表现不佳。近几年随着真实失真视频质量评估数据集的公开,以及现实应用的迫切需求。我们提出一种融合时空特征的无参考视频质量评估方法,通过使用视频残差图像序列输入3D卷积网络计算得到视频的时域特征,并应用注意力机制自适应的调整时域和空域失真对于视频感知质量的影响。该模型可以显著提高无参考视频质量评估模型的性能。

发明内容

有鉴于此,本发明的目的在于提供一种融合时空特征的无参考视频质量评估方法,有效提高无参考视频质量评估的效率及性能。

为实现上述目的,本发明采用如下技术方案:

一种融合时空特征的无参考视频质量评估方法,包括以下步骤:

步骤S1:获取视频数据集,作为训练集;

步骤S2:构建空域特征提取子网络,并基于训练集下采样得到的帧集合训练;

步骤S3:构建时域特征提取子网络,并基于训练集的残差图像序列训练;

步骤S4:根据训练后的空域特征提取子网络和时域特征提取子网络,构建视频质量评估网络,并通过注意力机制自适应的调整时域和空域特征对于视频感知质量的影响,训练得到视频质量评估模型;

步骤S5:根据得到的视频质量评估模型,提取待测视频的时域和空域特征,并计算待测视频的质量分数。

进一步的,所述步骤S2具体为:

步骤S21:对训练集每个视频均匀下采样,采样频率为每f帧取一帧,并且将视频的质量分数作为每帧的质量分数,得到一个训练帧集合;

步骤S22:根据图像分类网络作为主干网络,构建空域特征提取子网络,并预训练;

步骤S23:固定主干网络中预训练好的参数,根据训练帧集合训练空域特征提取子网络,通过最小化训练帧集合中所有帧的预测质量分数和真实质量分数之间的均方误差损失,学习到模型最优参数,完成对空域特征提取子网络的训练过程。

进一步的,所述空域特征提取子网络具体为:将VGG16、ResNet50或Densenet作为主干网络,将主干网络最后一层卷积层之后的部分代替为以下部分:首先用一个通道数为C的1×1卷积层得到视频帧的空域特征图

进一步的,所述步骤S3具体为:

步骤S31:构建一个由多个3D卷积层组成的神经网络作为视频时域特征提取子网络;

步骤S32:将训练集视频划分为若干子视频,将训练集中所有视频得到的子视频作为子视频集合,每个子视频的真实质量分数为其对应视频的真实质量分数;

步骤S33:使用子视频集合,以批次为单位,训练时域特征提取子网络;通过最小化子视频的预测质量分数和真实质量分数之间的均方误差损失,学习模型的最优参数,完成对时域特征提取子网络的训练过程。

进一步的,所述时域特征提取子网络依次由3D卷积模块、池化模块和回归模块组成,具体为:3D卷积模块有6个3D卷积层,前5层卷积层的卷积核大小为3×3×3,最后一层卷积核大小是1×1×m;每个卷积层后面都使用了激活函数ReLU,最后一个3D卷积层的通道数为C;所述3D卷积模块的输出为输入子视频的时域特征图

进一步的,所述步骤S32具体为:将训练集一个视频划分为若干个等长的子视频,每个子视频包含连续的m帧;对每个子视频计算相应的残差图像序列,计算公式如下:

RF

其中,F

将每个子视频的残差图像序列输入步骤S31中设计的网络,首先通过3D卷积模块得到一个C×F×W的时域特征图F

进一步的,所述视频质量评估网络包括空域特征提取模块,时域特征提取模块,注意力模块,和后若干池化层和全连接层;所述训练后的空域特征提取模块为空域特征提取子网络的主干网络和1×1卷积层,时域特征提取模块为时域特征提取子网络的3D卷积模块。

进一步的,所述视频质量评估网络构建及训练,具体为:

通过对m个空域特征图计算平均值得到对应子视频的一个空域特征图

设计注意力模块,包括融合注意力和空间注意力,首先根据时空特征图F

计算时空特征的空间注意力图,将融合注意力图

对新特征图F

将空间注意力图A

使用全局池化方法将时空特征图F

使用训练后的空域特征提取子网络中相应部分的参数作为空域特征提取模块的参数,使用训练后的时域特征提取子网络中相应部分的参数作为时域特征提取模块的参数;

固定空域特征提取模块和时域特征提取模块的参数,并根据子视频集合,训练视频质量评估网络;

通过最小化所有子视频的预测质量分数和真实质量分数之间的均方误差损失,学习模型的最优参数,完成视频质量评估网络的训练过程。

进一步的,所述A

其中,

A

其中

Conv代表卷积层。

进一步的,所述使用全局池化方法将时空特征图F

本发明与现有技术相比具有以下有益效果:

1、本发明通过空域特征提取模块提取深层语义特征以解决预测视频质量的内容依赖性问题。设计时域特征提取模块并使用视频残差图像代替RGB帧,去除静止物体和背景信息来捕获更多特定于运动的信息;通过注意力模块融合时空特征,自适应的调整空域和时域失真对于视频感知质量的影响,可以显著提高无参考视频质量评估的性能。

2、本发明模型可以很好的适用于遭受复杂的混合现实世界失真的视频,具有更广泛的实际应用价值。

附图说明

图1是本发明方法流程图;

图2是本发明实施例中的融合时空特征的无参考视频质量评估模型的结构图;

图3是本发明实例中的时域特征提取子网络的结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1,本发明提供一种融合时空特征的无参考视频质量评估方法,包括以下步骤:

步骤S1:获取视频数据集,并根据预设比例随机分为训练集(80%)和测试集(20%);

步骤S2:构建空域特征提取子网络,并基于训练集下采样得到的帧集合训练;

步骤S21:对训练集每个视频均匀下采样,采样频率为每f帧取一帧,并且将视频的质量分数作为每帧的质量分数,得到一个训练帧集合;

步骤S22:根据图像分类网络作为主干网络,构建空域特征提取子网络,并预训练;

步骤S23:固定主干网络中预训练好的参数,根据训练帧集合训练空域特征提取子网络,通过最小化训练帧集合中所有帧的预测质量分数和真实质量分数之间的均方误差损失,学习到模型最优参数,完成对空域特征提取子网络的训练过程。

步骤S3:构建时域特征提取子网络,并基于训练集的残差图像序列训练,具体为;

步骤S31:构建一个由多个3D卷积层组成的神经网络作为视频时域特征提取子网络;

步骤S32:将训练集视频划分为若干子视频,将训练集中所有视频得到的子视频作为子视频集合,每个子视频的真实质量分数为其对应视频的真实质量分数;

优选的,将训练集一个视频划分为若干个等长的子视频,每个子视频包含连续的m帧;对每个子视频计算相应的残差图像序列,计算公式如下:

RF

其中,F

将每个子视频的残差图像序列输入步骤S31中设计的网络,首先通过3D卷积模块得到一个C×F×W的时域特征图F

步骤S33:使用子视频集合,以批次为单位,训练时域特征提取子网络;通过最小化子视频的预测质量分数和真实质量分数之间的均方误差损失,学习模型的最优参数,完成对时域特征提取子网络的训练过程。

步骤S4:根据训练后的空域特征提取子网络和时域特征提取子网络,构建视频质量评估网络,并通过注意力机制自适应的调整时域和空域特征对于视频感知质量的影响,训练得到视频质量评估模型;

步骤S5:根据得到的视频质量评估模型,提取待测视频的时域和空域特征,并计算待测视频的质量分数。

优选的,在本实施例中,空域特征提取子网络具体为:将VGG16、ResNet50或Densenet作为主干网络,将主干网络最后一层卷积层之后的部分代替为以下部分:首先用一个通道数为C的1×1(C=128)卷积层得到视频帧的空域特征图

优选的,在本实施例中,空时域特征提取子网络依次由3D卷积模块、池化模块和回归模块组成,具体为:3D卷积模块有6个3D卷积层,前5层卷积层的卷积核大小为3×3×3,最后一层卷积核大小是1×1×m;每个卷积层后面都使用了激活函数ReLU,最后一个3D卷积层的通道数为C;所述3D卷积模块的输出为输入子视频的时域特征图

优选的,在本实施例中,视频质量评估网络包括空域特征提取模块,时域特征提取模块,注意力模块,和后若干池化层和全连接层;所述训练后的空域特征提取模块为空域特征提取子网络的主干网络和1×1卷积层,时域特征提取模块为时域特征提取子网络的3D卷积模块。

视频质量评估网络构建及训练,具体为:

通过对m个空域特征图计算平均值得到对应子视频的一个空域特征图

设计注意力模块,包括融合注意力和空间注意力,首先根据时空特征图F

其中,

计算时空特征的空间注意力图,将融合注意力图

对新特征图F

其中

将空间注意力图A

使用全局池化方法将时空特征图F

使用训练后的空域特征提取子网络中相应部分的参数作为空域特征提取模块的参数,使用训练后的时域特征提取子网络中相应部分的参数作为时域特征提取模块的参数;

固定空域特征提取模块和时域特征提取模块的参数,并根据子视频集合,训练视频质量评估网络;

通过最小化所有子视频的预测质量分数和真实质量分数之间的均方误差损失,学习模型的最优参数,完成视频质量评估网络的训练过程。

在本实施例中,步骤S5具体为;

步骤S51:将每个待测视频用步骤S32的方法划分为若干个子视频,每个子视频包含连续的m帧。

步骤S52:首先,将子视频拆成帧输入到空域特征提取模块。然后,将子视频输入到时域特征提取模块。最后,通过视频质量评估网络预测子视频的质量分数。

步骤S53:将该视频中所有子视频得到的预测质量分数取平均值作为该视频的预测质量分数。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号