首页> 中国专利> 用于评估视频的主观质量的方法及装置

用于评估视频的主观质量的方法及装置

摘要

提出了一种用于评估视频的质量的方法和设备,其中:从用于评估质量的目标视频和将与目标视频进行比较的参考视频获得划分出的预定尺寸的块;将块输入到视频质量评估网络,确定针对每一个块的灵敏度信息和质量评价信息;以及基于针对每一个块的所述灵敏度将质量评估信息进行组合,并且确定目标视频的最终视频质量评估得分。

著录项

  • 公开/公告号CN113196761A

    专利类型发明专利

  • 公开/公告日2021-07-30

    原文格式PDF

  • 申请/专利权人 三星电子株式会社;

    申请/专利号CN201980083032.3

  • 申请日2019-09-26

  • 分类号H04N19/132(20060101);H04N19/85(20060101);H04N19/50(20060101);H04N19/184(20060101);G06N3/08(20060101);

  • 代理机构11286 北京铭硕知识产权代理有限公司;

  • 代理人刘超;曾世骁

  • 地址 韩国京畿道水原市

  • 入库时间 2023-06-19 12:02:28

说明书

技术领域

本公开涉及一种用于评估视频的主观质量的方法和装置,并且更具体地,涉及一种用于通过使用视频质量评价网络来评估视频的主观质量的方法和装置,以及一种用于通过将视频质量评价网络应用于用于对尺寸进行变换的深度神经网络来对图像进行编码的方法和设备以及对图像进行解码的方法和设备。

背景技术

图像由遵循指定的数据压缩标准(例如,运动图像专家组(MPEG)压缩标准)的编解码器被编码,然后以比特流的形式被存储在记录介质中或者经由通信信道被发送。

随着用于再现和存储高分辨率/高质量图像的硬件的开发和供应,对能够有效地对高分辨率/高质量图像进行编码和解码的编解码器的需求正在增加。

发明内容

技术问题

因为针对每一个内容由人所感知的最小可觉差(JND)(即,人感觉视频质量不同的程度)不同,所以在保持相同感知的视频质量的同时传输最少量的信息是重要的。为此,在需要评估视频质量的图像编码/解码领域中,对人类视觉系统进行建模并接近人类视觉系统的方法需要过长的时间,因此使用一种用于评估视频质量的方法和装置,其中,使用从视频质量评价网络(VQANet)获得的视频质量数据集来训练人类视觉系统,并且通过使用基于时间维度的信息的块节省了通过训练VQANet所需的时间。

问题的解决方案

根据本公开的一个方面,一种评估图像质量的方法包括:通过对用于评估质量的目标图像和将与目标图像进行比较的参考图像进行划分来获得多个块,其中,每一个块具有预定尺寸;通过将所述多个块输入到视频质量评价网络来确定所述每一个块的灵敏度信息和质量评价信息;以及通过基于所述多个块的灵敏度信息将所述多个块的质量评价信息彼此组合来确定所述目标图像的最终图像质量评价得分。

根据本公开的一方面,一种图像解码方法包括:接收与经由通过缩小深度神经网络(DNN)进行AI缩小获得的第一图像相关的图像数据;基于所述图像数据获得与第一图像相应的第二图像;以及通过经由放大DNN对第二图像进行AI放大来获得第三图像,其中,所述放大DNN是基于图像质量评价损失信息被训练的,其中,所述图像质量评估损失信息是作为由所述放大DNN输出的第一训练图像相对于原始训练图像的视频质量评价的结果被获得的。

根据本公开的一方面,一种图像编码方法包括:将原始图像输入到缩小DNN;以及对通过经由所述缩小DNN对所述原始图像进行AI缩小而获得的第一图像进行编码,其中,所述缩小DNN是基于第一损失信息被训练的,其中,第一损失信息与将通过视频质量评价从多个质量增强图像中选择的质量增强图像与由所述缩小DNN输出的第一训练图像进行比较的结果相应,其中,所述多个质量增强图像是通过对与原始训练图像相应的缩减的训练图像执行多种增强方法被获得的。

根据本发明的一方面,一种用于评估目标图像的质量的设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行存储在存储器中的至少一个指令,其中,处理器被配置为通过对用于评估质量的目标图像和将与目标图像进行比较的参考图像进行划分来获得多个块,其中,每一个块具有预定尺寸,通过将所述多个块输入到视频质量评价网络来确定所述每一个块的灵敏度信息和质量评价信息,并且通过基于所述多个块的灵敏度信息将所述多个块的质量评价信息彼此组合来确定目标图像的最终图像质量评价得分。

根据本公开的一方面,一种图像解码设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行存储在存储器中的至少一个指令,其中,处理器被配置为:接收与通过经由缩小DNN进行AI缩小而获得的第一图像相关的图像数据,基于所述图像数据获得与第一图像相应的第二图像,并且通过经由放大DNN对第二图像进行AI放大来获得第三图像,其中,所述放大DNN是基于图像质量评价损失信息被训练的,其中,所述图像质量评估损失信息是作为由所述放大DNN输出的第一训练图像相对于原始训练图像的视频质量评价的结果被获得的。

根据本公开的一个方面,一种图像编码设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行存储在存储器中的至少一个指令,其中,处理器被配置为将原始图像输入到缩小DNN,并且对通过使用所述缩小DNN对所述原始图像进行AI缩小而获得的第一图像进行编码,并且所述缩小DNN是基于第一损失信息被训练的,其中,第一损失信息与将通过视频质量评价从多个质量增强图像中选择的质量增强图像与由所述缩小DNN输出的第一训练图像进行比较的结果相应,其中,所述多个质量增强图像是通过对与原始训练图像相应的缩减的训练图像执行多种增强方法被获得的。

本公开的有利效果

基于深度学习通过使用灵敏度信息和质量评价信息确定用于质量评估的目标图像的最终图像质量评价得分,来评估目标图像的主观视频质量,其中,灵敏度信息和质量评价信息是通过将目标图像和将与目标图像进行比较的参考图像被划分出的块输入到视频质量网络被确定的。另外,提供了一种通过将视频质量网络应用于深度神经网络来对反映了主观视频质量评估的尺寸进行变换的深度神经网络。

附图说明

提供每一个附图的简要描述以更好地理解这里所引用的附图。

图1是用于描述根据本公开的实施例的人工智能(AI)编码处理和AI解码处理的示图。

图2是根据本公开的实施例的AI解码设备的结构的框图。

图3是示出用于对第二图像执行AI放大的第二深度神经网络(DNN)的示图。

图4是用于描述卷积层中的卷积运算的示图。

图5是示出若干条图像相关信息和若干条DNN设置信息之间的映射关系的表。

图6是示出包括多个帧的第二图像的示图。

图7是根据本公开的实施例的AI编码设备的结构的框图。

图8是示出用于对原始图像执行AI缩小的第一DNN的示图。

图9是用于描述训练第一DNN和第二DNN的方法的示图。

图10是用于描述由训练设备对第一DNN和第二DNN的训练处理的示图。

图11是用于对原始图像执行AI缩小的设备和用于对第二图像执行AI放大的设备的框图。

图12是根据本公开的实施例的评估图像质量的方法的流程图。

图13是根据本公开的实施例的用于评估图像质量的设备的框图。

图14示出通过视频质量评价网络(VQANet)确定图像质量的实施例。

图15是根据本公开的实施例的VQANet的结构的框图。

图16是示出从作为动态路由的结果输出的平均意见得分(MOS)的矢量获得MOS平均值和MOS标准差的示例的示图。

图17是根据本公开的另一实施例的VQANet的结构的框图。

图18是用于描述通过将VQANet应用于第一DNN和第二DNN来训练用于缩小的第一DNN和用于放大的第二DNN的方法的示图。

具体实施方式

最佳实施方式

根据本公开的一个方面,一种评估图像质量的方法包括:通过对用于评估质量的目标图像和将与目标图像进行比较的参考图像进行划分来获得多个块,其中,每一个块具有预定尺寸;通过将所述多个块输入到视频质量评价网络来确定每一个块的灵敏度信息和质量评价信息;以及通过基于所述多个块的灵敏度信息将所述多个块的质量评价信息彼此组合来确定所述目标图像的最终图像质量评价得分。

根据实施例,所述视频质量评价网络可通过将所述目标图像和所述参考图像的所述多个块输入到卷积神经网络来确定每一个块的灵敏度信息,并且可通过将所述目标图像和所述参考图像的所述多个块输入到胶囊神经网络来确定每一个块的质量评价信息。

根据实施例,所述灵敏度信息可被用作每一个块的权重,所述质量评价信息可包括每一个块的平均意见得分(MOS)平均值,所述最终图像质量评价得分可以是通过基于所述权重的MOS平均值的加权平均被确定的,并且MOS可以是表示用户的主观感知的质量的值。

根据实施例,所述视频质量评价网络可通过将目标训练图像和参考训练图像的块输入到卷积神经网络来确定目标训练图像和参考训练图像的块的各条灵敏度信息,可通过将目标训练图像和参考训练图像的块输入到胶囊神经网络来确定目标训练图像和参考训练图像的块的各个MOS平均值和各个MOS标准差,并且所述视频质量评价网络可以是使用所述各条灵敏度信息、所述各个MOS平均值和所述各个MOS标准差被训练的。

根据实施例,所述视频质量评价网络可通过将目标训练图像和参考训练图像的块输入到卷积神经网络来确定目标训练图像和参考训练图像的块的各条灵敏度信息,可通过将目标训练图像和参考训练图像的块输入到胶囊神经网络来确定目标训练图像和参考训练图像的每一个块的全参考质量评价信息,可通过将目标训练图像的块输入到胶囊神经网络来确定目标训练图像的每一个块的非参考质量评价信息,并且所述视频质量评价网络是可以是使用所述各条灵敏度信息、所述全参考质量评价信息和所述非参考质量评价信息被训练的。

根据实施例,所述全参考质量评价信息可包括目标训练图像和参考训练图像的块的全参考MOS平均值和全参考MOS标准差,其中,所述非参考质量评价信息可包括目标训练图像的块的非参考MOS平均值和非参考MOS标准差,并且MOS可以是表示用户的主观感知的质量的值。

根据实施例,所述预定尺寸可以是t×b×b×c,其中,t指示帧的数量,b指示水平尺寸或垂直尺寸,以及c指示颜色通道的数量。

根据实施例,所述质量评价信息可包括每一个块的MOS平均值和MOS标准差,所述灵敏度信息可被用作每一个块的权重,所述最终图像质量评价得分可以是根据基于所述权重的MOS平均值的加权平均以及基于所述权重的MOS标准差的加权平均被确定的,并且MOS可以是表示用户的主观感知的质量的值。

根据本公开的一方面,一种图像解码方法包括:接收与经由通过缩小深度神经网络(DNN)进行AI缩小而获得的第一图像相关的图像数据;基于所述图像数据获得与第一图像相应的第二图像;以及通过经由放大DNN对第二图像进行AI放大来获得第三图像,其中,所述放大DNN是基于图像质量评估损失信息被训练的,其中,所述图像质量评估损失信息是作为由所述放大DNN输出的第一训练图像相对于原始训练图像的视频质量评估的结果被获得的。

根据实施例,可通过第一训练图像的视频质量评价得分来确定所述图像质量评价损失信息,其中,所述视频质量评价得分是通过以下操作被确定的:通过对用于质量评估的第一训练图像和将与第一训练图像进行比较的原始训练图像进行划分来获得多个块,其中,每一个块具有预定尺寸,通过将所述多个块输入到视频质量评价网络来确定每一个块的灵敏度信息和质量评价信息,以及基于灵敏度信息将质量评价信息彼此组合。

根据实施例,所述视频质量评价网络可通过将所述多个块输入到卷积神经网络来确定第一训练图像和原始训练图像的每一个块的灵敏度信息,并且可通过将所述多个块输入到胶囊神经网络来确定第一训练图像和原始训练图像的每一个块的质量评价信息。

根据本公开的一方面,一种图像编码方法包括:将原始图像输入到缩小DNN;以及对通过经由所述缩小DNN对所述原始图像进行AI缩小而获得的第一图像进行编码,其中,所述缩小DNN是基于第一损失信息被训练的,其中,第一损失信息与将通过视频质量评价从多个质量增强图像中选择的质量增强图像与由所述缩小DNN输出的第一训练图像进行比较的结果相应,其中,所述多个质量增强图像是通过对与原始训练图像相应的缩减的训练图像执行多种增强方法被获得的。

根据实施例,所述选择的质量增强图像是作为以下操作的结果的具有最高视频质量评价得分的质量增强图像:将多个预定增强方法应用于缩减的训练图像来确定多个质量增强图像,其中,所述缩减的图像是通过根据所述原始训练图像的结构特征缩减所述原始训练图像而确定的,通过对所述多个质量增强图像和所述缩减的训练图像进行划分来获得多个块,其中,每一个块具有预定尺寸,通过将所述多个块输入到视频质量评价网络来确定所述多个块的各条灵敏度信息和各条质量评价信息,基于所述各条灵敏度信息和所述各条质量评价信息,确定所述多个质量增强图像的各个视频质量评价得分,以及将所述多个质量增强图像的视频质量评价得分进行比较。

根据实施例,所述视频质量评价网络可通过将所述多个质量增强图像和缩减的训练图像的多个块输入到卷积神经网络来确定每一个块的灵敏度信息,并且可通过将所述多个质量增强图像和所述缩减的训练图像的所述多个块输入到胶囊神经网络来确定每一个块的质量评价信息。

根据本发明的一方面,一种用于评估目标图像的质量的设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行存储在存储器中的至少一个指令,其中,处理器被配置为通过对用于评估质量的目标图像和将与目标图像进行比较的参考图像进行划分来获得多个块,其中,每一个块具有预定尺寸,通过将所述多个块输入到视频质量评价网络来确定每一个块的灵敏度信息和质量评价信息,并且通过基于所述多个块的灵敏度信息将所述多个块的质量评价信息彼此组合来确定所述目标图像的最终图像质量评价得分。

根据本公开的一方面,一种图像解码设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行存储在存储器中的至少一个指令,其中,处理器被配置为:接收与经由通过缩小DNN进行AI缩小而获得的第一图像相关的图像数据,基于所述图像数据获得与第一图像相应的第二图像,并且通过经由放大DNN对第二图像进行AI放大来获得第三图像,其中,所述放大DNN是基于图像质量评估损失信息被训练的,其中,所述图像质量评估损失信息是作为由所述放大DNN输出的第一训练图像相对于原始训练图像的视频质量评估的结果被获得的。

根据本公开的一个方面,一种图像编码设备包括:存储器,存储一个或更多个指令;以及处理器,被配置为执行存储在存储器中的至少一个指令,其中,处理器被配置为:将原始图像输入到缩小DNN,并且对通过使用所述缩小DNN对原始图像进行AI缩小而获得的第一图像进行编码,并且所述缩小DNN是基于第一损失信息被训练的,其中,第一损失信息与将通过视频质量评估从多个质量增强图像中选择的质量增强图像与由所述缩小DNN输出的第一训练图像进行比较的结果相应,其中,所述多个质量增强图像是通过对与原始训练图像相应的缩小训练图像执行多种增强方法被获得的。

本公开的实施方式

由于本公开允许各种改变和许多示例,因此将在附图中示出并在书面描述中详细描述特定实施例。然而,这并不旨在将本公开限制于实践的特定模式,并且将理解,不脱离本公开的精神和技术范围的全部改变、等同和替代都被包含在本公开中。

在实施例的描述中,当认为对相关技术的特定详细解释可能不必要地使本公开的本质模糊时,省略对相关技术的特定详细解释。此外,在说明书的描述中使用的数字(例如,第一、第二等)仅是用于将一个元素与另一元素区分开的标识符代码。

此外,在本说明书中,将理解,当元件彼此“连接”或“耦接”时,所述元件可彼此直接连接或耦接,但是可选地,除非另有指定,否则可通过所述元件之间的中间元件彼此连接或耦接。

在本说明书中,对于被表示为“单元”或“模块”的元件,可将两个或更多个元件组合为一个元件,或者可根据细分的功能将一个元件划分为两个或更多个元件。此外,在下文中描述的每个元件除了其主要功能之外,还可另外执行由另一元件执行的一些或全部功能,并且每个元件的一些主要功能可完全由另一组件来执行。

此外,在本说明书中,“图像”或“画面”可表示静止图像、包括多个连续静止图像(或帧)的运动图像、或者视频。

此外,在本说明书中,深度神经网络(DNN)是一种模拟脑神经的人工神经网络模型的代表性示例,并且不限于使用特定算法的人工神经网络模型。

此外,在本说明书中,“参数”是在形成神经网络的每一层的运算处理中使用的值,并且例如,可包括将输入值应用于特定运算表达式时使用的权重。这里,参数可以以矩阵形式来表示。参数是作为训练的结果而设置的值,并且在必要时可通过单独的训练数据被更新。

此外,在本说明书中,“第一DNN”指示用于对图像进行人工智能(AI)缩小的DNN,“第二DNN”指示用于对图像进行AI放大的DNN。

此外,在本说明书中,“DNN设置信息”包括以上作为与构成DNN的元素相关的信息而被描述的参数。可通过使用DNN设置信息来设置第一DNN或第二DNN。

此外,在本说明书中,“原始图像”表示作为AI编码的对象的图像,并且“第一图像”表示作为在AI编码处理期间对原始图像执行AI缩小的结果而获得的图像。“第二图像”表示在AI解码处理期间经由第一解码而获得的图像,并且“第三图像”表示在AI解码处理期间通过对第二图像进行AI放大而获得的图像。

此外,在本说明书中,“AI缩小”表示基于AI降低图像的分辨率的处理,并且“第一编码”表示根据基于频率变换的图像压缩方法的编码处理。此外,“第一解码”表示根据基于频率变换的图像重建方法的解码处理,“AI放大”表示基于AI提高图像的分辨率的处理。

图1是根据本公开的实施例的用于描述AI编码处理和AI解码处理的示图。

如上所述,当图像的分辨率显著增加时,用于对图像进行编码/解码的信息的吞吐量增加,因此,需要一种用于提高图像的编码和解码效率的方法。

如在图1中所示出的,根据本公开的实施例,通过对具有高分辨率的原始图像105执行AI缩小110来获得第一图像115。然后,对具有相对低分辨率的第一图像115执行第一编码120和第一解码130,因此与对原始图像105执行第一编码120和第一解码130时相比,被处理的比特率可大大降低。

详细地讲,参照图1,根据实施例,在AI编码处理期间,通过对原始图像105执行AI缩小110来获得第一图像115并且对第一图像115执行第一编码120。在AI解码处理期间,接收作为AI编码的结果而获得的包括AI数据和图像数据的AI编码数据,经由第一解码130获得第二图像135,并且通过对第二图像135执行AI放大140来获得第三图像145。

详细参照AI编码处理,当接收到原始图像105时,对原始图像105执行AI缩小110以获得特定分辨率或特定质量的第一图像115。基于AI来执行AI缩小110,并且用于AI缩小110的AI需要与用于针对第二图像135的AI放大140的AI联合训练。这是因为,当用于AI缩小110的AI和用于AI放大140的AI被单独训练时,作为AI编码的对象的原始图像105与通过AI解码重建的第三图像145之间的差异会增加。

根据本公开的实施例,AI数据可被用于在AI编码处理和AI解码处理期间保持这样的联合关系。因此,通过AI编码处理获得的AI数据需要包括指示放大目标的信息,并且在AI解码处理期间,根据基于AI数据验证的放大目标需要对第三图像135执行AI放大140。

用于AI缩小110的AI和用于AI放大140的AI可被实施为DNN。如稍后将参照图9描述的,因为通过在特定目标下共享损失信息来联合训练第一DNN和第二DNN,所以AI编码设备可将在第一DNN和第二DNN的联合训练期间使用的目标信息提供给AI解码设备,并且AI解码设备可基于所接收的目标信息对第二图像135执行AI放大140至目标分辨率。

关于图1的第一编码120和第一解码130,可通过第一编码120减少通过对原始图像105执行AI缩小110而获得的第一图像115的信息量。第一编码120可包括通过对第一图像115进行预测来生成预测数据的处理、生成与第一图像115与预测数据之间的差相应的残差数据的处理、将空间域分量的残差数据变换为频域分量的处理、对变换为频域分量的残差数据进行量化的处理、以及对量化的残差数据进行熵编码的处理。这样的第一编码120可经由使用频率变换的图像压缩方法(诸如MPEG-2、H.264高级视频编码(AVC)、MPEG-4、高效视频编码(HEVC)、VC-1、VP8、VP9和AOMedia Video1(AV1))中的一种来执行。

可通过对图像数据执行第一解码130来重建与第一图像115相应的第二图像135。第一解码130可包括通过对图像数据进行熵解码来生成量化的残差数据的处理、对量化的残差数据进行反量化的处理、将频域分量的残差数据变换为空间域分量的处理、生成预测数据的处理、以及通过使用预测数据和残差数据来重建第二图像135的处理。这样的第一解码130可经由与在第一编码120中使用的使用频率变换的图像压缩方法(诸如MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1)之一相应的图像重建方法来执行。

通过AI编码处理获得的AI编码数据可包括作为对第一图像115执行第一编码120的结果而获得的图像数据以及与原始图像105的AI缩小110相关的AI数据。可在第一解码130期间使用图像数据,并且可在AI放大140期间使用AI数据。

可以以比特流的形式发送图像数据。图像数据可包括基于第一图像115中的像素值而获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括对第一图像115进行第一编码120期间使用的多条信息。例如,图像数据可包括第一编码120期间使用的预测模式信息、运动信息和量化参数相关信息。可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的在第一编码120期间使用的图像压缩方法的规则(例如,语法)来生成图像数据。

在基于第二DNN的AI放大140中使用AI数据。如上所述,因为第一DNN和第二DNN被联合训练,所以AI数据包括使得能够通过第二DNN对第二图像135准确地执行AI放大140的信息。在AI解码处理期间,可基于AI数据对第二图像135执行AI放大140以具有目标分辨率和/或质量。

AI数据可与图像数据一起以比特流的形式被发送。可选地,根据实施例,AI数据可以以帧或包的形式与图像数据分离地被发送。可通过相同的网络或通过不同的网络发送作为AI编码的结果而获得的AI数据和图像数据。

图2是根据本公开的实施例的AI解码设备200的配置的框图。

参照图2,AI解码设备200可包括接收器210和AI解码器230。接收器210可包括通信接口212、解析器214和输出接口216。AI解码器230可包括第一解码器232和AI放大器234。

接收器210接收并解析作为AI编码的结果而获得的AI编码数据,并且将图像数据和AI数据可区分地输出到AI解码器230。

详细地讲,通信接口212通过网络接收作为AI编码的结果而获得的AI编码数据。作为AI编码的结果而获得的AI编码数据包括图像数据和AI数据。可通过相同类型的网络或不同类型的网络接收图像数据和AI数据。

解析器214通过通信接口212接收AI编码数据,并对AI编码数据进行解析以将图像数据和AI数据区分开。例如,解析器214可读取从通信接口212获得的数据的头以确定数据是图像数据还是AI数据。根据实施例,解析器214经由通过通信接口212接收到的数据的头将图像数据和AI数据可区分地发送到输出接口216,并且输出接口216将图像数据和AI数据分别发送到第一解码器232和AI放大器234。此时,解析器214可验证包括在AI编码数据中的图像数据是经由特定编解码器(例如,MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1)获得的图像数据。在这种情况下,解析器214可通过输出接口216可将相应信息发送到第一解码器232,使得图像数据经由验证的编解码器被处理。

根据实施例,可从数据存储介质获得由解析器214解析的AI编码数据,其中,所述数据存储介质包括磁介质(诸如,硬盘、软盘或磁带)、光学记录介质(诸如,CD-ROM或DVD)或者磁光介质(诸如,软光盘)。

第一解码器232基于图像数据重建与第一图像115相应的第二图像135。由第一解码器232获得的第二图像135被提供给AI放大器234。根据实施例,可将图像数据中包括的第一解码相关信息(诸如预测模式信息、运动信息、量化参数信息等)提供给AI放大器234。

响应于接收到AI数据,AI放大器234基于AI数据对第二图像135执行AI放大。根据实施例,AI放大器234可通过进一步使用包括在图像数据中的第一解码相关信息(诸如预测模式信息、量化参数信息等)来执行AI放大。

根据实施例的接收器210和AI解码器230在上面已经被描述为单独的装置,但可通过一个处理器被实现。在这种情况下,可通过专用处理器或者通过软件和通用处理器(诸如应用处理器(AP)、中央处理器(CPU)或图形处理单元(GPU))的组合来实现接收器210和AI解码器230。可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现所述专用处理器。

此外,接收器210和AI解码器230可由多个处理器来配置。在这种情况下,可通过专用处理器的组合或者通过软件和多个通用处理器(诸如AP、CPU或GPU)的组合来实现接收器210和AI解码器230。类似地,可通过不同处理器实现AI放大器234和第一解码器232。

提供给AI放大器234的AI数据包括使得第二图像135能够被执行AI放大的多条信息。这里,放大目标需要相应于第一DNN的缩小。因此,AI数据需要包括用于验证第一DNN的缩小目标的信息。

AI数据中包括的信息的示例包括原始图像105的分辨率与第一图像115的分辨率之间的差信息以及与第一图像115相关的信息。

差信息可被表示为关于第一图像115与原始图像105相比的分辨率转换程度的信息(例如,分辨率转换率信息)。此外,因为通过重建的第二图像135的分辨率来确定第一图像115的分辨率并且因此分辨率转换程度被验证,所以所述差信息可仅被表示为原始图像105的分辨率信息。这里,分辨率信息可被表示为垂直屏幕尺寸/水平屏幕尺寸、或者比率(16:9、4:3等)和一个轴的尺寸。此外,当存在预先设置的分辨率信息时,可以以索引或标志的形式来表示分辨率信息。

与第一图像115相关的信息可包括关于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率或在第一图像115的第一编码期间使用的编解码器类型中的至少一个的信息。

AI放大器234可基于包括在AI数据中的差信息或与第一图像115相关的信息中的至少一个来确定第二图像135的放大目标。放大目标可指示例如将针对第二图像135将分辨率放大到什么程度。当放大目标被确定时,AI放大器234通过第二DNN对第二图像135执行AI放大,以获得与放大目标相应的第三图像145。

在描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法之前,将参照图3和图4描述通过第二DNN的AI放大处理。

图3是示出用于对第二图像135执行AI放大的第二DNN 300的示图,并且图4是示出图3的第一卷积层310中的卷积运算的示图。

如在图3中所示出的,第二图像135被输入到第一卷积层310。图3中所示的第一卷积层310中指示的3×3×4指示通过使用尺寸为3×3的四个滤波器核对一个输入图像执行卷积处理。由所述四个滤波器核生成四个特征图作为卷积处理的结果。每个特征图指示第二图像135的固有特性。例如,每个特征图可表示第二图像135的垂直方向特性、水平方向特性或边缘特性。

将参照图4详细描述第一卷积层310中的卷积运算。

可通过在第一卷积层310中使用的尺寸为3×3的滤波器核430的参数与第二图像135中的相应像素值之间的乘法和加法来生成一个特征图450。因为在第一卷积层310中使用四个滤波器核,所以可使用四个滤波器核通过卷积运算来生成四个特征图。

图4中的第二图像135中指示的I1至I49指示第二图像135中的像素,并且滤波器核430中指示的F1至F9指示滤波器核430的参数。此外,特征图450中指示的M1至M9指示特征图450的样点。

在图4中,第二图像135包括49个像素,但是像素的数量仅是示例。当第二图像135具有4K的分辨率时,第二图像135可包括例如3840×2160个像素。

在卷积运算处理期间,将第二图像135的I1、I2、I3、I8、I9、I10、I15、I16和I17的像素值与滤波器核430的F1至F9分别相乘,并且可将相乘的结果值的组合(例如,相加)的值赋为特征图450的M1的值。当卷积运算的步长为2时,将第二图像135的I3、I4、I5、I10、I11、I12、I17、I18和I19的像素值分别与滤波器核430的F1至F9相乘,并且相乘的结果值的组合的值可被赋为特征图450的M2的值。

当滤波器核430正沿着步长移动到第二图像135的最后像素时,在第二图像135中的像素值与滤波器核430的参数之间执行卷积运算,并且因此可生成具有特定尺寸的特征图450。

根据本公开,可通过第一DNN和第二DNN的联合训练来优化第二DNN的参数的值(例如,在第二DNN的卷积层中使用的滤波器核的参数(例如,滤波器核430的F1至F9)的值)。如上所述,AI放大器234可基于AI数据确定与第一DNN的缩小目标相应的放大目标,并且将与所确定的放大目标相应的参数确定为在第二DNN的卷积层中使用的滤波器核的参数。

包括在第一DNN和第二DNN中的卷积层可根据参照图4描述的卷积运算处理来执行处理,但是参照图4描述的卷积运算处理仅是示例,并且本公开的实施例不限于此。

返回参照图3,从第一卷积层310输出的特征图可被输入到第一激活层320。

第一激活层320可将非线性特征赋予每个特征图。第一激活层320可包括但不限于sigmoid函数、Tanh函数、修正线性单元(ReLU)函数等。

赋予非线性特征的第一激活层320指示改变和输出作为第一卷积层310的输出的特征图的一些样点值。这里,通过应用非线性特征来执行所述改变。

第一激活层320确定是否将从第一卷积层310输出的特征图的样点值发送到第二卷积层330。例如,特征图的一些样点值由第一激活层320激活并被发送到第二卷积层330,并且一些样点值由第一激活层320去激活并不被发送到第二卷积层330。由特征图表示的第二图像135的固有特性通过第一激活层320被强调。

从第一激活层320输出的特征图325被输入到第二卷积层330。图3中所示的特征图325中的一个特征图是在第一激活层320中对参照图4描述的特征图450进行处理的结果。

第二卷积层330中指示的3×3×4指示通过使用尺寸为3×3的四个滤波器核对特征图325执行卷积处理。第二卷积层330的输出被输入到第二激活层340。第二激活层340可将非线性特征赋予输入数据。

从第二激活层340输出的特征图345被输入到第三卷积层350。图3中所示的第三卷积层350中指示的3×3×1指示通过使用尺寸为3×3的一个滤波器核执行卷积处理以生成一个输出图像。第三卷积层350是用于输出最终图像的层,并且通过使用一个滤波器核来生成一个输出。根据本公开的实施例,第三卷积层350可输出第三图像145作为卷积运算的结果。

如稍后将描述的,可存在指示第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的数量、第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350的滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息需要与第一DNN的多条DNN设置信息相关联。可经由第一DNN和第二DNN的联合训练来实现第二DNN的多条DNN设置信息与第一DNN的多条DNN设置信息之间的关联。

在图3中,第二DNN 300包括三个卷积层(即,第一卷积层310、第二卷积层330和第三卷积层350)以及两个激活层(即,第一激活层320和第二激活层340),但这仅是示例。根据实施例,卷积层和激活层的数量可变化。此外,根据实施例,第二DNN 300可被实现为递归神经网络(RNN)。在这种情况下,根据本公开的实施例的第二DNN 300的卷积神经网络(CNN)结构被改变为RNN结构。

根据实施例,AI放大器234可包括用于上述卷积运算和激活层的运算的至少一个算术逻辑单元(ALU)。ALU可被实现为处理器。对于卷积运算,ALU可包括乘法器和加法器,其中,所述乘法器执行第二图像135或从前一层输出的特征图的样点值与滤波器核的样点值之间的乘法,所述加法器将乘法的结果值相加。此外,对于激活层的操作,ALU可包括乘法器和比较器,其中,所述乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,所述比较器将乘法结果与特定值进行比较以确定是否将输入样点值发送到下一层。

现将描述由AI放大器234执行的根据放大目标对第二图像135执行AI放大的方法。

根据实施例,AI放大器234可存储可在第二DNN中设置的多条DNN设置信息。

这里,DNN设置信息可包括关于第二DNN中包括的卷积层的数量、针对每个卷积层的滤波器核的数量或每个滤波器核的参数中的至少一个的信息。多条DNN设置信息可分别相应于各种放大目标,并且第二DNN可基于与特定放大目标相应的DNN设置信息进行操作。第二DNN可基于DNN设置信息具有不同的结构。例如,第二DNN可根据任意一条DNN设置信息包括三个卷积层,或者可根据另一条DNN设置信息包括四个卷积层。

根据实施例,DNN设置信息可仅包括第二DNN中使用的滤波器核的参数。在这种情况下,作为代替的是,第二DNN的结构不改变,仅内部滤波器核的参数可基于DNN设置信息而改变。

AI放大器234可获得多条DNN设置信息中的用于对第二图像135执行AI放大的DNN设置信息。此时使用的多条DNN设置信息中的每条DNN设置信息是用于获得预定分辨率和/或预定质量的第三图像145的信息,并且与第一DNN被联合训练。

例如,多条DNN设置信息中的一条DNN设置信息可包括用于获得分辨率为第二图像135的分辨率的两倍高的第三图像145(例如,为第二图像135的2K(2048×1080)的两倍高的4K(4096×2160)的第三图像145)的多条信息,并且另一条DNN设置信息可包括用于获得分辨率为第二图像135的分辨率的四倍高的第三图像145(例如,为第二图像135的2K(2048×1080)的四倍高的8K(8192×4320)的第三图像145)的多条信息。

所述多条DNN设置信息中的每一条与图7的AI编码设备600的第一DNN的DNN设置信息被联合获得,并且AI放大器234根据与第一DNN的DNN设置信息的缩小比率相应的放大比率来获得所述多条DNN设置信息中的一条DNN设置信息。为此,AI放大器234需要验证第一DNN的信息。为了使AI放大器234验证第一DNN的信息,根据实施例的AI解码设备200从AI编码设备600接收包括第一DNN的信息的AI数据。

换句话说,AI放大器234可通过使用从AI编码设备600接收到的多条信息来验证作为用于获得第一图像115的第一DNN的DNN设置信息的目标所针对的信息,并获得与第一DNN的DNN设置信息联合训练的第二DNN的DNN设置信息。

当从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息时,可基于根据所获得的DNN设置信息进行操作的第二DNN来对输入数据进行处理。

例如,当获得了任意一条DNN设置信息时,图3的第二DNN 300的第一卷积层310、第二卷积层330和第三卷积层350中的每一个中包括的滤波器核的数量以及滤波器核的参数被设置为包括在所获得的DNN设置信息中的值。

详细地讲,在图3的第二DNN的任意一个卷积层中使用的3×3的滤波器核的参数利用{1,1,1,1,1,1,1,1,1}被设置,并且当DNN设置信息随后被改变时,所述参数可被作为改变后的DNN设置信息中包括的参数的{2,2,2,2,2,2,2,2,2}替换。

AI放大器234可基于AI数据中包括的信息从多条DNN设置信息中获得用于对第二图像135进行AI放大的DNN设置信息,并且现在将详细描述用于获得DNN设置信息的AI数据。

根据实施例,AI放大器234可基于AI数据中包括的差信息从多条DNN设置信息中获得用于对第二图像135进行AI放大的DNN设置信息。例如,当基于所述差信息验证了原始图像105的分辨率(例如,4K(4096×2160))是第一图像115的分辨率(例如,2K(2048×1080))的两倍高时,AI放大器234可获得用于将第二图像135的分辨率加倍的DNN设置信息。

根据另一实施例,AI放大器234可基于AI数据中包括的与第一图像115相关的信息从多条DNN设置信息中获得用于对第二图像135进行AI放大的DNN设置信息。AI放大器234可预先确定多条图像相关信息与多条DNN设置信息之间的映射关系,并且获得映射到与第一图像115相关的信息的DNN设置信息。

图5是示出若干条图像相关信息与若干条DNN设置信息之间的映射关系的表。

通过根据图5的实施例,将确定根据本公开的实施例的AI编码/AI解码不仅仅考虑分辨率的改变。如在图5中所示出的,可单独或共同考虑分辨率(诸如标清(SD)、高清(HD)或全HD)、比特率(诸如10Mbps、15Mbps或20Mbps)以及编解码器信息(诸如AV1、H.264或HEVC)来选择DNN设置信息。出于这样的考虑,基于每个元素的训练需要在AI训练处理期间与编码和解码处理联合执行(参见图9)。

因此,当根据训练基于包括如在图5中所示出的编解码器类型、图像的分辨率等的图像相关信息提供了多条DNN设置信息时,可基于在AI解码处理期间接收到的与第一图像115相关的信息来获得用于对第二图像135进行AI放大的DNN设置信息。

换句话说,AI放大器234能够通过对图5的表的左侧的图像相关信息与表的右侧的DNN设置信息进行匹配来根据图像相关信息使用DNN设置信息。

如在图5中所示出的,当从与第一图像115相关的信息验证第一图像115的分辨率是SD,作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是10Mbps,并且经由AV1编解码器对第一图像115执行第一编码时,AI放大器234可使用多条DNN设置信息中的DNN设置信息“A”。

此外,当从与第一图像115相关的信息验证第一图像115的分辨率是HD,作为执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由H.264编解码器对第一图像115执行第一编码时,AI放大器234可使用多条DNN设置信息中的DNN设置信息“B”。

此外,当从与第一图像115相关的信息验证第一图像115的分辨率是全HD,作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是20Mbps,并且经由HEVC编解码器对第一图像115执行第一编码时,AI放大器234可使用多条DNN设置信息中的DNN设置信息“C”。当从与第一图像115相关的信息验证第一图像115的分辨率是全HD,作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是15Mbps,并且经由HEVC编解码器对第一图像115执行第一编码时,AI放大器234可使用多条DNN设置信息中的DNN设置信息“D”。基于作为对第一图像115执行第一编码的结果而获得的图像数据的比特率是20Mbps还是15Mbps来选择DNN设置信息“C”和DNN设置信息“D”中的一个。在经由相同编解码器对相同分辨率的第一图像115执行第一编码时获得的图像数据的不同比特率指示重建图像的不同质量。因此,可基于特定图像质量联合训练第一DNN和第二DNN,并且因此,AI放大器234可根据指示第二图像135的质量的图像数据的比特率来获得DNN设置信息。

根据另一实施例,AI放大器234可通过考虑从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和AI数据中包括的与第一图像115相关的信息两者从多条DNN设置信息中获得用于对第二图像135执行AI放大的DNN设置信息。例如,AI放大器234可从第一解码器232接收在第一图像115的第一编码处理期间使用的量化参数信息,从AI数据验证作为第一图像115的编码结果所获得的图像数据的比特率,并且获得与量化参数信息和比特率相应的DNN设置信息。即使当比特率相同时,重建图像的质量也可根据图像的复杂度而变化。比特率是表示对其执行第一编码的整个第一图像115的值,并且即使在第一图像115内,每个帧的质量也可变化。因此,与仅使用AI数据时相比,当一起考虑来自第一解码器232的针对每个帧可获得的预测模式信息、运动信息和/或量化参数时,可获得更适合于第二图像135的DNN设置信息。

此外,根据实施例,AI数据可包括相互约定的DNN设置信息的标识符。DNN设置信息的标识符是用于将在第一DNN与第二DNN之间联合训练的一对DNN设置信息区分开的信息,使得对第二图像135执行AI放大至与第一DNN的缩小目标相应的放大目标。AI放大器234可获得AI数据中包括的DNN设置信息的标识符,然后可通过使用与DNN设置信息的标识符相应的DNN设置信息对第二图像135执行AI放大。例如,可预先指定指示在第一DNN中可设置的多条DNN设置信息中的每条DNN设置信息的标识符和指示在第二DNN中可设置的多条DNN设置信息中的每条DNN设置信息的标识符。在这种情况下,可针对在第一DNN和第二DNN中的每一个中可设置的一对DNN设置信息指定相同的标识符。AI数据可包括用于原始图像105的AI缩小的第一DNN中设置的DNN设置信息的标识符。响应于AI数据,AI放大器234可通过使用多条DNN设置信息中的由AI数据中包括的标识符指示的DNN设置信息来对第二图像135执行AI放大。

此外,根据实施例,AI数据可包括DNN设置信息。AI放大器234可获得AI数据中包括的DNN设置信息,并且然后可通过使用获得的DNN设置信息对第二图像135执行AI放大。

根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、针对每个卷积层的滤波器核的数量、每个滤波器核的参数等)以查找表的形式被存储时,AI放大器234可通过基于AI数据中包括的信息对从查找表中的值选择的一些值进行组合来获得DNN设置信息,并且通过使用获得的DNN设置信息对第二图像135执行AI放大。

根据实施例,当与放大目标相应的DNN的结构被确定时,AI放大器234可获得与所确定的DNN的结构相应的DNN设置信息,例如,滤波器核的参数。

AI放大器234通过包括与第一DNN相关的信息的AI数据获得第二DNN的DNN设置信息,并且通过利用所获得的DNN设置信息设置的第二DNN对第二图像135执行AI放大,在这种情况下,与直接分析第二图像135的特征以进行放大时相比,可降低存储器使用和吞吐量。

根据实施例,当第二图像135包括多个帧时,AI放大器234可以以特定数量个帧为单位独立地获得DNN设置信息,或者可获得针对所述多个帧的全部帧的共同的DNN设置信息。

图6是示出包括多个帧的第二图像135的示图。

如在图6中所示出的,第二图像135可包括帧t0至帧tn。

根据实施例,AI放大器234可通过AI数据获得第二DNN的DNN设置信息,并且基于所获得的DNN设置信息对帧t0至帧tn执行AI放大。换句话说,可基于共同的DNN设置信息对帧t0至帧tn进行AI放大。

根据另一实施例,AI放大器234可通过使用从AI数据获得的DNN设置信息“A”对帧t0至帧tn中的一些帧(例如,帧t0至帧ta)执行AI放大,并且通过使用从AI数据获得的DNN设置信息“B”对帧ta+1至帧tb执行AI放大。此外,AI放大器234可通过使用从AI数据获得的DNN设置信息“C”来对帧tb+1至帧tn执行AI放大。换句话说,AI放大器234可针对包括多个帧中的特定数量个帧的每一组独立地获得DNN设置信息,并且通过使用独立地获得的DNN设置信息对每一组中包括的帧执行AI放大。

根据另一实施例,AI放大器234可针对形成第二图像135的每个帧独立地获得DNN设置信息。换句话说,当第二图像135包括三个帧时,AI放大器234可通过使用关于第一帧获得的DNN设置信息对第一帧执行AI放大,通过使用关于第二帧获得的DNN设置信息对第二帧执行AI放大,并且通过使用关于第三帧获得的DNN设置信息对第三帧执行AI放大。根据基于从第一解码器232提供的信息(预测模式信息、运动信息、量化参数信息等)和包括在AI数据中的与第一图像115相关的信息来获得DNN设置信息的方法,可针对包括在第二图像135中的每个帧独立地获得DNN设置信息。这是因为可针对包括在第二图像135中的每个帧独立地确定模式信息、量化参数信息等。

根据另一实施例,AI数据可包括指示DNN设置信息直到哪个帧有效的信息,其中,DNN设置信息是基于AI数据获得的。例如,当AI数据包括指示DNN设置信息直到帧ta有效的信息时,AI放大器234通过使用基于AI数据获得的DNN设置信息对帧t0至帧ta执行AI放大。此外,当另一条AI数据包括指示DNN设置信息直到帧tn有效的信息时,AI放大器234通过使用基于所述另一条AI数据获得的DNN设置信息对帧ta+1至帧tn执行AI放大。

现将参照图7描述用于对原始图像105执行AI编码的AI编码设备600。

图7是根据本公开的实施例的AI编码设备600的配置的框图。

参照图7,AI编码设备600可包括AI编码器610和发送器630。AI编码器610可包括AI缩小器66和第一编码器614。发送器630可包括数据处理器632和通信接口634。

在图7中,AI编码器610和发送器630被示出为独立的装置,但是AI编码器610和发送器630可通过一个处理器来实现。在这种情况下,AI编码器610和发送器630可通过专用处理器或者通过软件和通用处理器(诸如AP、CPU或GPU)的组合来实现。可通过包括用于实现本公开的实施例的存储器或者通过包括用于使用外部存储器的存储器处理器来实现所述专用处理器。

此外,AI编码器610和发送器630可由多个处理器来构成。在这种情况下,AI编码器610和发送器630可通过专用处理器的组合或者通过软件和多个通用处理器(诸如AP、CPU或GPU)的组合来实现。AI缩小器612和第一编码器614可通过不同处理器来实现。

AI编码器610对原始图像105执行AI缩小并对第一图像115执行第一编码,并且将AI数据和图像数据发送到发送器630。发送器630将AI数据和图像数据发送到AI解码设备200。

图像数据包括作为对第一图像115执行第一编码的结果而获得的数据。图像数据可包括基于第一图像115中的像素值而获得的数据,例如,作为第一图像115与第一图像115的预测数据之间的差的残差数据。此外,图像数据包括第一图像115的第一编码处理期间使用的多条信息。例如,图像数据可包括用于对第一图像115执行第一编码的预测模式信息、运动信息、量化参数信息。

AI数据包括使得AI放大器234能够对第二图像135执行AI放大至与第一DNN的缩小目标相应的放大目标的多条信息。根据实施例,AI数据可包括原始图像105与第一图像115之间的差信息。此外,AI数据可包括与第一图像115相关的信息。与第一图像115相关的信息可包括关于第一图像115的分辨率、作为对第一图像115执行第一编码的结果而获得的图像数据的比特率、以及在第一图像115的第一编码期间使用的编解码器类型中的至少一个的信息。

根据实施例,AI数据可包括相互约定的DNN设置信息的标识符,使得对第二图像135执行AI放大至与第一DNN的缩小目标相应的放大目标。

此外,根据实施例,AI数据可包括可在第二DNN中设置的DNN设置信息。

AI缩小器612可获得通过经由第一DNN对原始图像105执行AI缩小而获得的第一图像115。AI缩小器612可基于预定标准确定原始图像105的缩小目标。

为了获得与缩小目标匹配的第一图像115,AI缩小器612可存储可在第一DNN中设置的多条DNN设置信息。AI缩小器612从所述多条DNN设置信息中获得与缩小目标相应的DNN设置信息,并且通过利用所获得的DNN设置信息设置的第一DNN对原始图像105执行AI缩小。

可训练多条DNN设置信息中的每条DNN设置信息以获得预定分辨率和/或预定质量的第一图像115。例如,多条DNN设置信息中的任意一条DNN设置信息可包括用于获得分辨率为原始图像105的分辨率的一半的第一图像115(例如,为原始图像105的4K(4096×2160)的一半的2K(2048×1080)的第一图像115)的多条信息,并且另一条DNN设置信息可包括用于获得分辨率为原始图像105的分辨率的四分之一的第一图像115(例如,为原始图像105的8K(8192×4320)的四分之一的2K(2048×1080)的第一图像115)的多条信息。

根据实施例,当构成DNN设置信息的多条信息(例如,卷积层的数量、针对每个卷积层的滤波器核的数量以及每个滤波器核的参数)以查找表的形式被存储时,AI缩小器612可通过基于缩小目标对从查找表中的值选择的一些值进行组合来获得DNN设置信息,并且通过使用所获得的DNN设置信息对原始图像105执行AI缩小。

根据实施例,AI缩小器612可确定与缩小目标相应的DNN的结构,并且获得与所确定的DNN的结构相应的DNN设置信息,例如,获得滤波器核的参数。

随着第一DNN和第二DNN被联合训练,用于对原始图像105执行AI缩小的多条DNN设置信息可具有优化值。这里,每条DNN设置信息包括第一DNN中包括的卷积层的数量、针对每个卷积层的滤波器核的数量或每个滤波器核的参数中的至少一个。

AI缩小器612可通过利用被选择为对原始图像105执行AI缩小的DNN设置信息设置第一DNN,来通过第一DNN获得特定分辨率和/或特定质量的第一图像115。当从多条DNN设置信息获得用于对原始图像105执行AI缩小的DNN设置信息时,第一DNN中的每一层可基于DNN设置信息中包括的多条信息来对输入数据进行处理。

现将描述由AI缩小器612执行的确定缩小目标的方法。缩小目标可指示例如分辨率从原始图像105降低多少以获得第一图像115。

根据实施例,AI缩小器612可基于原始图像105的压缩比(例如,原始图像105与第一图像115之间的分辨率差、目标比特率等)、压缩质量(例如,比特率的类型)、压缩历史信息或类型中的至少一个来确定缩小目标。

例如,AI缩小器612可基于预设或从用户输入的压缩比、压缩质量等,确定缩小目标。

作为另一示例,AI缩小器612可通过使用存储在AI编码设备600中的压缩历史信息来确定缩小目标。例如,根据可由AI编码设备600使用的压缩历史信息,可确定用户偏好的编码质量、压缩比等,并且可根据基于压缩历史信息确定的编码质量来确定缩小目标。例如,可根据压缩历史信息基于最常使用的编码质量来确定第一图像115的分辨率、质量等。

作为另一示例,AI缩小器612可根据压缩历史信息基于比特定阈值更频繁使用的编码质量(例如,比特定阈值更频繁使用的编码质量的平均质量)来确定缩小目标。

作为另一示例,AI缩小器612可基于原始图像105的分辨率、类型(例如,文件格式)等来确定缩小目标。

根据实施例,当原始图像105包括多个帧时,AI缩小器612可以以特定数量个帧为单位独立地确定缩小目标,或者可确定针对所述多个帧的全部帧的共同的缩小目标。

根据实施例,AI缩小器612可将包括在原始图像105中的帧划分为特定数量个组,并且针对每个组独立地确定缩小目标。可针对每个组确定相同或不同的缩小目标。根据每个组,组中包括的帧的数量可相同或不同。

根据另一实施例,AI缩小器612可针对包括在原始图像105中的每个帧独立地确定缩小目标。可针对每个帧确定相同或不同的缩小目标。

现将描述AI缩小所基于的第一DNN 700的结构的示例。

图8是示出用于对原始图像105执行AI缩小的第一DNN 700的示图。

如在图8中所示出的,原始图像105被输入到第一卷积层710。第一卷积层710通过使用尺寸为5×5的32个滤波器核对原始图像105执行卷积处理。作为卷积处理的结果而生成的32个特征图被输入到第一激活层720。第一激活层720可将非线性特征赋予所述32个特征图。

第一激活层720确定是否将从第一卷积层710输出的特征图的样点值发送到第二卷积层730。例如,所述特征图的一些样点值被第一激活层720激活并且被发送到第二卷积层730,并且一些样点值被第一激活层720去激活并且不被发送到第二卷积层730。由从第一卷积层710输出的特征图表示的信息被第一激活层720强调。

第一激活层720的输出725被输入到第二卷积层730。第二卷积层730通过使用尺寸为5×5的32个滤波器核对输入数据执行卷积处理。作为卷积处理的结果而输出的32个特征图可被输入到第二激活层740,并且第二激活层740可将非线性特征赋予所述32个特征图。

第二激活层740的输出745被输入到第三卷积层750。第三卷积层750通过使用尺寸为5×5的一个滤波器核对输入数据执行卷积处理。作为卷积处理的结果,可从第三卷积层750输出一个图像。第三卷积层750是用于输出最终图像的层,并且通过使用一个滤波器核来获得一个输出。根据本公开的实施例,第三卷积层750可输出第一图像115作为卷积运算的结果。

可存在指示第一DNN 700的第一卷积层710、第二卷积层730和第三卷积层750的滤波器核的数量、第一DNN 700的第一卷积层710、第二卷积层730和第三卷积层750的滤波器核的参数等的多条DNN设置信息,并且所述多条DNN设置信息需要与第二DNN的多条DNN设置信息相关联。可经由第一DNN和第二DNN的联合训练来实现第一DNN的多条DNN设置信息与第二DNN的多条DNN设置信息之间的关联。

在图8中,第一DNN 700包括三个卷积层(即,第一卷积层710、第二卷积层730和第三卷积层750)以及两个激活层(即,第一激活层720和第二激活层740),但这仅是示例。根据实施例,卷积层和激活层的数量可变化。此外,根据实施例,第一DNN 700可被实现为RNN。在这种情况下,根据本公开的实施例的第一DNN 700的CNN结构被改变为RNN结构。

根据实施例,AI缩小器612可包括用于卷积运算和激活层的运算的至少一个ALU。ALU可被实现为处理器。对于卷积运算,ALU可包括乘法器和加法器,其中,所述乘法器执行原始图像105或从前一层输出的特征图的样点值与滤波器核的样点值之间的乘法,所述加法器将乘法的结果值相加。此外,对于激活层的运算,ALU可包括乘法器和比较器,其中,所述乘法器将输入样点值乘以在预定的sigmoid函数、Tanh函数或ReLU函数中使用的权重,所述比较器将乘法结果与特定值进行比较以确定是否将输入样点值发送到下一层。

返回参照图7,在从AI缩小器612接收到第一图像115时,第一编码器614可通过对第一图像115执行第一编码来减少第一图像115的信息量。可获得与第一图像115相应的图像数据,作为由第一编码器614执行第一编码的结果。

数据处理器632对将以特定形式发送的AI数据或图像数据中的至少一个进行处理。例如,当将以比特流的形式发送AI数据和图像数据时,数据处理器632将AI数据处理为以比特流的形式被表示,并且通过通信接口634以一个比特流的形式发送AI数据和图像数据。作为另一示例,数据处理器632将AI数据处理为以比特流的形式被表示,并且通过通信接口634发送与AI数据相应的比特流和与图像数据相应的比特流中的每个比特流。作为另一示例,数据处理器632将AI数据处理为以帧或包的形式被表示,并且通过通信接口634以比特流的形式发送图像数据并以帧或包的形式发送AI数据。

通信接口634通过网络发送作为AI编码的结果而获得的AI编码数据。作为AI编码的结果而获得的AI编码数据包括图像数据和AI数据。图像数据和AI数据可通过相同类型的网络或不同类型的网络被发送。

根据实施例,作为数据处理器632的处理结果而获得的AI编码数据可被存储在数据存储介质中,其中,所述数据存储介质包括磁介质(诸如,硬盘、软盘或磁带)、光学记录介质(诸如,CD-ROM或DVD)、或者磁光介质(诸如,软光盘)。

现将参照图9描述联合训练第一DNN 700和第二DNN 300的方法。

图9是用于描述训练第一DNN 700和第二DNN 300的方法的示图。

根据实施例,经由AI解码处理将通过AI编码处理被执行AI编码的原始图像105重建为第三图像145,并且为了保持原始图像105与作为AI解码的结果而获得的第三图像145之间的相似性,需要AI编码处理与AI解码处理之间的关联性。换句话说,需要在AI解码处理期间重建在AI编码处理中损失的信息,并且为此,需要对第一DNN 700和第二DNN 300进行联合训练。

为了进行准确的AI解码,最终,需要减少与将图9中所示的第三训练图像804和原始训练图像801进行比较的结果相应的质量损失信息830。因此,质量损失信息830被用于训练第一DNN 700和第二DNN 300两者。

首先,将描述图9中所示的训练处理。

在图9中,原始训练图像801是将被执行AI缩小的图像,并且第一训练图像802是通过对原始训练图像801执行AI缩小而获得的图像。此外,第三训练图像804是通过对第一训练图像802执行AI放大而获得的图像。

原始训练图像801包括静止图像或包括多个帧的运动图像。根据实施例,原始训练图像801可包括从静止图像或包括多个帧的运动图像提取的亮度图像。根据实施例,原始训练图像801可包括从静止图像或包括多个帧的运动图像提取的分块图像。当原始训练图像801包括多个帧时,第一训练图像802、第二训练图像(未示出)和第三训练图像804也各自包括多个帧。当原始训练图像801的多个帧被依次输入到第一DNN 700时,可通过第一DNN 700和第二DNN 300依次获得第一训练图像802、第二训练图像和第三训练图像804的多个帧。

对于第一DNN 700和第二DNN 300的联合训练,原始训练图像801被输入到第一DNN700。输入到第一DNN 700的原始训练图像801经由AI缩小被输出为第一训练图像802,并且第一训练图像802被输入到第二DNN 300。输出第三训练图像804作为对第一训练图像802执行AI放大的结果。

参照图9,第一训练图像802被输入到第二DNN 850。根据实施例,经由对第一训练图像802执行第一编码和第一解码而获得的第二训练图像可被输入到第二DNN 300。为了将第二训练图像输入到第二DNN 300,可使用MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任意一种编解码器。详细地讲,MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任意一种编解码器可被用于对第一训练图像802执行第一编码并对与第一训练图像802相应的图像数据执行第一解码。

参照图9,与通过第一DNN 700输出的第一训练图像802分开地,通过对原始训练图像801执行传统缩小来获得缩减的训练图像803。这里,传统缩小可包括双线性缩放、双三次缩放、lanczos缩放或阶梯缩放中的至少一个。

为了防止第一图像115的结构特征极大地偏离原始图像105的结构特征,获得缩减的训练图像803以保留原始训练图像801的结构特征。

在执行训练之前,可利用预定的DNN设置信息来设置第一DNN 700和第二DNN 300。当执行训练时,可确定结构损失信息810、复杂度损失信息820和质量损失信息830。

可基于将缩减的训练图像803和第一训练图像802进行比较的结果来确定结构损失信息810。例如,结构损失信息810可相应于缩减的训练图像803的结构信息与第一训练图像802的结构信息之间的差。结构信息可包括可从图像提取的各种特征,诸如图像的亮度、对比度、直方图等。结构损失信息810指示原始训练图像801的多少结构信息被保持在第一训练图像802中。当结构损失信息810小时,第一训练图像802的结构信息与原始训练图像801的结构信息相似。

可基于第一训练图像802的空间复杂度来确定复杂度损失信息820。例如,第一训练图像802的总方差值可被用作空间复杂度。复杂度损失信息820与通过对第一训练图像802执行第一编码而获得的图像数据的比特率相关。定义当复杂度损失信息820小时,图像数据的比特率低。

可基于将原始训练图像801与第三训练图像804进行比较的结果来确定质量损失信息830。质量损失信息830可包括关于原始训练图像801与第三训练图像804之间的差的L1范数值、L2范数值、结构相似度(SSIM)值、峰值信噪比-人类视觉系统(PSNR-HVS)值、多尺度SSIM(MS-SSIM)值、方差膨胀因子(VIF)值或视频多方法评估融合(VMAF)值中的至少一个。质量损失信息830指示第三训练图像804与原始训练图像801有多相似。当质量损失信息830小时,第三训练图像804与原始训练图像801更相似。

参照图9,结构损失信息810、复杂度损失信息820和质量损失信息830被用于训练第一DNN 700,并且质量损失信息830被用于训练第二DNN 300。换句话说,质量损失信息830被用于训练第一DNN 700和第二DNN 300两者。

第一DNN 700可更新参数,使得基于结构损失信息810、复杂度损失信息820和质量损失信息830确定的最终损失信息被减少或最小化。此外,第二DNN 300可更新参数,使得质量损失信息830被减少或最小化。

用于训练第一DNN 700和第二DNN 300的最终损失信息可如下面的等式1被确定。

[等式1]

LossDS=a*结构损失信息+b*复杂度损失信息+c*质量损失信息

LossUS=d*质量损失信息

在等式1中,LossDS指示将被减小或最小化以训练第一DNN 700的最终损失信息,并且LossUS指示将被减小或最小化以训练第二DNN 300的最终损失信息。此外,a、b、c和d可与预定的特定权重相应。

换句话说,第一DNN 700沿等式1的LossDS减小的方向更新参数,并且第二DNN 300沿等式1的LossUS减小的方向更新参数。当根据在训练期间推导出的LossDS来更新第一DNN700的参数时,基于更新的参数获得的第一训练图像802变得与在先前训练期间获得的先前的第一训练图像802不同,并且因此,第三训练图像804也变得与在先前训练期间获得的先前的第三训练图像804不同。当第三训练图像804变得与先前的第三训练图像804不同时,还重新确定质量损失信息830,并且第二DNN 300相应地更新参数。当重新确定质量损失信息830时,还重新确定LossDS,并且因此第一DNN 700根据重新确定的LossDS来更新参数。换句话说,第一DNN 700的参数的更新导致第二DNN 300的参数的更新,并且第二DNN 300的参数的更新导致第一DNN 700的参数的更新。换句话说,因为通过共享质量损失信息830来联合训练第一DNN 700和第二DNN 300,所以可联合优化第一DNN 700的参数和第二DNN 300的参数。

参照等式1,验证了根据质量损失信息830来确定LossUS,但这仅是示例。可基于结构损失信息810或复杂度损失信息820中的至少一个以及质量损失信息830来确定LossUS。

上面已经描述了AI解码设备200的AI放大器234和AI编码设备600的AI缩小器612存储多条DNN设置信息。现在将描述训练存储在AI放大器234和AI缩小器612中的多条DNN设置信息中的每条DNN设置信息的方法。

如参照等式1所述,第一DNN 700基于第一训练图像802的结构信息与原始训练图像801的结构信息之间的相似性(结构损失信息810)、作为对第一训练图像802执行第一编码的结果而获得的图像数据的比特率(复杂度损失信息820)、以及第三训练图像804与原始训练图像801之间的差(质量损失信息830)来更新参数。

详细地讲,可更新第一DNN 700的参数,从而获得与原始训练图像801具有相似的结构信息的第一训练图像802并且当对第一训练图像802执行第一编码时获得具有小比特率的图像数据,并且还使得对第一训练图像802执行AI放大的第二DNN 300可获得与原始训练图像801相似的第三训练图像804。

第一DNN 700的参数被优化的方向通过调整等式1的权重a、b和c而变化。例如,当权重b被确定为高时,可通过使第三训练图像804的低比特率优先于高质量来更新第一DNN700的参数。此外,当权重c被确定为高时,可通过使第三训练图像804的高质量优先于高比特率或者保持原始训练图像801的结构信息来更新第一DNN 700的参数。

此外,第一DNN 700的参数被优化的方向可根据用于对第一训练图像802执行第一编码的编解码器的类型而变化。这是因为将被输入到第二DNN300的第二训练图像可根据编解码器的类型而变化。

换句话说,可基于权重a、b和c以及用于对第一训练图像802执行第一编码的编解码器的类型来联合更新第一DNN 700的参数和第二DNN 300的参数。因此,当在将权重a、b和c各自确定为特定值并将编解码器的类型确定为特定类型之后训练第一DNN 700和第二DNN300时,可确定彼此关联和优化的第一DNN 700的参数和第二DNN 300的参数。

此外,当在改变权重a、b和c以及编解码器的类型之后训练第一DNN 700和第二DNN300时,可确定彼此关联和优化的第一DNN 700的参数和第二DNN 300的参数。换句话说,当在改变权重a、b和c的值以及每一种类型的编解码器的值时训练第一DNN 700和第二DNN300时,可在第一DNN 700和第二DNN 300中确定彼此联合训练的多条DNN设置信息。

如上面参照图5所述,第一DNN 700和第二DNN 300的多条DNN设置信息可被映射到与第一图像相关的多条信息。为了设置这样的映射关系,可根据特定比特率经由特定编解码器对从第一DNN 700输出的第一训练图像802执行第一编码,并且可将通过对作为执行第一编码的结果而获得的比特流执行第一解码而获得的第二训练图像输入到第二DNN 300。换句话说,可通过在设置环境使得根据特定比特率经由特定编解码器对特定分辨率的第一训练图像802执行第一编码之后训练第一DNN 700和第二DNN 300,来确定与第一训练图像802的所述分辨率、用于对第一训练图像802执行第一编码的编解码器的类型、以及作为对第一训练图像802执行第一编码的结果而获得的比特流的比特率相映射的DNN设置信息对。可通过不同地改变第一训练图像802的分辨率、用于对第一训练图像802执行第一编码的编解码器的类型、以及根据第一训练图像802的第一编码获得的比特流的比特率,来确定第一DNN 700和第二DNN 300的多条DNN设置信息和与第一图像相关的多条信息之间的映射关系。

图10是用于描述训练设备1000对第一DNN 700和第二DNN 300的训练处理的示图。

上面参照图9描述的第一DNN 700和第二DNN 300的训练可由训练设备1000来执行。训练设备1000包括第一DNN 700和第二DNN 300。训练设备1000可以是例如AI编码设备600或单独的服务器。作为训练结果而获得的第二DNN 300的多条DNN设置信息被存储在AI解码设备200中。

参照图10,在操作S840和操作S845,训练设备1000初始设置第一DNN700和第二DNN300的DNN设置信息。因此,第一DNN 700和第二DNN 300可根据预定DNN设置信息进行操作。DNN设置信息可包括关于第一DNN700和第二DNN 300中包括的卷积层的数量、针对每个卷积层的滤波器核的数量、针对每个卷积层的滤波器核的尺寸或每个滤波器核的参数中的至少一个的信息。

在操作S850,训练设备1000将原始训练图像801输入到第一DNN 700中。原始训练图像801可包括静止图像或运动图像中包括的至少一个帧。

在操作S855,第一DNN 700根据初始设置的DNN设置信息对原始训练图像801进行处理,并输出通过对原始训练图像801执行AI缩小而获得的第一训练图像802。在图10中,从第一DNN 700输出的第一训练图像802被直接输入到第二DNN 300。然而,从第一DNN 700输出的第一训练图像802可由训练设备1000输入到第二DNN 300。此外,训练设备1000可经由特定编解码器对第一训练图像802执行第一编码和第一解码,然后将第二训练图像输入到第二DNN 300。

在操作S860,第二DNN 300根据初始设置的DNN设置信息对第一训练图像802或第二训练图像进行处理,并输出通过对第一训练图像802或第二训练图像执行AI放大而获得的第三训练图像804。

在操作S865,训练设备1000基于第一训练图像802计算复杂度损失信息820。

在操作S870,训练设备1000通过将缩减的训练图像803与第一训练图像802进行比较来计算结构损失信息810。

在操作S875,训练设备1000通过将原始训练图像801与第三训练图像804进行比较来计算质量损失信息830。

在操作S880,第一DNN 700基于最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1000可基于复杂度损失信息820、结构损失信息810和质量损失信息830来计算用于训练第一DNN 700的最终损失信息。

在操作S885,第二DNN 300基于质量损失信息830或最终损失信息经由反向传播处理来更新初始设置的DNN设置信息。训练设备1000可基于质量损失信息830来计算用于训练第二DNN 300的最终损失信息。

然后,训练设备1000、第一DNN 700和第二DNN 300重复操作S850至S885,直到多条最终损失信息被最小化为止,以更新DNN设置信息。此时,在每一次重复期间,第一DNN 700和第二DNN 300根据在先前操作中更新的DNN设置信息进行操作。

下面的表1示出当根据本公开的实施例的原始图像105被执行AI编码和AI解码时以及当原始图像105经由HEVC被执行编码和解码时的效果。

[表1]

如在表1中所示出的,即使当根据本公开的实施例对包括8K分辨率的300帧的内容执行AI编码和AI解码时图像的主观质量高于经由HEVC执行编码和解码时图像的主观质量,但是比特率降低了50%或更多。

图11是用于对原始图像105执行AI缩小的设备20和用于对第二图像135执行AI放大的设备40的示图。

设备20接收原始图像105,并通过使用AI缩小器1124和基于变换的编码器1126将图像数据25和AI数据30提供给设备40。根据实施例,图像数据25相应于图1的图像数据,并且AI数据30相应于图1的AI数据。根据实施例,基于变换的编码器1126相应于图7的第一编码器614,并且AI缩小器1124相应于图7的AI缩小器612。

设备40接收AI数据30和图像数据25,并且通过使用基于变换的解码器1146和AI放大器1144来获得第三图像145。根据实施例,基于变换的解码器1146相应于图2的第一解码器232,并且AI放大器1144相应于图2的AI放大器234。

根据实施例,设备20包括CPU、存储器和包括指令的计算机程序。计算机程序被存储在存储器中。根据实施例,设备20根据CPU对计算机程序的执行来执行将参照图11描述的功能。根据实施例,将参照图11描述的功能由专用硬件芯片和/或CPU来执行。

根据实施例,设备40包括CPU、存储器和包括指令的计算机程序。计算机程序被存储在存储器中。根据实施例,设备40根据CPU对计算机程序的执行来执行将参照图11描述的功能。根据实施例,将参照图11描述的功能由专用硬件芯片和/或CPU来执行。

在图11中,配置控制器1122接收至少一个输入值10。根据实施例,所述至少一个输入值10可包括针对AI缩小器1124和AI放大器1144的目标分辨率差、图像数据25的比特率、图像数据25的比特率类型(例如,可变比特率类型、恒定比特率类型或平均比特率类型)或者针对基于变换的编码器1126的编解码器类型中的至少一个。所述至少一个输入值10可包括被预存储在设备20中的值或从用户输入的值。

配置控制器1122基于接收到的输入值10来控制AI缩小器1124和基于变换的编码器1126的操作。根据实施例,配置控制器1122根据接收到的输入值10获得用于AI缩小器1124的DNN设置信息,并且利用所获得的DNN设置信息来设置AI缩小器1124。根据实施例,配置控制器1122可将接收到的输入值10发送到AI缩小器1124,并且AI缩小器1124可基于接收到的输入值10获得用于对原始图像105执行AI缩小的DNN设置信息。根据实施例,配置控制器1122可将附加信息(例如,应用AI缩小的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和高动态范围(HDR)的色调映射信息)连同输入值10一起提供给AI缩小器1124,并且AI缩小器1124可基于输入值10和附加信息,来获得DNN设置信息。根据实施例,配置控制器1122将接收到的输入值10的至少一部分发送到基于变换的编码器1126,并且因此基于变换的编码器1126通过特定值的比特率、特定类型的比特率和特定编解码器对第一图像115执行第一编码。

AI缩小器1124接收原始图像105并执行参照图1、图7、图8、图9或图10中的至少一个描述的操作以获得第一图像115。

根据实施例,AI数据30被提供给设备40。AI数据30可包括原始图像105与第一图像115之间的分辨率差信息或者与第一图像115相关的信息中的至少一个。可基于输入值10的目标分辨率差来确定分辨率差信息,并且可基于目标比特率、比特率类型或编解码器类型中的至少一个来确定与第一图像115相关的信息。根据实施例,AI数据30可包括AI放大期间使用的参数。可从AI缩小器1124将AI数据30提供给设备40。

图像数据25随着由基于变换的编码器1126对第一图像115进行处理而被获得,并被发送到设备40。基于变换的编码器1126可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或VA1对第一图像115进行处理。

配置控制器1142基于AI数据30控制AI放大器1144的操作。根据实施例,配置控制器1142根据接收到的AI数据30获得用于AI放大器1144的DNN设置信息,并且利用所获得的DNN设置信息设置AI放大器1144。根据实施例,配置控制器1142可将接收到的AI数据30发送到AI放大器1144,并且AI放大器1144可基于AI数据30获得用于对第二图像135执行AI放大的DNN设置信息。根据实施例,配置控制器1142可将附加信息(例如,应用AI放大的颜色格式(亮度分量、色度分量、红色分量、绿色分量或蓝色分量)信息和HDR的色调映射信息)连同AI数据30一起提供给AI放大器1144,并且AI放大器1144可基于AI数据30和附加信息来获得DNN设置信息。根据实施例,AI放大器1144可从配置控制器1142接收AI数据30,从基于变换的解码器1146接收预测模式信息、运动信息或量化参数信息中的至少一个,并且基于预测模式信息、运动信息和量化参数信息中的至少一个以及AI数据30来获得DNN设置信息。

基于变换的解码器1146对图像数据25进行处理以重建第二图像135。基于变换的解码器1146可根据MPEG-2、H.264AVC、MPEG-4、HEVC、VC-1、VP8、VP9或AV1对图像数据25进行处理。

AI放大器1144通过基于所设置的DNN设置信息对从基于变换的解码器1146提供的第二图像135执行AI放大来获得第三图像145。

AI缩小器1124可包括第一DNN,并且AI放大器1144可包括第二DNN。根据实施例,根据上面参照图9和图10描述的训练方法来训练针对第一DNN和第二DNN的多条DNN设置信息。

图12是根据本公开的实施例的评估目标图像的质量的方法的流程图。

参照图12,在操作S1210,稍后将描述的图13的用于评估目标图像的质量的设备1300获得用于质量评估的目标图像和将与目标图像进行比较的参考图像被划分为的每一个具有预定尺寸的块,以便评估目标图像的质量与将与目标图像进行比较的参考图像的质量有多相似。

根据实施例,块是尺寸为t×b×b×c的块,其中,t可以是帧的数量,b可以是一个帧的水平尺寸或垂直尺寸,以及c可以是颜色通道的数量。这里,c可以是三个颜色通道。

在操作S1230,图13的用于评估目标图像的质量的设备1300通过将块输入到视频质量评价网络来确定每一个块的灵敏度信息和质量评价信息。

根据实施例,视频质量评价网络可通过将目标图像和参考图像的块输入到卷积神经网络(CNN)来确定每一个块的灵敏度信息,并且可通过将目标图像和参考图像的块输入到胶囊神经网络来确定每一个块的质量评价信息。

根据实施例,视频质量评价网络可通过将目标训练图像和参考训练图像的块输入到CNN来确定块的各条灵敏度信息,可通过将目标训练图像和参考训练图像的块输入到胶囊神经网络来确定块的各个平均意见得分(MOS)平均值和各个MOS标准差,并且可使用各条灵敏度信息、各个MOS平均值和各个MOS标准差进行训练。

根据实施例,视频质量评价网络可通过将目标训练图像和参考训练图像的块输入到CNN来确定块的各条灵敏度信息,可通过将目标训练图像和参考训练图像的块输入到胶囊神经网络来确定每一个块的全参考质量评价信息,可通过将目标训练图像的块输入到胶囊神经网络来确定每一个块的非参考质量评价信息,并且可使用各条灵敏度信息、全参考质量评价信息和非参考质量评价信息被训练。全参考质量评价信息可包括目标训练图像和参考训练图像的每一个块的全参考MOS平均值和全参考MOS标准差,非参考质量评价信息可包括目标训练图像的每一个块的非参考MOS平均值和非参考MOS标准差,并且MOS可以是表示用户的主观感知质量的值。

在操作S1250,视频质量评价网络可通过基于块的多条灵敏度信息将块的多条质量评价信息彼此组合来确定目标图像的最终图像质量评价得分。

根据实施例,灵敏度信息可被用作每一个块的权重,质量评价信息包括每一个块的MOS平均值,最终图像质量评价得分可通过基于权重的MOS平均值的加权平均被确定,并且MOS可以是表示用户的主观感知质量的值。

根据实施例,质量评价信息可包括每一个块的MOS平均值和MOS标准差,灵敏度信息可被用作每一个块的权重,最终图像质量评价得分可通过基于权重的MOS平均值的加权平均和基于权重的MOS标准差的加权平均被确定,并且MOS可以是表示用户的主观感知质量的值。

图13是根据本发明的实施例的用于评估目标图像的质量的设备的框图。

根据实施例的用于评估目标图像的质量的设备1300可包括存储器1310和连接到存储器1310的至少一个处理器。根据实施例,用于评估目标图像的质量的设备1300可作为单独的处理器进行操作,或者可在中央处理器的控制下进行操作。用于评估目标图像的质量的设备1300的存储器1310可存储从外部源接收的数据和由处理器生成的数据,例如,关于目标图像和参考图像被划分为的块的信息、每一个块的灵敏度信息和质量评价信息。

用于评估目标图像的质量的设备1300的处理器1320通过获得目标图像和将与目标图像进行比较的参考图像被划分为的每一个具有预定尺寸的块并将这些块输入到视频质量评价网络,来确定每一个块的灵敏度信息和质量评价信息,并且通过基于每一个块的灵敏度信息将多条质量评价信息进行组合来确定目标图像的最终图像质量评价得分。

图14示出通过视频质量评价网络(VQANet)确定目标图像质量的实施例。

参照图14,可通过使用VQANet将参考图像1410与目标图像1420进行比较来获得目标图像的图像质量评价得分。

根据实施例,参考图像1410可以是原始图像,并且目标图像1420可以是在被编码之后重建的图像。因此,可获得与原始图像进行比较的重建图像的图像质量评价得分,并且因此可评估重建图像的质量。

根据实施例,参考图像1410可以是在通过第一编解码器进行编码之后重建的图像,并且目标图像1420可以是在通过不同于第一编解码器的第二编解码器进行编码之后重建的图像。因此,可获得与经由第一编解码器重建的图像进行比较的经由第二编解码器重建的图像的图像质量评价得分,并且因此可评估经由第二编解码器重建的图像的质量。

根据另一实施例,参考图像1410可以是在通过第一编解码器进行编码之后重建的图像,并且目标图像1420可以是在通过改变相同的第一编解码器的内部参数进行编码之后重建的图像。因此,可获得通过改变相同的编解码器中的内部参数而重建的图像的图像质量评价得分,并且因此可评估通过改变相同的编解码器中的内部参数而重建的图像的质量。

参考图像1410和目标图像1420可被划分为包括时间信息、空间信息和颜色信息并且彼此不重叠的预定尺寸的块。详细地讲,每一个块具有t×b×b×c的尺寸,其中,t指示帧的数量,b指示帧的水平尺寸或垂直尺寸,以及c指示颜色的通道的数量。通常,颜色的通道的数量c是三个。因为将DNN应用于整个图像提供了非常大尺寸的视频数据,并且从存储和计算的角度来看一次完成对整个图像进行处理不切实际,所以整个图像被划分为时间-空间-颜色块,因此,当独立地且并行地对块进行处理时,可减少存储器的使用并且可需要更少的计算。

将目标图像1420的第一目标块1421和参考图像1410的与第一目标块1421相应的第一参考块1411输入到VQANet 1430,将目标图像1420的第二目标块1422和参考图像1410的与第二目标块1422相应的第二参考块1412输入到VQANet 1430,并且将目标图像1420的第三目标块1423和参考图像1410的与第三目标块1423相应的第三参考块1413输入到VQANet 1430。因此,可确定每一个块的块质量得分1431和块灵敏度1432,并且可基于块质量得分1431和块灵敏度1432通过加权平均1440确定整个目标图像1420的图像质量1450。在这种情况下,块灵敏度1432被用作每一个块的权重。

灵敏度是指每一个块自身的属性影响其他块的程度。例如,假设存在表示天空的一部分的块(下文中,被称为“天空块”)和表示草地的一部分的块(下文中,被称为“草地块”),当天空块在图像中具有一些错误或天空块的图像质量差时,天空块对人眼更加明显,因此灵敏度高,并且当草坪块在图像中具有一些错误或草坪块的图像质量差时,草坪块比天空块对人眼的影响相对较小,因此,灵敏度可能较低。

因此,在人类视觉系统中,由于每一个块的属性以及每一个块对其他块的相对不同的灵敏度,所以可能无法利用对块的各个局部质量得分的简单平均来正确地评价针对整个图像的总体质量评价得分。因此,通过采用多个块的块灵敏度作为权重概念,可适当地改善预测的质量评价得分。

为了训练视频质量评价网络,以批次(patch)为单位对整个训练目标进行划分并针对每一个批次随机选择样点的随机梯度下降方法被应用,使得可重复训练视频质量评价网络。对整个训练目标执行训练是最有效的,但在这种情况下,需要太多的计算和太多的存储器。因此,通过以批次为单位对整个训练目标进行划分并使用随机选择的样点重复训练批次,可用较少的计算和较少的存储器有效地训练整个训练目标。

换句话说,为了训练,每一个批次可包含从所有视频中的一些视频的块中随机选择的块。

详细地讲,使用下面的等式2来确定通过加权平均1440所确定的目标图像的MOS平均值。

[等式2]

P

在本说明书中,“质量评价信息”是指用户的主观感知质量。例如,尽管使用MOS来描述“质量评价信息”,但实施例不限于此。除了MOS之外,可使用指示用户主观感知图像的程度的其他类型的指示符,诸如VMAF和SSIM。

可通过直接向用户显示特定图像并允许用户直接确定表示用户感知的质量的得分来测量用于确定和比较能够直接表示用户的主观感知质量的值的MOS。

图15是根据本公开的实施例的VQANet的结构的框图。

参照图15,将参考块1510和目标块1520输入到VQANet 1500。参考块1510可以是原始图像的原始块,并且目标块1520可以是在原始图像被编码之后重建的图像的块。参考块1510可以是在通过第一编解码器进行编码之后重建的图像的块,并且目标块1520可以是在通过不同于第一编解码器的第二编解码器进行编码之后重建的图像的块。参考块1510可以是在通过第一编解码器进行编码之后重建的图像的块,并且目标块1520可以是在通过改变相同的第一编解码器的内部参数进行编码之后重建的图像的块。VQANet 1500接收参考块1510和与参考块1510相应的目标块1520,并且对参考块1510和目标块1520执行级联(concatenation)1530。然后,可通过两个DNN确定块的灵敏度1501、块的MOS平均值1502和块的MOS标准差1503。首先,可通过卷积运算1540提取图像的特征并通过全连接网络1550执行针对灵敏度的回归来确定块的灵敏度1501。可通过卷积运算1560提取特征,并且可通过动态路由1570预测针对块的MOS矢量。MOS矢量的长度1580可变为MOS平均值1502,并且MOS矢量的方向1590可变为MOS标准差1503。可通过简单卷积、批归一化和作为激活函数的修正线性单元(ReLU)函数来执行每一个卷积运算,但实施例不限于此。卷积运算1540和全连接网络1550是指一般的CNN,并且卷积运算1560和动态路由1570是指胶囊神经网络。对于预测表示块本身的属性的灵敏度来说,因为在卷积运算之后通过全连接网络来确定针对提取出的特征的没有位置信息的标量值,所以一般的CNN是有利的,并且对于预测MOS的平均值和标准差,因为在卷积运算之后通过动态路由来确定关于提取出的特征的包括位置信息的矢量值,所以胶囊神经网络是有利的。通常,从胶囊神经网络输出的矢量的长度指示对象存在的可能性,并且输出的矢量的方向指示对象的位置。

详细地讲,根据实施例的视频质量评价网络可在卷积运算之后通过全连接网络来确定针对块的属性的标量值,并且可确定通过在卷积运算之后在动态路由1570中预测用户对块的主观感知质量评价而获得的MOS矢量。

“级联”是指将数据的一端连接到其他数据的一端的运算。将通过将参考块的一端连接到目标块的一端而获得的值输入到CNN或胶囊神经网络。

如下面的等式3所示出的,可将由动态路由得到的的输出矢量的长度确定为MOS平均值。

[等式3]

y

假定表示通过经由视频质量评价网络预测用于训练的所有视频而获得的MOS平均值的矢量为

[等式4]

可训练视频质量评价网络,使得根据等式4所确定的损失函数最小化。

因为输入到视频质量评价网络的块是通过将视频划分为t×b×b×c的尺寸而获得的,所以通过使用卷积层中的权重针对包括时间信息的每一个块所确定的结果值被推导为与针对整个图像执行卷积的结果相同,并且同时,使用随机选择样点的随机梯度下降方法计算块的结果值。因此,可减少用于训练视频质量评价网络的时间。

图16是示出从作为动态路由的结果输出的MOS的矢量获得MOS平均值和MOS标准差的示例的示图。

使用通过视频质量评价网络获得的输出矢量不仅可预测MOS平均值,而且可预测MOS标准差。

参照图16,可通过对经由动态路由1570预测的MOS矢量1610的内积来确定预测的MOS矢量的长度,并且可将MOS矢量的长度确定为MOS平均值1620,并且可将MOS矢量的与参考矢量1640相对比较的方向确定为MOS标准差1630。

根据实施例,最终图像质量评价得分可包括MOS平均值和MOS标准差。因此,可通过MOS平均值和MOS标准差来确定图像质量。详细地讲,可确定的是,当具有相同的MOS平均值时,具有小的MOS标准差的图像具有比其他图像更好的图像质量。

根据另一实施例,为了防止视频质量评价网络的过度拟合,可在视频质量评价网络的训练中使用利用MOS标准差的正则化。因此,通过另外使用MOS标准差,可使用训练的准确性并且还可防止过度拟合。

通过经由动态路由获得的输出矢量

[等式5]

类似于获得MOS平均值的方法,可如下面的等式6来确定第i视频的MOS标准差

[等式6]

标准差是通过加权平均所确定的第i视频的最终标准差,P

可使用下面的等式7来确定使用整个视频的MOS平均值和MOS标准差训练的视频质量评价网络的损失函数。

[等式7]

作为超参数的λ

在视频质量评价网络中,同时获得MOS平均值和MOS标准差,并且因此,当应用使用预测的MOS标准差的正则化时,不需要额外的计算。

通过使用同时利用MOS平均值和MOS标准差的损失函数l

图17是根据本公开的另一实施例的VQANet的结构的框图。

根据另一实施例,可在用于防止视频质量评价网络的过度拟合的正则化中使用非参考视频质量评价的预测结果。无论参考图像是否可用,视频质量评价网络都可从目标图像中提取有意义的特征。通过非参考视频质量评价,即使当评价结果不好时,也可通过不使用参考图像来估计针对目标图像的评价的得分。另外,全参考视频质量评价可使用在非参考视频质量评价中所预测的值。

参照图17,可将参考图像1710的参考块1711和目标图像1720的目标块1421输入到VQANet。在图17的VQANet的层1780中,执行卷积层、批归一化和激活层。对参考块1711和目标块1721执行若干次包括卷积层、批归一化和激活层的层1780,然后通过全连接网络执行块灵敏度1730。详细地讲,在全参考视频质量评价中,在参考块1711和目标块1721被执行级联1790和被执行包括卷积层、批归一化和激活层的层1780之后,重复执行对仅针对目标块1721执行包括卷积层、批归一化和激活层的层1780的结果执行级联1790并且再次执行包括卷积层、批归一化和激活层的层1780的处理,然后执行动态路由。在非参考视频质量评价中,对目标块1721执行若干次包括卷积层、批归一化和激活层的层1780,然后执行动态路由。

通过全参考视频质量评价来确定两个块的比较矢量,并且通过非参考视频质量评价仅提取目标块的特征并且确定关于目标块的失真的失真矢量。

基于比较矢量和失真矢量确定全参考矢量,并且将失真矢量确定为非参考矢量。全参考矢量的长度变为全参考MOS平均值1740,全参考矢量的方向变为全参考MOS标准差1750,非参考矢量的长度变为非参考MOS平均值1760,并且非参考矢量的方向变为非参考MOS标准差1770。非参考MOS平均值1760和非参考MOS标准差1770被用于训练VQANet。详细地讲,非参考MOS平均值1760和非参考MOS标准差1770被用在用于防止VQANet的过度拟合的正则化中。

非参考视频质量评价的输出矢量被用于预测非参考图像质量得分,并且由下面的等式8确定非参考视频质量评价的损失函数。

[等式8]

其中,

在全参考视频质量评价中,共同提取参考块和目标块两者的各个特征以评价全参考视频质量得分。特定层的全参考视频质量评价使用全参考视频质量评价中的特征和非参考视频质量评价中的先前卷积层的特征两者。由下面的等式9确定全参考视频质量评价的损失函数。

[等式9]

其中,

当在非参考视频质量评价和全参考视频质量评价中获得的损失函数被组合时,如下面的等式10来确定用于训练的损失函数。

[等式10]

可训练视频质量评价网络,使得损失函数最小化。详细地讲,可通过进一步基于非参考视频质量评价的特征执行训练来防止视频质量评价网络的过度拟合。这里,λ

可另外使用非参考视频质量评价通过损失函数来训练视频质量评价网络,从而防止过度拟合。

图18是用于描述通过将VQANet应用于用于缩小的第一DNN 700和用于放大的第二DNN 300来训练第一DNN 700和第二DNN 300的方法的示图。

参照图18,将描述将VQANet应用于图9的第一DNN和第二DNN的训练处理。

在图18中,原始训练图像1801是AI缩小的目标,因此是与图9的原始训练图像801相应的图像,并且第一训练图像1802是通过使用VQANet训练的第一DNN 700对原始训练图像1801进行AI缩小而获得的图像。此外,第三训练图像1804是通过使用VQANet训练的第二DNN 300对第一训练图像1802进行AI放大而获得的图像。对于第一DNN 700和第二DNN 300的联合训练,将原始训练图像1801输入到第一DNN 700。将输入到第一DNN 700的原始训练图像1801经由AI缩小输出为第一训练图像1802,并且将第一训练图像1802输入到第二DNN300。作为对第一训练图像1802执行AI放大的结果输出第三训练图像1804。

参照图18,将第一训练图像1802输入到第二DNN 300。根据实施例,可将作为对第一训练图像1802执行第一编码和第一解码而获得的第二训练图像输入到第二DNN 300。为了将第二训练图像输入到第二DNN 300,可使用MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任何一种编解码器。详细地讲,MPEG-2、H.264、MPEG-4、HEVC、VC-1、VP8、VP9和AV1中的任何一种编解码器可被用于对第一训练图像1802执行第一编码,并且对与第一训练图像1802相应的图像数据执行第一解码。

参照图18,与通过第一DNN 700输出的第一训练图像1802分开,通过对原始训练图像1801执行传统缩小来生成缩减的训练图像1803。缩减的训练图像1803相应于图9的缩减的训练图像803。此处,传统缩小可包括双线性缩放、双三次缩放、lanczos缩放或阶梯缩放中的至少一个。可生成缩减的训练图像1803,使得原始训练图像1801的结构特征被保留。此后,可对缩减的训练图像1803执行用于对缩减的训练图像1803的视频质量进行增强的多个增强处理,以生成多个质量增强图像1805。这种增强方法可包括例如对比度增强方法、边缘增强方法、降噪方法和噪声去除方法。

可将作为对缩减的训练图像1803进行多个增强处理的结果而获得的多个质量增强图像1805中的一个和缩减的训练图像1803输入到VQANet 1806。缩减的训练图像1803可被用作VQANet 1806的参考图像,并且多个质量增强图像1805中的一个可被用作目标图像。可通过将VQANet 1806应用于多个质量增强图像1805中的每一个来获得多个质量增强图像中的每一个的视频质量结果。可通过将多个质量增强图像的各个视频质量评价得分进行比较来选择具有最高视频质量评价得分的质量增强图像。

详细地讲,可通过根据原始训练图像1801的结构特征对原始训练图像1801进行缩减来确定缩减的训练图像1803,并且可通过将多个预定增强方法应用于缩减的训练图像1803来确定多个质量增强图像1805。可将多个质量增强图像1805划分为具有特定预定尺寸的块,并且可将缩减的训练图像1803可划分为具有预定尺寸的块,可通过将块输入到视频质量评价网络1806来确定块的灵敏度信息和质量评价信息,并且基于块的灵敏度信息和质量评价信息来确定多个质量增强图像1805的视频质量评价得分。此后,可将多个质量增强图像1805的视频质量评价得分彼此进行比较,以选择具有最高视频质量评价得分的质量增强图像。

例如,当图像质量结果被表示为MOS时,可选择具有最高预测视频质量评价得分的质量增强图像,并且当多个质量增强图像具有最高预测MOS平均得分时,可根据预定方法选择所述多个质量增强图像中的一个。

当图像质量结果被表示为MOS时,可选择具有最高预测视频质量评价得分的质量增强图像,并且当多个质量增强图像具有最高预测MOS平均得分时,可根据预定方法从所述多个质量增强图像之中选择具有最低预测的MOS标准差的质量增强图像。

可将选择的质量增强图像1807与第一训练图像1802进行比较,以获得与选择的质量增强图像1807与第一训练图像1802之间的差异相应的结构损失信息1810。训练第一DNN700以使结构损失信息1810最小化。

使用所获得的结构损失信息1810来代替图9的结构损失信息810。

当第一图像115的结构特征与原始图像105的结构特征相比变化很大时,编码效率可能降低。因此,为了防止编码效率的降低,生成保留原始训练图像1801的结构特征的缩减的训练图像1803。因为缩减的训练图像1803可能具有低质量或者其结构特征可能不被保留,所以通过对缩减的训练图像1803执行质量增强来生成多个质量增强图像1805,将VQANet 1806应用于多个质量增强图像1805中的每一个和缩减的训练图像1803,并且从多个质量增强图像1805之中选择具有最佳图像质量结果的质量增强图像1807,并且因此,训练第一DNN 700,使得第一训练图像1802与选择的质量增强图像1807相似。

返回参照图18,将第一训练图像1802输入到第二DNN 300,并且从第二DNN 300输出第三训练图像1804。将原始训练图像1801和第三训练图像1804应用于VQANet 1806,并且因此确定与图像质量评价损失信息相应的质量损失信息1830。可基于第三训练图像1804的图像质量评价损失信息来训练第二DNN 300。

详细地讲,可将用于质量评估的第三训练图像1804和将与第三训练图像1804进行比较的原始训练图像1801划分为具有预定尺寸的块,可将块输入到视频质量评价网络以确定每一个块的灵敏度信息和质量评价信息,并且可根据通过基于块的多条灵敏度信息将多条质量评价信息进行组合而确定的第三训练图像1804的视频质量评价得分来确定质量损失信息1830(即,图像质量评价损失信息)。

图像质量评价损失信息可包括基于使用通过视频质量评价网络确定的第三训练图像的灵敏度信息和质量评价信息而确定的视频质量评价得分的损失函数。

使用与图像质量评价损失信息相应的质量损失信息1830来代替图9的质量损失信息830。

使用复杂度损失信息1820来代替图9的复杂度损失信息820。可基于通过使用VQANet训练的第一DNN 700缩小的第一训练图像1802的空间复杂度来确定复杂度损失信息1820。例如,第一训练图像1802的总方差值可被用作空间复杂度。复杂度损失信息1820与通过对第一训练图像1802执行第一编码而生成的图像数据的比特率相关。定义当复杂度损失信息1820小时图像数据的比特率低。

根据实施例,根据与图9的方法相同的方法,可使用利用VQANet获得的结构损失信息1810和质量损失信息1830来代替图9的结构损失信息810和质量损失信息830并且使用从通过使用VQANet的第一DNN 700输出的第一训练图像1802获得的复杂度损失信息1820来代替图9的复杂度损失信息820,来联合训练第一DNN 700和第二DNN 300。换句话说,使用结构损失信息1810、复杂度损失信息1820和质量损失信息1830中的全部来训练第一DNN 700,并且使用质量损失信息1830来训练第二DNN 300。

第一DNN 700可更新参数,使得基于结构损失信息1810、复杂度损失信息1820和质量损失信息1830所确定的最终损失信息被减少或最小化。此外,第二DNN 300可更新参数,使得质量损失信息1830被减少或最小化。

用于训练第一DNN 700和第二DNN 300的最终损失信息可如上述等式1那样被确定,并且可使用与图9的方法相同的方法来更新参数。

本公开的上述实施例可被编写为计算机可执行程序,并且所编写的计算机可执行程序可被存储在介质中。

介质可连续地存储计算机可执行程序,或者临时存储计算机可执行程序以供执行或下载。此外,介质可以是组合了单件硬件或多件硬件的各种记录介质或存储介质中的任何一种,并且介质不限于直接连接到计算机系统的介质,而是可被分布在网络上。介质的示例包括被配置为存储程序指令的磁介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如CD-ROM和DVD)、磁光介质(诸如光软盘)以及ROM、RAM和闪存。介质的其他示例包括由发布应用的应用商店或者由提供或发布其他各种类型的软件的网站、服务器等管理的记录介质和存储介质。

与上述DNN相关的模型可通过使用软件模块来实现。当通过使用软件模块(例如,包括指令的程序模块)来实现DNN模型时,DNN模型可被存储在计算机可读记录介质中。

DNN模型可通过以硬件芯片的形式被集成而成为上述AI解码设备200或AI编码设备600的一部分。例如,DNN模型可以以用于AI的专用硬件芯片的形式被制造,或者可被制造为现有通用处理器(例如,CPU或AP)或图形专用处理器(例如,GPU)的一部分。

DNN模型可以以可下载软件的形式被提供。例如,计算机程序产品可包括通过制造商或电子市场电子发布的软件程序形式的产品(例如,可下载的应用)。对于电子发布,软件程序的至少一部分可被存储在存储介质上或者可被临时创建。在这种情况下,存储介质可以是制造商或电子市场的服务器,或者是中继服务器的存储介质。

虽然已经参考附图描述了本公开的一个或更多个实施例,但本领域普通技术人员将理解的是,在不脱离由权利要求限定的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号