公开/公告号CN114898021A
专利类型发明专利
公开/公告日2022-08-12
原文格式PDF
申请/专利权人 湖南师范大学;
申请/专利号CN202210812946.2
申请日2022-07-12
分类号G06T13/40(2011.01);G06V10/26(2022.01);G06V10/764(2022.01);G06V10/77(2022.01);G06V10/82(2022.01);G06V20/40(2022.01);
代理机构长沙麓创时代专利代理事务所(普通合伙) 43249;
代理人贾庆
地址 410081 湖南省长沙市岳麓区麓山路36号
入库时间 2023-06-19 16:23:50
法律状态公告日
法律状态信息
法律状态
2022-09-27
授权
发明专利权授予
2022-08-30
实质审查的生效 IPC(主分类):G06T13/40 专利申请号:2022108129462 申请日:20220712
实质审查的生效
技术领域
本发明属于图像处理技术领域,具体涉及种音乐舞台表演视频的智能卡通化方法。
背景技术
近几年,随着人工智能的不断发展,许多算法被运用在图像处理领域,例如图像风格转换。动漫是现在非常流行的一种艺术表现形式,这种艺术形式广泛的应用与社会的诸多方面,包括广告、游戏、影视作品和摄影等多个方面。现在这个时代的年轻人大多受到过漫画的影响,而漫画也确实在全世界有很大的影响力,但是由于漫画的绘制和生成大多用的是手工绘图后再通过电脑渲染来制作,花费的时间和人力都相对较多,这对于一般没有绘图基础的人将无法完成制因此,现代卡通动画工作流程允许艺术家使用各种资源来创作内容。通过将真实世界的图片转换为可用的卡通场景素材,创造了一些著名的漫画,该过程称为图像卡通化。
这种图像卡通化的方法也可以应用于音乐教育领域。通过用卡通化的方法对音乐舞台表演视频进行渲染,通过卡通风格的艺术形式对音乐舞台表演进行展示,可以吸引儿童对于音乐舞台表演的兴趣。虽然现有卡通化方法已经应用于许多领域,但在音乐教育领域的应用稀缺,此外,现有的卡通画方法,不能同时对于人物、道具和背景卡通化,并且未对卡通化后的人物、道具和背景和谐处理,使得其形成一个统一的卡通动画。
名词解释:
基于语义分割的DCNN模型:用深度卷积神经网络(Deep Convolutional NeuralNetwork, DCNN)对图像进行语义分割的模型。
基于生成对抗网络的卡通化模型:用生成对抗网络(Generative AdversarialNetworks,GAN)对图像进行卡通化处理的模型。
发明内容
本发明的目的在于针对现有图像风格化方法存在的不足,提出了一种新的音乐舞台表演视频的智能卡通化方法,在复杂场景下对不同内容进行语义分割,并用不同的图像风格化方法对不同内容进行卡通化处理。
本发明的目的通过以下技术方案实现:
一种音乐舞台表演视频的智能卡通化方法,包括以下步骤:
步骤一,获取图像数据,并对图像数据进行预处理;所述图像数据包括真实舞台图像数据集和卡通图像数据集;所述真实舞台图像数据集由音乐舞台表演视频得到;
步骤二,构建语义分割模型,语义分割模型通过对图像数据中的人物、道具、背景进行语义分割;
步骤三,分别针对人物、道具、背景构建并训练不同的音乐舞台表演卡通化视频生成模型;分别得到训练好的人物卡通化视频生成模型,训练好的道具卡通化视频生成模型和训练好的背景卡通化视频生成模型;
步骤四,将待处理的音乐舞台表演视频进行进行预处理,然后通过语义分割模型分割出人物、道具、背景后,分别将人物、道具、背景输入训练好的人物卡通化视频生成模型,训练好的道具卡通化视频生成模型和训练好的背景卡通化视频生成模型,得到卡通化的音乐舞台表演视频;
步骤五,构建复合图像协调模型对卡通化的音乐舞台表演视频进行图像和谐化处理,获取最终的卡通化的音乐舞台表演视频。
进一步的改进,所述步骤一中,预处理的方法为图像增强、图像归一化。
进一步的改进,所述步骤二中,所述语义分割模型为基于语义分割的DCNN模型;
首先,将一张图片,送进基于语义分割的DCNN模型中,加入空洞卷积提取特征,得到高级语义特征和低级语义特征;空洞卷积过程式如下:
其中,y[i]表示在位置i上的空洞卷积输出,
低级语义特征是经过一次空洞率为1的空洞卷积后得到的特征信息, 高级语义特征是经过四次空洞卷积后得到的特征信息,通过把提取到的高级语义特征输入空洞金字塔池化模块,和不同空洞率的空洞卷积层进行卷积,得到四个特征图,其中空洞卷积空洞率分别为1、6、12、18;再对提取到的高级语义特征进行池化,得到一个特征图;所有分支共得到五个特征图,使五个特征图拼接在一起,得到第一特征图;
把第一特征图放入多层通道注意力模块获取第二特征图;将第二特征图进行双线性插值上采样并与低级语义特征合并,获得合并特征图;解码器部分将合并特征图用 3×3卷积恢复空间信息和双线性插值上采样精细目标边界,得到分割结果;
由于图像分割任务中具有多个对象,因此用多分类交叉熵损失函数Loss,公式如下:
其中,
通过上述过程,把人物和道具从舞台背景中分离出来。
进一步的改进,所述步骤三的具体步骤为:
基于生成对抗网络的卡通化模型,分别形成对应人物、道具、背景的人物卡通化视频生成模型、道具卡通化视频生成模型和背景卡通化视频生成模型;
3.1)人物卡通化视频生成模型的总损失函数
其中
3.11)人物表面信息的损失函数
用可微引导滤波器进行边缘保持滤波,表示为
3.12)人物结构信息损失函数
使用预先训练的VGG16网络提取的高级特征,然后在人物卡通化视频生成模型生成出的人物卡通图像和从生成出的人物卡通图像中提取的结构表征之间加强空间约束;
选择性搜索算法分为层次分组算法、多样化策略两个部分。在层次分组算法中,使用费尔兹算法产生图像初始区域,使用贪心算法对区域进行迭代分组:第一步,计算所有邻近区域之间的相似性;第二步,使两个最相似的区域被组合在一起;第三步,计算合并区域和相邻区域的相似度;最后,重复第二、三步,直到整个图像变为一个区域。在多样化策略中,创建一系列互补的策略,通过这些策略得到的位置可以在之后进行组合。
超像素算法是按照本区域中位值和平均值进行加权求和,比起传统的超像素算法,它提升了全局对比度,使图像变亮。因此,本发明中按照区域中位值和平均值进行加权求和来计算区域颜色,公式如下:
其中,
3.13)人物纹理信息损失函数
其中,
使用随机色彩转移算法,从彩色图像中提取单通道纹理表征
其中,
3.14)人物内容信息损失函数
3.15)人物总变分损失函数如下:
其中,
3.16)l1正则化项:
其中,
3.2)道具卡通化视频生成模型的总损失函数
其中,其中,
3.21)边缘促进对抗性损失:
对于每个图像的
边缘检测器检测边缘像素;(2)扩张边缘区域;(3)在扩张的边缘区域应用高斯平滑,从而得到Sdata(e);其中,Sdata(c)表示卡通图像的集合,Sdata(e)表示去除清晰边界的卡通图像的集合,
因此,边缘促进对抗性损失函数
3.22)内容信息损失函数
VGG表示一个VGG层的特征映射;
3.23)纹理信息损失函数
3.3)背景卡通化视频生成模型的总损失函数
其中,
分别训练人物卡通化视频生成模型、道具卡通化视频生成模型和背景卡通化视频生成模型,使得人物卡通化视频生成模型的总损失函数、道具卡通化视频生成模型的总损失函数和背景卡通化视频生成模型的总损失函数最小,从而分别得到训练好的人物卡通化视频生成模型,训练好的道具卡通化视频生成模型和训练好的背景卡通化视频生成模型;将语义分割后不同部分的待卡通化视频分别输入到训练好的人物卡通化视频生成模型,训练好的道具卡通化视频生成模型和训练好的背景卡通化视频,得到人物卡通化视频、道具卡通化视频、背景卡通化视频;再将人物卡通化视频、道具卡通化视频、背景卡通化视频的每一帧复合,得到复合图像
进一步的改进,所述步骤五的具体步骤为:
将复合图像
其中,⊙是元素级乘积;
将协调通过图像重构损失函数
以
其中,
其中,
为了协调照明,使前景和背景的照明将兼容,首先学习光线,然后将光线从背景转移到前景,假设照明对应的图像梯度平滑的,则有
设置照明协调损失
H表示真实图像,
构建复合图像
其中,S为相似函数,
得到总损失函数
通过训练,使得总损失函数
本发明的优点:
与现有技术相比,本发明能够针对拍摄的音乐舞台表演视频进行卡通化处理,且可以分别对人物、道具、背景等对象分别进行不同的卡通化。其中,促进边缘的对抗性损失和VGG网络中高级特征图的
附图说明
图1为本发明的流程示意图;
图2为测试视频截图;
图3为视频语义分割结果截图;
图4为图像和谐化后的视频截图。
具体实施方式
为了使发明的目的、技术方案及优点更加清楚明白,以下结合式例,对本发明进行进一步的详细说明。
本发明是一种音乐舞台表演视频的智能卡通化方法,包括如下步骤:
步骤一,获取真实舞台图像数据集和卡通图像数据集,并对图像数据预处理:
搜集真实场景图像数据集以及卡通图象的数据集并进行图像预处理,构建训练集以及测试集。
步骤二,对音乐舞台表演视频中的人物、道具、背景进行语义分割:
对用户输入的原音乐舞台表演视频进行分帧处理,设计基于空洞卷积的DCNNs模型对每一帧图进行语义分割。用DCNNs模型提取特征,并预测一个标签,例如,人物、背景、道具等;
设计损失函数衡量预测标签和真实标签的差距;
根据差距计算每一层参数的梯度,然后进行梯度更新;
重复前面几个步骤,直到预测标签与真实标签达到一定的准确率;
给定一张图片,每个像素都会输出为不同类别的概率,从而生成对应地掩膜,把音乐舞台表演视频中的人物、道具、背景分割开。
步骤三,分别针对人物、道具、背景等不同对象构建并训练不同的音乐舞台表演卡通化视频生成模型:
设计并训练基于生成对抗网络的卡通化模型对不同对象进行卡通化。
构建基于生成对抗网络的卡通化模型对人物进行卡通化,总损失函数如下:
其中
1)表面信息的损失函数:
用可微引导滤波器进行边缘保持滤波,表示为
2)结构信息损失:
使用预先训练的VGG16网络提取的高级特征,然后在我们的结果和提取的结构表示之间加强空间约束。让
在此用中值滤波与均值滤波结合的自适应滤波算法。公式如下:
此处设置γ
3)纹理信息损失:
使用一种随机色彩转移算法,从彩色图像中提取单通道纹理表征。该公式如下:
设置了α =0.8,β
引入了一种鉴别器
4)内容信息损失:
5)总变分损失函数:
设计总变分损失函数
6)l1正则化项:
构建基于生成对抗网络的卡通化模型对道具进行卡通化,总损失函数如下:
其中,
1)对抗性损失:
对于每个图像的
边缘检测器检测边缘像素(2)扩张边缘区域(3)在扩张的边缘区域应用高斯平滑,从而得到Sdata(e)。因此,边缘促进对抗性损失函数如下:
2)内容信息损失:
内容信息的损失函数用于确保卡通结果和输入照片语义不变,并且它也是在预先训练好的VGG16特征空间上计算的。
3)纹理信息损失:
引入了一种鉴别器
4)l1正则化项:
5)照明平滑损失
为了协调照明,我们需要调整前景照明
构建基于生成对抗网络的卡通化模型对背景进行卡通化,总损失函数如下:
其中,
1)对抗性损失:
2)内容信息损失:
3)结构信息损失:
使用预先训练的VGG16网络提取的高级特征,然后在我们的结果和提取的结构表示之间加强空间约束。让
4)l1正则化项:
通过上述损失函数对基于生成对抗网络的三个针对不同对象的卡通化模型进行不断训练。
步骤四,将音乐舞台表演视频输入模型,获取卡通化的音乐舞台表演视频:
将音乐舞台表演视频输入音乐舞台表演卡通视频生成模型,得到具有卡通化效果的音乐舞台表演视频。首先用opencv把原始视频分帧提取出来,再把每一张用步骤二、三、四、五中的方法把不同类别图像进行语义分割,再用不同的风格迁移算法对不同类别的图像进行卡通化处理,最后进行图像和谐化处理。然后把和谐化后的每一帧音乐舞台表演卡通图像读取并写入视频,之后得到一个完整的音乐舞台表演卡通化后的视频。再通过moviepy.editor对原始视频的音频进行提取,并添加到卡通化后的音乐舞台表演视频上,得到最终音乐舞台表演视频卡通化后的效果。
步骤五,构建复合图像协调模型对卡通化的音乐舞台表演视频进行图像和谐化处理,获取色彩和谐的卡通化的音乐舞台表演视频:
将卡通化之后的视频利用迁移学习进行图像和谐化处理。利用新的复合图像协调的方法对该模型生成的卡通化视频进行图像和谐化处理,主要是通过可分离的反射率和照明的内在图像协调来消除不协调,使前后景更好的融合。首先构建一个基于自动编码器的架构,将复合图像分解为反射率和照明固有图像,然后通过材料一致性惩罚协调反射率,同时通过调整前景照明与背景兼容来协调照明,进一步建立前景和背景之间的协调关系模型,指导内在图像协调,我们在照明和指导过程中使用掩模来分离前景和背景,最终使输入的视频通过训练好的模型得到和谐化后的表演视频。
最后应当说明的是,以上实施例仅用于说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当了解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
机译: 方法,用于舞台表演和/或音乐剧舞台的结构,安装在带有或不带有引擎的运输工具上。
机译: 方法,用于舞台表演和/或音乐剧舞台的结构,安装在带有或不带有引擎的运输工具上。
机译: 舞台表演系统,表演控制子系统,操作舞台表演系统的方法,表演控制子系统的操作方法和程序