公开/公告号CN115984879A
专利类型发明专利
公开/公告日2023-04-18
原文格式PDF
申请/专利权人 内蒙古大学;
申请/专利号CN202310034846.6
申请日2023-01-10
分类号G06V30/244;G06V30/41;G06V30/19;G06V30/18;G06V10/42;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/084;
代理机构西安知诚思迈知识产权代理事务所(普通合伙);
代理人李冰
地址 010021 内蒙古自治区呼和浩特市赛罕区大学西路235号内蒙古大学
入库时间 2023-06-19 19:30:30
法律状态公告日
法律状态信息
法律状态
2023-05-05
实质审查的生效 IPC(主分类):G06V30/244 专利申请号:2023100348466 申请日:20230110
实质审查的生效
技术领域
本发明属于脱机手写样例生成领域,涉及一种基于多特征融合的脱机手写样例生成方法。
背景技术
英语是世界上使用最广泛的语言,在世界上拥有巨大的影响力。英文单词是英语最基本的组成单位,《牛津英语词典》被认为是当代最全面和最权威的英语词典,1989年出版的第二版中,收录了301,100个主词汇。第二版出版到现在已经三十多年,第三版的出版仍遥遥无期,从1994年至今,超70个词汇专家进行词典编辑工作,至此第三版《牛津英语词典》已收录80万个单词,但距离收录现有全部单词仍遥遥无期,这是因为英语每年都有新增词汇,而且词汇量逐年迅速增加。因为英文单词词汇量大且增长迅速的特点,所以人工采集包含全部(或者常用)词汇的手写单词图像数据集的成本过高,导致英文脱机手写识别面临一定困难。
脱机手写样例生成方法大多基于GANs所提出,如GANwriting、ScrabbleGAN、Handwriting Transformers、SmartPatch、HiGAN,这些方法同时考虑内容和样式,因此GANs框架一般有两个输入,文本内容和样式。但是在之前的工作中,全局特征(笔迹的粗细、深浅、倾斜、圆度、连笔等)与局部特征(特定字母的个性化书写)并没有得到很好的融合与权衡。在如英文、法文、德文等以有限字符横向排列组成的语言文字的书写方式中,连笔书写非常常见,这就要求样例生成方法在关注局部特征时也不能丢失全局特征,这在脱机手写样例生成中是极为重要的,所以现有的方法就会出现生成风格单一、作者风格不突出、生成质量差的问题。
发明内容
本发明实施例的目的在于提供一种基于多特征融合的脱机手写样例生成方法,以解决现有的脱机手写样例生成方法存在的生成风格单一、作者风格不突出、生成质量差的问题。
本发明实施例所采用的技术方案是:一种基于多特征融合的脱机手写样例生成方法,包括以下步骤:
步骤S1、构建基于多特征融合的手写样例生成模型;
步骤S2、对基于多特征融合的手写样例生成模型进行训练;
步骤S3、将待生成的单词文本和参考的作者样式图片或作者ID输入训练后的基于多特征融合的手写样例生成模型,生成手写样例图像。
进一步的,步骤S3的具体实现过程如下:
步骤S31:输入要生成的单词文本和参考的作者样式图片或作者ID,如果输入的是作者ID,则通过作者ID调用作者样式图片,并对直接输入或通过作者ID调用的作者样式图片进行预处理,固定作者样式图片的大小;
步骤S32:对固定大小后的作者样式图片分别进行局部风格特征、全局风格特征、局部内容特征和全局内容特征提取,得到全局风格编码F
步骤S33:将全局风格编码F
步骤S34:对步骤S33所得融合不同尺度特征的特征图进行上采样,生成手写样例图像。
进一步的,步骤S32中,将固定大小后的作者样式图片输入书写风格编码器VGG19,书写风格编码器VGG19输出全局风格编码F
将VGG19的ReLU5-1、ReLU4-1和ReLU3-1层的输出依次作为局部风格编码F
将固定大小后的作者样式图片输入文本编码器中,文本编码器包含两个并列的多层感知器,两个并列的多层感知器对应输出两个全局文本内容编码F
进一步的,步骤S33将风格内容编码F
(1)对风格内容编码F
(2)将特征编码F作为新的风格内容编码F
(3)将步骤(2)输出的特征编码F作为新的风格内容编码F
进一步的,对风格内容编码F
首先,对风格内容编码F
然后,将广播相加的结果X送入多尺度通道注意力机制中,多尺度通道注意力机制包括全局通道注意力和局部通道注意力两部分,其中:
局部通道注意力L(X)可表示为:
L(X)=BN(PWConv
其中,δ为RELU激活函数,PWConv
全局通道注意力G(X)可表示为:
G(X)=BN(PWConv
其中,GAP表示全局平均池化操作;
将全局通道注意力和局部通道注意力的结果经过广播相加后送入Sigmoid激活函数,最终的输出结果Y被映射到[0,1]之间,输出结果Y是特征融合的权重,利用特征融合的权重Y,按照下式对特征矩阵F
其中,融合特征矩阵Z为特征加权求和结果,
进一步的,AdaIN归一化函数可表示为:
其中,μ(Z)表示融合特征矩阵Z的方差,σ(Z)表示融合特征矩阵Z的均值。
进一步的,在步骤S2对基于多特征融合的脱机手写样例生成模型进行训练时,将生成的手写样例图像分别输入至判别器D、作者分类器W和单词识别器R,确定判别损失L
进一步的,判别损失L
其中,E为期望,χ为训练集,x为训练集χ中采集的样本;
进一步的,书写风格损失L
其中,E为期望,χ为训练集,x为训练集χ中采集的样本;
进一步的,文本内容损失L
其中,E为期望,χ为训练集,x为训练集χ中采集的样本;
本发明实施例的有益效果是:深入研究了脱机手写样例生成过程,在生成对抗网络GANs即图像生成器中结合不同尺度的特征融合的方法,克服了脱机手写样例生成风格单一、作者风格不突出、生成质量差的问题,可以作为一种数据增广方法应用于手写文本识别,或者直接用于扩充手写文本识别数据集、字迹仿写等多个领域,有助于推动脱机手写样例生成研究的发展,大大减少构建手写文本数据集的难度,为手写文本识别提供了有利条件,具有十分重要的学术和应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本实施例的基于多特征融合的脱机手写样例生成方法的流程图。
图2是本实施例的基于多特征融合的脱机手写样例生成模型的结构示意图。
图3是本实施例的特征融合模块的结构示意图。
图4是本实施例的判别器的结构示意图。
图5是本实施例的基于多特征融合的脱机手写样例生成方法的实验效果。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种基于多特征融合的脱机手写样例生成方法,包括:
步骤S1、构建基于多特征融合的手写样例生成模型,基于多特征融合的手写样例生成模型的结构见图2;
步骤S2、对基于多特征融合的手写样例生成模型进行训练;
步骤S3、将待生成的单词文本和参考的作者样式图片或作者ID输入训练后的基于多特征融合的手写样例生成模型,生成对应单词文本的手写样例图像,如图1所示,具体过程见步骤S31~S34。
图2是本实施例的多特征融合的脱机手写样例生成模型的示意图,多特征融合的脱机手写样例生成模型包括书写风格编码器、文本内容编码器、图像生成器,其中书写风格编码器由一个VGG19组成,作者样式图片被送入书写风格编码器中,最终输出为风格编码F
步骤S31:输入要生成的单词文本和参考的作者样式图片或作者ID,如果输入的是作者ID,则通过作者ID调用作者样式图片,并对直接输入或通过作者ID调用的作者样式图片进行预处理,固定作者样式图片的大小。具体在训练中,送入一个对应图像名、图像文本内容、图像对应作者、作者ID的文档,此文档IAM数据集已给出。
在对待生成单词进行脱机手写样例生成时,如果参考的作者样式图片是现有的已经被预处理且存储的作者样式图片,则无需对其进行二次预处理,直接从存储的数据库中调用即可,如是未被预处理且存储的作者样式图片,则对其进行预处理,固定作者样式图片的大小,进行使用并存储在对应的数据库中。
输入的作者样式图片的尺寸过大或过小时,进行对应的缩放操作,以使得作者样式图片的高度固定为64、长度固定为216,作者样式图片的具体尺寸依据使用的神经网络模型的结构确定,本实施例采用VGG19,因此需要作者样式图片的高度固定为64、长度固定为216,如果输入的是作者ID,则是调用该作者的作者样式图片。为同时保证训练速度和效果,训练时每个作者参考50张不同的作者样式图片,若当前作者样式图片不足50张,则对现有作者样式图片进行复制,补齐50张作者样式图片。但在训练结束后,生成过程仅参考1张作者样式图像即可生成出该作者书写风格的手写样例。
步骤S32:对固定大小后的作者样式图片分别进行局部风格特征、全局风格特征、局部内容特征和全局内容特征提取,得到全局风格编码F
将固定大小后的作者样式图片输入至三个不同深度的卷积神经网络提取局部风格编码F
将固定大小后的作者样式图片输入文本编码器中,文本编码器包含两个并列的多层感知器,两个并列的多层感知器对应输出两个全局文本内容编码F
将文本内容编码f
步骤S33:将全局风格编码F
(1)对风格内容编码F
(2)将特征编码F作为新的风格内容编码F
(3)将步骤(2)输出的特征编码F作为新的风格内容编码F
对风格内容编码F
首先,对风格内容编码F
然后,将广播相加的结果X送入多尺度通道注意力机制中,多尺度通道注意力机制包括全局通道注意力和局部通道注意力两部分,其中:
局部通道注意力L(X)可表示为:
L(X)=BN(PWConv
其中,δ为RELU激活函数,PWConv
全局通道注意力G(X)可表示为:
G(X)=BN(PWConv
其中,GAP表示全局平均池化操作;
将全局通道注意力和局部通道注意力的结果经过广播相加后送入Sigmoid激活函数,最终的输出结果Y被映射到[0,1]之间,如图3所示,输出结果Y就是特征融合的权重,利用特征融合的权重Y,对特征矩阵F
其中,融合特征矩阵Z为特征加权求和结果,
图像生成器需要集合不同层次的语义信息,因此图像生成器必须能够接受不同尺度的特征并融合,而且需要保证在风格特征融合的过程中不能丢失所需的内容特征。但是多个融合特征在语义上存在很大的不一致性,这就导致不同层的融合权值对于生成图像的质量有很大影响。为了消除这种影响,本实施例采用了基于注意力的方法去融合特征,此方法可以得出特征矩阵F
将融合特征矩阵Z送入AdaIN归一化函数中,与局部本文内容编码α
其中,μ(Z)表示融合特征矩阵Z的方差,σ(Z)表示融合特征矩阵Z的均值。
步骤S34:对步骤S33所得融合不同尺度特征的特征图进行上采样,生成手写样例图像,手写样例图像经过tanh激活函数后输出。
将风格编码F
本实施例的一种基于多特征融合的脱机手写样例生成方法,还包括:
将生成的手写样例图像分别输入至判别器D、作者分类器W和单词识别器R,确定判别损失L
如图2所示,本实施例共有三个损失函数来控制基于多特征融合的脱机手写样例生成,分别为判别器D、作者分类器W和单词识别器R,由此得到判别器D的判别损失L
判别器D用于判断生成的手写样例是否真实,是一个有监督的图像二分类问题,判断生成图像是否为真,不必考虑生成的准确性和风格化,判别器D由卷积层、6个残差块和判断两种类别的输出层组成,具体结构如图4所示,判别损失L
其中,E为期望,χ为训练集,x为训练集χ中采集的样本;
作者分类器W用于判断生成的手写样例的风格是否和参考的作者样式图片的风格一致,是一个有监督的图像多分类问题,判断生成的手写样例风格属于哪一个作者,结构和判别器D类似,区别在于输出层判断类别变为作者的数量;书写风格损失L
其中,
单词识别器R用于判断生成的手写样例是否与输入的文本内容一致,使用CRNN模型识别生成的手写样例,再与输入的目标文本单词进行比较,文本内容损失L
其中,
本实施例采用了IAM数据集进行训练和测试,该数据集是2002年由伯尔尼大学计算机视觉与人工智能研究组收集并发布,数据集由9862个文本行组成,大约63000个英语单词,由500个不同的作者的样式图片组成,该数据集提供了具有互斥作者的官方分割,340个作者的样式图片用于训练,其他的作者的样式图片用作测试。单词文本则是包含了全部数据集原有的单词,为了证明方法的可靠性,还加入了几百个数据集里没有的单词。
本实施例可以根据输入的单词文本和作者样式图片生成需要的手写样例,具体实验效果如图5所示,图5中的每一列为不同的作者的手写样例,前三行为参考的作者样式图片,后四行则为输入的单词文本和生成的对应的手写样例。对实验结果分析可知,本实施例生成的手写样例单词准确率高、作者风格突出,生成效果较好。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
机译: 用于在动物(包括人类)中体内对淀粉样蛋白进行负调节的方法,以及用于治疗和/或预防和/或改善阿尔茨海默氏病或其他特征在于淀粉样蛋白沉积物,淀粉样蛋白生成多肽类似物,免疫原性的疾病和病症的方法组成,核酸片段,载体,转化细胞,诱导产生抗淀粉样多肽的抗体的组成,稳定的细胞系,细胞的制备方法,鉴定修饰的淀粉样多肽的方法以及免疫原的制备组合物,淀粉样蛋白生成多肽或其子序列的用途以及淀粉样蛋白生成多肽的类似物的用途
机译: 基于对象表达特征的推断手写特征的基于人格特征的基于图形的评估方法
机译: 设置元素结构的特征识别指数的方法和装置,设置分子或分子聚集的特征识别指数的方法和装置,用于产生光控制的光学数据的光学数据的生成方法和装置基于元素结构获得的声音信息的控制信号生成,基于元素结构获得的声音信息,基于计算机可读记录介质的光发射控制的发光器件,以及由计算机执行的程序