公开/公告号CN112699349A
专利类型发明专利
公开/公告日2021-04-23
原文格式PDF
申请/专利权人 华南理工大学;华南理工大学珠海现代产业创新研究院;
申请/专利号CN202011566442.4
申请日2020-12-25
分类号G06F21/31(20130101);G06N3/08(20060101);G06N3/04(20060101);
代理机构44102 广州粤高专利商标代理有限公司;
代理人何淑珍;江裕强
地址 510640 广东省广州市天河区五山路381号
入库时间 2023-06-19 10:43:23
技术领域
本发明涉及深度学习和人工智能技术领域,具体涉及一种基于样本合成以及排序学习的联机签名鉴定方法。
背景技术
手写签名作为身份认证的一种重要方式,在金融、司法、银行业务上都有着普遍应用,构建自动签名鉴别系统具有良好的现实应用场景和实用价值。签名鉴定分为联机签名鉴定和脱机签名鉴定;相比于脱机签名鉴定,联机签名可以采集到书写过程中的压力速度信息等,能够更好地反映出用户的书写习惯。随着联机书写采集设备的普及,联机签名鉴定任务也进一步得到广泛使用。
传统的联机签名鉴定方法往往采用手工设计特征,可分为基于整段序列提取的全局特征以及基于分段序列提取的局部特征。全局特征如签名持续总时间,签名分段数目,签名的宽高比,签名过程中的最大、平均速度等,局部特征有段长度,段内最大、平均速度等。或者是直接对签名序列相似度进行比较,采用如动态时间规整算法等。
近年来,随着大规模签名样本数据库的出现、以及深度神经网络模型在特征学习中的成功应用,如何利用深度神经网络构建高性能联机签名鉴定系统,成为一个热门的研究问题。基于深度网络的方法,可以从大量数据中自动地学习签名数据的有效描述特征,具有描述能力强、泛化性能好等特点。然而以往方法大多基于真实签名和伪造签名数据比对学习来取得良好性能,实际应用中伪造签名数据的获取存在需要高昂的人工成本以及伪造效果难以衡量的问题,针对目前联机签名鉴别系统过度依赖伪造签名数据这一难点,还没有较为有效的解决方案。
发明内容
为了应对现有联机签名鉴定技术存在的困难和挑战,本发明充分利用SigmaLognormal模型合成数据解决实际应用中伪造样本难以获取的问题,然后通过优化平均精度损失排序学习方法以学习到更细粒度的特征,提供一种基于样本合成以及排序学习的联机签名鉴定方法。
本发明的目的至少通过如下技术方案之一实现。
一种基于样本合成以及排序学习的联机签名鉴定方法,包括以下步骤:
S1、采集签名序列并进行预处理;
S2、建立签名序列的Sigma Lognormal拟合模型;
S3、对拟合参数增加扰动采样合成真实签名以及伪造签名;
S4、进行排序学习优化平均精度损失训练神经网络模型参数;
S5、对于待鉴定签名序列,利用步骤S4中训练完成的神经网络模型提取特征并进行归一化,计算特征向量间欧式距离判断真伪。
进一步地,步骤S1中,预处理包括如下步骤:
S1.1、对签名序列进行尺寸归一化,处理过后的签名路径坐标都被归一化到-0.5到0.5之间,且保持原比例,具体如下:
其中,x和y是签名序列在水平和竖直方向上的坐标值,x
S1.2、使用截止频率8~12Hz的巴特沃斯低通滤波器对签名序列进行光滑化处理,处理过后的签名序列中小的颤抖噪声可以被去掉,使得签名序列更加平整光滑。
进一步地,步骤S2的具体步骤如下:
S2.1、先对原签名序列进行重采样;
S2.2、计算Sigma Lognormal模型参数拟合原签名序列。
进一步地,Sigma Lognormal模型来源于书写运动学理论,即认为联机签名的书写速度信号可以分解为多个对数高斯信号的叠加,优化算法得到相应参数以后,就可以重构出原始的速度信号,进一步地可以计算得到轨迹信号,签名序列的Sigma Lognormal模型具体如下:
公式(3)中,v(t)是一个签名的速度序列,v
进一步地,步骤S3具体包括以下步骤:
S3.1、确定扰动范围;
S3.2、根据已经确定好的扰动范围,增加扰动采样,对参数扰动过的拟合模型采样生成签名序列,合成真实签名集合G
进一步地,步骤S3.1中,为了得到合理的扰动首先要确定出允许范围,因为有论文指出抖动范围过大会造成签名的剧烈变化导致字形不可辨认,然后在允许范围内划分选择出真实签名和伪造签名的抖动范围。
确定允许范围通过视觉图灵测试,邀请志愿者手写构建了一个签名数据库,并且通过让志愿者对抖动生成的签名辨别字形是否可认来确定抖动值是否有效,最终确定合适的允许范围的参数取值范围;
首先人为选定两个百分比d%和d′%,然后从构建的真实签名数据库中采样一批样本并拟合出其对数高斯分布模型后,对其中的每一个模型参数提升d%;如果志愿者中认为判断字形可认的人数超过一定比例(50%),则认为视觉图灵测试通过,下一轮将在提升了d%的基础上继续增大d%;否则,下一轮则只增大(d-d′)%,直到测试通过为止;通过增大参数值可以得到允许范围的取值上限,同理以同样的方式减小参数值得到允许范围的取值下限;
在允许范围内可进一步人为经验性划分出真实签名和伪造签名的抖动范围。
进一步地,步骤S3.2中,根据已经确定好的扰动范围,对拟合得到的
公式(8)-公式(13)是对六个参数设置扰动的表达式,其中
进一步地,步骤S4中,所述进行排序学习优化平均精度损失训练神经网络模型参数,具体如下:
计算出签名序列水平和竖直方向的速度以及合速度得到三维速度序列信号作为网络输入,v
所述神经网络模型包括六个一维卷积层,每个卷积层后使用SELU激活函数,最后有一个相应的掩膜平均池化层,具体如下:
公式(17)中,ω是神经网络的可学习参数,x
进一步地,公式(17)-公式(19)是使用平均精度损失时的网络前向传播过程,由于平均精度损失对于神经网络参数不可导,本身无法进行反向传播进行梯度回传,选择采用一个广义梯度理论计算近似梯度训练网络,具体如下:
公式(20)中,
进一步地,步骤S5中,计算待鉴定签名和模板签名间的距离,具体如下:
公式(24)是计算两个L2归一化的特征向量的欧氏距离;公式(25)中,表达的是待鉴定签名x
本发明具有以下技术特点:
1.本发明使用了Sigma Lognormal模型解决了签名认证任务中伪造样本难以获取的困难,也解决了以往样本增强方法容易产生歧义性的问题。
2.本发明使用了优化平均精度损失排序学习的方法,可以在排序列表中保留和利用签名序列间的相关性和相似度信息,不容易产生过拟合,而且平均精度指标和签名认证系统性能直接相关,优化平均精度损失使得网络更加端到端,提升认证性能。
3.本发明具有准确率高、适应性好的特点,具有较好的实用价值。
附图说明
图1是本发明方法流程图。
图2是扰动范围具体设置示意图。
图3特征学习神经网络模型示意图。
图4神经网络模型优化流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图并举实施例,对本发明的具体实施进行详细说明。
实施例:
一种基于样本合成以及排序学习的联机签名鉴定方法,如图1所示,包括以下步骤:
S1、采集签名序列并进行预处理;
预处理包括如下步骤:
S1.1、对签名序列进行尺寸归一化,处理过后的签名路径坐标都被归一化到-0.5到0.5之间,且保持原比例,具体如下:
其中,x和y是签名序列在水平和竖直方向上的坐标值,x
S1.2、使用截止频率10Hz的巴特沃斯低通滤波器对签名序列进行光滑化处理,处理过后的签名序列中小的颤抖噪声可以被去掉,使得签名序列更加平整光滑。
S2、建立签名序列的Sigma Lognormal拟合模型,具体步骤如下:
S2.1、先对原签名序列进行重采样;
S2.2、计算Sigma Lognormal模型参数拟合原签名序列。
Sigma Lognormal模型来源于书写运动学理论,即认为联机签名的书写速度信号可以分解为多个对数高斯信号的叠加,优化算法得到相应参数以后,就可以重构出原始的速度信号,进一步地可以计算得到轨迹信号,签名序列的Sigma Lognormal模型具体如下:
公式(3)中,v(t)是一个签名的速度序列,v
S3、对拟合参数增加扰动采样合成真实签名以及伪造签名,具体包括以下步骤:
S3.1、确定扰动范围;
为了得到合理的扰动首先要确定出允许范围,因为有论文指出抖动范围过大会造成签名的剧烈变化导致字形不可辨认,然后在允许范围内划分选择出真实签名和伪造签名的抖动范围;
确定允许范围通过视觉图灵测试,邀请志愿者手写构建了一个签名数据库,并且通过让志愿者对抖动生成的签名辨别字形是否可认来确定抖动值是否有效,最终确定合适的允许范围的参数取值范围;
首先人为选定两个百分比d%和d′%,然后从构建的真实签名数据库中采样一批样本并拟合出其对数高斯分布模型后,对其中的每一个模型参数提升d%;如果志愿者中认为判断字形可认的人数超过一定比例(50%),则认为视觉图灵测试通过,下一轮将在提升了d%的基础上继续增大d%;否则,下一轮则只增大(d-d′)%,直到测试通过为止;通过增大参数值可以得到允许范围的取值上限,同理以同样的方式减小参数值得到允许范围的取值下限;
在允许范围内可进一步人为经验性划分出真实签名和伪造签名的抖动范围。
S3.2、根据已经确定好的扰动范围,增加扰动采样,对参数扰动过的拟合模型采样生成签名序列,合成真实签名集合G
根据已经确定好的扰动范围,对拟合得到的
公式(8)-公式(13)是对六个参数设置扰动的表达式,其中
本实施例的实际训练中,为了训练速度和效率,提前为任意用户的任意一个真实签名序列合成了对应的含20个真实签名和20个伪造签名的集合。
S4、进行排序学习优化平均精度损失训练神经网络模型参数;
所述进行排序学习优化平均精度损失训练神经网络模型参数,具体如下:
计算出签名序列水平和竖直方向的速度以及合速度得到三维速度序列信号作为网络输入,v
如图3所示,所述神经网络模型包括六个一维卷积层,每个卷积层后使用SELU激活函数,最后有一个相应的掩膜平均池化层,具体如下:
公式(17)中,ω是神经网络的可学习参数,x
公式(17)-公式(19)是使用平均精度损失时的网络前向传播过程,本实施例中,从随机一个用户中随机挑选一个真实签名,再从对应的合成样本中随机挑选5个真实签名和5个伪造签名构成含16个签名的批次,通过网络前向传播然后计算平均精度损失。由于平均精度损失对于神经网络参数不可导,本身无法进行反向传播进行梯度回传,选择采用一个广义梯度理论计算近似梯度训练网络,如图4所示,具体如下:
公式(20)中,
本实施例的实际训练中,优化平均精度损失时为了避免过拟合还加上了权重惩罚项,此外还优化每个签名所属用户的交叉熵损失,以达到更好的鉴别效果。关于y
S5、对于待鉴定签名序列,利用步骤S4中训练完成的神经网络模型提取特征并进行归一化,计算特征向量间欧式距离判断真伪,具体如下:
公式(24)是计算两个L2归一化的特征向量的欧氏距离;公式(25)中,表达的是待鉴定签名x
机译: -基于频率的混合深度学习方法设备和计算机可读介质,以及基于频率的混合深度学习方法的电缆驱动并联机器人的驱动控制
机译: -基于频率的混合深度学习方法设备和计算机可读介质,以及基于频率的混合深度学习方法的电缆驱动并联机器人的驱动控制
机译: 样本签名处理设备,样本签名处理方法和样本签名处理程序