法律状态公告日
法律状态信息
法律状态
2022-07-05
公开
发明专利申请公布
技术领域
本发明属于数据识别技术领域,具体涉及一种用于小样本甲骨文识别的数据增广方法、应用及装置。
背景技术
甲骨文,又称“契文”、“甲骨卜辞”、“殷墟文字”或“龟甲兽骨文”,是中国已知最古老的文字。和其他古文字识别一样,甲骨文识别同样面临着数据不足和不平衡的问题,针对某些样本数极其有限的甲骨文的识别天然地属于小样本学习任务,而此前的甲骨文分类研究多着眼于样本数较大的类别的识别问题。由于历史久远,甲骨文的考释十分困难,已发掘的4500多个单字中只有约2000个被成功释读。因此对于甲骨文识别任务,获取大量标注数据并不现实,无法满足标准小样本识别任务对大量有标注的源数据的需求。
除此之外,数量众多的尚未释读的甲骨文对于甲骨文识别也有其利用价值,可以通过收集未标注的甲骨文和其他古代中国文字辅助甲骨文识别任务。然而,未标注源数据无法满足小样本学习中常见的元学习模型和基于度量的模型的训练要求,只能依赖于自监督学习和数据增广。而传统的几何增广方法是为位图图像设计的,该方法是对所有样本执行类似的全局变换,考虑到汉字的笔画顺序和大致形状对人类识字十分重要,而基于位图图像格式的几何增广未考虑汉字整体和局部的形状信息,即未考虑到汉字样本的独特性和多样性,从而无法使得最后训练出来的用于识别甲骨文的模型具有较高的精度。
发明内容
为解决上述问题,提供一种在只有大量无标注源数据和小样本有标注数据的情况下通过自监督训练以及抹除-预测方式生成大量与原图相似且多样的高质量增广样本从而应用于甲骨文识别任务中的数据增广方法、应用及装置,本发明采用了如下技术方案:
本发明提供了一种用于小样本甲骨文识别的数据增广方法,利用无标注的包含汉字与甲骨文的大样本数据以及有标注的甲骨文的小样本数据进行数据增广得到增广样本,其特征在于,包括如下步骤:步骤S1,利用预定的序列化算法将位图格式的大样本数据以及小样本数据序列化,得到由坐标数据与状态数据构成的点序列格式的大样本数据以及点序列格式的小样本数据,并将该点序列格式的大样本数据设定为序列化大样本数据,将该点序列格式的小样本数据设定为序列化小样本数据;步骤S2,按照预定的抹除比例抹除序列化大样本数据中的点,将被抹除点的序列化大样本数据设定为抹除大样本数据,将未被抹除点的序列化大样本数据设定为完整大样本数据,并通过预定的编码网络对该抹除大样本数据进行编码得到编码后抹除大样本数据;步骤S3,利用预定的特征提取网络对编码后抹除大样本数据进行特征提取得到深度特征;步骤S4,基于深度特征并利用预定的预测网络对抹除大样本数据进行预测得到预测大样本数据;步骤S5,基于完整大样本数据以及预测大样本数据通过预定的损失函数计算得到损失值,并基于该损失值对由编码网络、特征提取网络以及预测网络构成的深度学习网络进行训练更新,直到深度学习网络收敛从而得到训练好的深度学习网络作为增广器;步骤S6,按照预定的抹除比例生成方法生成多个随机抹除比例,序列化小样本数据的点按照随机抹除比例进行抹除,将被抹除点的序列化小样本数据设定为抹除小样本数据,将未被抹除点的序列化小样本数据设定为完整小样本数据,并通过编码网络对该抹除小样本数据进行编码得到编码后抹除小样本数据;步骤S7,将编码后抹除小样本数据输入增广器对抹除小样本数据进行预测得到预测小样本数据,将该预测小样本数据作为增广样本。
根据本发明提供的一种用于小样本甲骨文识别的数据增广方法,还可以具有这样的技术特征,其中,步骤S2-1,将序列化大样本数据中的每一样本中包含的点按照状态数据分成三类序列化大样本子数据;步骤S2-2,依次对序列化大样本子数据按照抹除比例对点进行抹除,最后将被抹除点的序列化大样本数据设定为抹除大样本数据,将未被抹除点的序列化大样本数据设定为完整大样本数据;步骤S2-3,针对抹除大样本数据中的坐标数据使用编码网络进行嵌入编码,针对状态数据使用预定的编码方法进行编码,从而得到编码后抹除大样本数据,其中,抹除比例为15%。
根据本发明提供的一种用于小样本甲骨文识别的数据增广方法,还可以具有这样的技术特征,其中,步骤S3-1,利用特征提取网络将编码后抹除大样本数据转化为检索向量、键向量以及值向量;步骤S3-2,利用特征提取网络对检索向量、键向量以及值向量进行处理得到经注意力加权后的特征作为注意力特征;步骤S3-3,利用特征提取网络对注意力特征进行处理得到与输入特征维度相同的深度特征,其中,特征提取网络为基于双向编码表示和自注意机制的深度神经网络。
根据本发明提供的一种用于小样本甲骨文识别的数据增广方法,还可以具有这样的技术特征,其中,步骤S6包括如下子步骤:步骤S6-1,将序列化小样本数据中的每一样本中包含的点按照状态数据分成三类序列化小样本子数据;步骤S6-2,利用抹除比例生成方法生成多个随机抹除比例,对每一类序列化小样本子数据的点按照随机挑选出的随机抹除比例进行抹除,将被抹除点的序列化小样本数据设定为抹除小样本数据,将未被抹除点的序列化小样本数据设定为完整小样本数据;步骤S6-3,针对抹除小样本数据中的坐标数据使用编码网络进行嵌入编码,针对抹除小样本数据中的状态数据使用预定的编码方法进行编码,从而得到编码后抹除小样本数据。