首页> 中国专利> 一种面向目标检测的甲骨文拓片数据增强方法

一种面向目标检测的甲骨文拓片数据增强方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种面向目标检测的甲骨文拓片数据增强方法，涉及数字图像处理及计算机视觉技术领域，包括：将多个含噪声的真实甲骨文拓片单字图像进行网格化随机摆放，记录对应的包围盒；根据包围盒计算包围凸多边形，并进行多级向心三角网格化，得到多级边缘和三角网格重心坐标集；利用随机椭圆在多级边缘和三角网格重心坐标给出的随机贝塞尔曲线上侵蚀，生成不含噪声的模拟拓片底；根据各真实甲骨文拓片单字图像的摆放位置与模拟拓片底得到素材图和语义图；将素材图和语义图输入含噪声虚拟拓片图像生成模型，得到含噪声的甲骨文目标检测拓片。本发明为含噪声甲骨文目标检测模型所需的拓片数据提供了增强方法，生成的增强拓片数据多样与自然。

著录项

公开/公告号CN114897716A

专利类型发明专利
公开/公告日2022-08-12

原文格式PDF
申请/专利权人上海大学;
展开▼

申请/专利号CN202210431581.9
发明设计人方昱春;万修安;潘守永;
展开▼

申请日2022-04-22
分类号G06T5/00(2006.01);
代理机构北京汇信合知识产权代理有限公司 11335;
代理人王维新
地址 200444 上海市宝山区上大路99号
入库时间 2023-06-19 16:20:42

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-30

实质审查的生效 IPC(主分类):G06T 5/00 专利申请号:2022104315819 申请日:20220422

实质审查的生效

说明书

技术领域

本发明涉及数字图像处理及计算机视觉技术领域，涉及一种面向目标检测的甲骨文拓片数据增强方法。

背景技术

甲骨文拓片目标检测是甲骨文计算分析方法论中的基础方法之一，其根本目的是为甲骨缀合、甲骨文识别等计算方法提供拓片图像上甲骨文单字的确切位置或是为甲骨文拓片的人工标注提供辅助指导，对于甲骨学研究有着重要的意义。由于甲骨文拓片普遍存在灼烧、断裂、钻凿、磨损、侵蚀等原因造成的各类噪声使得传统的文字检测方法在甲骨文拓片数据上难以取得满意的结果。

近年来，基于深度学习的目标检测模型在甲骨文检测中取得了一些较好的结果，然而由于目标检测模型需要大量的标注数据进行训练，而对甲骨文拓片进行目标检测任务标注不仅需要标注人员对甲骨学具有丰富的知识以正确标注合体字、异体字等复杂字体的包围盒并将甲骨字与划痕等噪声区别开来，而且费时费力，能用于目标检测的拓片数据往往需要如高分辨率扫描等充分的前置数据准备工作，故，目前除安阳师范学院殷契文渊网站公开的含9134幅有标注甲骨文拓片目标检测数据集外并没有丰富的公开甲骨文拓片目标检测数据集；然而目前已存在如含309551张甲骨字符图像的OBC306等较大规模的公开甲骨文单字数据集。

另外，使用数字图像处理方法对甲骨文拓片进行去噪后再进行检测不失为一种可行的方法，但由于甲骨字与拓片上所含噪声确实具有一定程度的相似性，故直接对含噪声的拓片进行检测理论上会损失更少的有效信息。

因此，基于目前甲骨拓片目标检测及标注的困难性、甲骨拓片目标检测数据集与单字数据集的数量差异，目前尚缺少一种面向目标检测的甲骨文拓片数据增强方法，实现含噪声甲骨文目标检测拓片的数据增强。

发明内容

针对上述问题，本发明提供了一种面向目标检测的甲骨文拓片数据增强方法，利用丰富的含噪声甲骨文单字数据进行含噪声的虚拟甲骨文拓片目标检测数据构建，从而解决甲骨文拓片目标检测数据匮乏的问题。

为实现上述目的，本发明提供了一种面向目标检测的甲骨文拓片数据增强方法，包括：

将多个含噪声的真实甲骨文拓片单字图像进行网格化随机摆放，记录各所述真实甲骨文拓片单字图像摆放位置对应的包围盒；

根据随机摆放结果及所述包围盒计算包围凸多边形，对所述包围凸多边形进行多级向心三角网格化，得到多级边缘和三角网格重心坐标集；

利用随机椭圆在所述多级边缘和三角网格重心坐标给出的随机贝塞尔曲线上侵蚀，并通过图形学操作生成不含噪声的模拟拓片底；

根据各所述真实甲骨文拓片单字图像的摆放位置与所述模拟拓片底得到素材图和语义图；

将所述素材图和所述语义图输入含噪声虚拟拓片图像生成模型，得到含噪声的甲骨文目标检测拓片。

作为本发明的进一步改进，所述将多个含噪声的真实甲骨文拓片单字图像进行网格化随机摆放，记录各所述真实甲骨文拓片单字图像摆放位置对应的包围盒；包括：

根据真实甲骨文图像数据集构建真实甲骨文备选单字图像数据集；

根据摆放所述真实甲骨文单字图像的画布，分割并构建网格集合；

在所述真实甲骨文备选单字图像数据集随机选取一定数量的所述真实甲骨文单字图像，针对每一个所述真实甲骨文单字图像在所述网格集合中随机选择一个网格，记录网格在画布中的坐标范围；

在所述坐标范围内随机选择坐标值作为该所述真实甲骨文单字图像的摆放中心，确认不与已摆放所述真实甲骨文单字图像重叠，摆放该所述真实甲骨文单字图像记录摆放位置对应的包围盒坐标。

作为本发明的进一步改进，所述根据随机摆放结果及所述包围盒计算包围凸多边形，对所述包围凸多边形进行多级向心三角网格化，得到多级边缘和三角网格重心坐标集；包括：

计算所有所述包围盒坐标的包围凸多边形，并组成第1级边缘；

计算所述包围凸多边形的重心，对第1级边缘中每对相邻的点取中心点，计算中心点到所述重心的距离和单位方向向量；

根据每一组所述距离、重心及单位方向向量计算对应向外扩张的下一级边缘坐标，得到下一级边缘坐标集合；

计算每对相邻的点及对应得到的下一级边缘坐标构成的三角形的重心，并将该四点组成一个四元组进行记录，加入Triangles，得到三角形网格重心坐标集；

重复以上操作，依次根据前一级边缘得到后一级边缘，并向所述三角形网格重心坐标集加入新的数据，得到多级边缘和所述三角网格重心坐标集。

作为本发明的进一步改进，以所述第1级边缘绘制黑色凸包，以第1级边缘的每条边界直线段两端点及该直线段向外扩张的下一级边缘坐标给出的二次贝塞尔曲线段与该所述边界直线包围的区域进行填充，使第1级边缘的所述黑色凸包平滑自然。

作为本发明的进一步改进，所述利用随机椭圆在所述多级边缘和三角网格重心坐标给出的随机贝塞尔曲线上侵蚀，并通过图形学操作生成不含噪声的模拟拓片底；包括：

在各级边缘的每段线段上固定间隔绘制中心在该线段上的一个或多个随机椭圆，作为模拟侵蚀和破损坑洞；

预设最大裂纹曲线条数，在满足最大裂纹曲线条数条件下随机选择实际裂纹条数。

根据所述实际裂纹条数，重复根据所述在所述多级边缘中的第1级边缘和第k级边缘中均随机选择一个顶点，在所述三角网格重心坐标集中随机选择一个三角形网格重心，将该三点构成的二次贝塞尔曲线段作为裂纹曲线，最终得到所述实际裂纹条数的所述裂纹曲线；

在所述裂纹曲线上根据预设步数绘制中心等间距，多种半径长度的随机椭圆，作为模拟侵蚀；

以大小为k

作为本发明的进一步改进，根据各所述真实甲骨文拓片单字图像的摆放位置与所述模拟拓片底得到素材图和语义图；

根据各所述真实甲骨文拓片单字图像摆放位置对应的包围盒，将对应的甲骨文拓片单字图像放置在所述模拟拓片底上，得到素材图；

初始化一份全黑底图，根据各所述真实甲骨文拓片单字图像摆放位置对应的包围盒将所有摆放位置设为红色，将所述模拟拓片底位置设为绿色，得到语义图。

作为本发明的进一步改进，利用生成对抗模型与已有的甲骨文拓片检测数据集训练一个以素材图与语义图为输入，以含噪声虚拟拓片图像为输出的所述含噪声虚拟拓片图像生成模型。

作为本发明的进一步改进，所述含噪声虚拟拓片图像生成模型，训练过程包括：

设置目标函数：

loss

其中，G为生成器，D为判别器，loss

初始化目标函数、生成器G与判别器D，将已有的甲骨文拓片检测数据集中的拓片作为真实图片y，将其二值化后通过其对应包围盒数据得到对应的素材图x与语义图z，并根据设定的训练次数循环进行训练，包括：

根据生成器与判别器的计算结果损失；

根据全图计算真实图y

根据语义图的甲骨拓片部分位置，计算真实图对应位置y

根据语义图的甲骨单字位置，计算真实图对应位置y

通过损失计算进行

经过一定程度的训练，得到以素材图X与语义图Z为输入，输出含噪声虚拟拓片图像的所述含噪声虚拟拓片图像生成模型G

作为本发明的进一步改进，所述含噪声虚拟拓片图像生成模型将得到的所述含噪声的甲骨文目标检测拓片、对应的所有包围盒数据一同输出，作为最终输出结果。

与现有技术相比，本发明的有益效果为：

本发明通过一种面向目标检测的甲骨文拓片数据增强方法，有效地利用大量甲骨文单字图片进行数据增强，为含噪声甲骨文目标检测模型提供大量拓片数据，相较于现有方法中直接利用其他单字缩放后替换已有拓片上的单字，无法产生新的拓片背景及噪声，也无法在一定程度上人为地控制噪声的情况，本申请生成的增强拓片数据更为多样与自然，能够有效地提升模型的性能。

附图说明

图1为本发明一种实施例公开的面向目标检测的甲骨文拓片数据增强方法流程图；

图2为本发明一种实施例公开的面向目标检测的甲骨文拓片数据增强方法示意图；

图3为本发明一种实施例公开的生成对抗模型的训练示意图；

图4为本发明一种实施例公开的生成对抗模型损失计算的示意图；

图5为本发明一种实施例公开的生成器配置与结构的详细示意图；

图6为本发明一种实施例公开的判别器配置与结构的详细示意图；

图7为本发明一种实施例公开的得到的含噪声的甲骨文目标检测拓片的实例示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1、2所示，本发明提供的一种面向目标检测的甲骨文拓片数据增强方法，包括步骤：

S1、将多个含噪声的真实甲骨文拓片单字图像进行网格化随机摆放，记录各真实甲骨文拓片单字图像摆放位置对应的包围盒；

其中，包括：

根据真实甲骨文图像数据集构建真实甲骨文备选单字图像数据集；

根据摆放真实甲骨文单字图像的画布，分割并构建网格集合；

在所述真实甲骨文备选单字图像数据集随机选取一定数量的真实甲骨文单字图像，针对每一个所述真实甲骨文单字图像在网格集合中随机选择一个网格，记录网格在画布中的坐标范围；

在坐标范围内随机选择坐标值作为该真实甲骨文单字图像的摆放中心，确认不与已摆放真实甲骨文单字图像重叠，摆放该真实甲骨文单字图像记录摆放位置对应的包围盒坐标。

具体的，

步骤1.1输入N幅含有噪声的甲骨文拓片单字图像，组成备选真实甲骨文单字图像数据集R

步骤1.2输入生成图像所需单字数k，从R

步骤1.3输入用于摆放甲骨文单字图像的画布宽度W

步骤1.4将不邻接于边界的N

步骤1.5对于备选真实甲骨文单字图像数据集R

步骤1.6每次选择从R

步骤1.7以t

S2、根据随机摆放结果及包围盒计算包围凸多边形，对包围凸多边形进行多级向心三角网格化，得到多级边缘和三角网格重心坐标集；

其中，

计算所有包围盒坐标的包围凸多边形，并组成第1级边缘；

计算包围凸多边形的重心，对第1级边缘中每对相邻的点取中心点，计算中心点到重心的距离和单位方向向量；

根据每一组距离、重心及单位方向向量计算对应向外扩张的下一级边缘坐标，得到下一级边缘坐标集合；

重复以上操作，依次根据前一级边缘得到后一级边缘，并向三角形网格重心坐标集加入新的数据，得到多级边缘和三角网格重心坐标集。

进一步的，

以第1级边缘绘制黑色凸包，以第1级边缘的每条边界直线段两端点及该直线段向外扩张的下一级边缘坐标给出的二次贝塞尔曲线段与该边界直线包围的区域进行填充，使第1级边缘的黑色凸包平滑自然。

具体的，

步骤2.1利用步骤1.7计算得到的包围盒坐标集合B计算这些坐标的包围凸多边形按逆时针顺序排列的s个顶点坐标P

步骤2.2将P

步骤2.3输入分割总级数T

步骤2.4对于0≤i

0.6，0.4，0.3，0.1；

步骤2.5以第1级边缘net

S3、利用随机椭圆在多级边缘和三角网格重心坐标给出的随机贝塞尔曲线上侵蚀，并通过图形学操作生成不含噪声的模拟拓片底；

其中，

在各级边缘的每段线段上固定间隔绘制中心在该线段上的一个或多个随机椭圆，作为模拟侵蚀和破损坑洞；

预设最大裂纹曲线条数，在满足最大裂纹曲线条数条件下随机选择实际裂纹条数。

根据实际裂纹条数，重复根据在多级边缘中的第1级边缘和第k级边缘中均随机选择一个顶点，在三角网格重心坐标集中随机选择一个三角形网格重心，将该三点构成的二次贝塞尔曲线段作为裂纹曲线，最终得到实际裂纹条数的裂纹曲线；

在裂纹曲线上根据预设步数绘制中心等间距，多种半径长度的随机椭圆，作为模拟侵蚀；

以大小为k

具体的，

步骤3.1各级网络边界的每一段线段上以间隔为r绘制中心在线段上，半径分别为r

步骤3.2输入裂纹曲线的最大条数C，并在[0，C]中随机选择一个整数作为裂纹条数；

步骤3.3由从net

步骤3.4以大小为k1的核进行erode处理，之后以大小为k2的核依次进行开操作、闭操作、再以大小为k1的依次进行开操作、erode处理，进而得到模拟拓片底，在实际实施过程中，k1＝2，k2＝4。

S4、根据各真实甲骨文拓片单字图像的摆放位置与模拟拓片底得到素材图和语义图；

其中，

根据各真实甲骨文拓片单字图像摆放位置对应的包围盒，将对应的甲骨文拓片单字图像放置在模拟拓片底上，得到素材图；

初始化一份全黑底图，根据各真实甲骨文拓片单字图像摆放位置对应的包围盒将所有摆放位置设为红色，将模拟拓片底位置设为绿色，得到语义图。

S5、将素材图和语义图输入含噪声虚拟拓片图像生成模型，得到含噪声的甲骨文目标检测拓片。

其中，

将得到的含噪声的甲骨文目标检测拓片、对应的所有包围盒数据一同输出，作为最终输出结果。

本发明中，含噪声虚拟拓片图像生成模型，训练过程包括：

设置目标函数：

loss

其中，G为生成器，D为判别器，loss

进一步的，

选择合适结构的深度卷积网络模型作为生成器G，在实际实施过程中，使用U-net256作为生成器，网络将三通道的素材图RGB信息与三通道的语义图信息作通道拼接作为输入，输出生成的拓片图像，具体网络结构如图5所示；

选择合适结构的深度卷积网络模型作为判别器D，在实际实施过程中，使用一个普通的5层卷积网络作为判别器，网络将3通道的生成图RGB信息3通道的真实图RGB信息与3通道的语义图信息作为输入，输出一个0至1的实数作为判断结果，具体网络结构如图6所示；

最后，如图3所示进行训练，包括：

初始化目标函数、生成器G与判别器D，将已有的甲骨文拓片检测数据集中的拓片作为真实图片y，将其二值化后通过其对应包围盒数据得到对应的素材图x与语义图z，并根据设定的训练次数循环进行训练，如图4所示为损失计算示意图，包括：

(1)根据生成器与判别器的计算结果损失；

(2)根据全图计算真实图y

(3)根据语义图的甲骨拓片部分位置，计算真实图对应位置y

(4)根据语义图的甲骨单字位置，计算真实图对应位置y

(5)通过损失计算进行

(6)经过一定程度的训练，得到以素材图X与语义图Z为输入，输出含噪声虚拟拓片图像的含噪声虚拟拓片图像生成模型G

理论上，只要甲骨文单字图片足够丰富，使用本申请的方法能够生成极为充足的含噪声的甲骨文目标检测拓片，图7是令k分别取4，9，16，25时的素材图、语义图与最终的生成图，此方法的意义在于通过一种面向目标检测的甲骨文拓片数据增强方法，从而能够有效地利用大量单字图片进行数据增强。

直接利用其他单字缩放后替换已有拓片上的单字方法本质上起到的数据增强效果有限，无法产生新的拓片背景及噪声，更无法在一定程度上人为地控制噪声，从形态上来看，直接替换单字的拓片形态依赖于原始数据集拓片的形态与拓片上单字数目，从噪声来看，直接替换单字的噪声同样依赖于原始数据集拓片上的噪声。相比之下，通过本申请的方法生成的拓片形态更为丰富，且可以通过人工控制设置噪声、虚拟裂纹的分布，从生成结果上来看更为多样化。

如下表所示，目标检测模型Yolov5s在不同配置下的甲骨文检测实验结果，可以发现，在训练数据较为匮乏时，使用本方法进行数据增强能够有效地提升模型的性能；在训练数据较为充足时，本方法也能够取得不小的性能提升；在训练数据非常充足时，本方法的提升效果不甚明显。

本发明的优点：

通过一种面向目标检测的甲骨文拓片数据增强方法，有效地利用大量甲骨文单字图片进行数据增强，为含噪声甲骨文目标检测模型提供大量拓片数据，相较于现有方法中直接利用其他单字缩放后替换已有拓片上的单字，无法产生新的拓片背景及噪声，也无法在一定程度上人为地控制噪声的情况，本申请生成的增强拓片数据更为多样与自然，能够有效地提升模型的性能。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种面向目标检测的自适应数据增强方法 [P] . 中国专利： CN113936133A . 2022-01-14
2. 一种面向交通标志目标检测领域的数据增强方法 [P] . 中国专利： CN113793279A . 2021-12-14
3. Method and system in a data processing system for the enhancement of relationships between reference objects in an object oriented environment and a data object outside an object oriented environment [P] . 美国专利： US5511196A . 1996-04-23

机译：数据处理系统中用于增强面向对象环境中的参考对象与面向对象环境之外的数据对象之间的关系的方法和系统
4. Collection method for a user-oriented audience measurement, from hits transferred to a node for site-oriented audience measurement, using hit registrations created by the node. [P] . NL2016943B1 . 2019-10-04

机译：一种用于面向用户的受众测量的收集方法，该方法使用节点创建的匹配注册，将匹配数据传输到节点以进行面向站点的受众测量。
5. A method for operating a packet-oriented communications system and for classifying a packet data stream as well as network node of a packet-oriented communication system [P] . 德国专利： DE102006047075A1 . 2008-04-10

机译：一种用于操作面向分组的通信系统并分类分组数据流的方法以及面向分组的通信系统的网络节点