首页> 中国专利> 基于语句通顺性的敦煌遗书残片图像缀合方法

基于语句通顺性的敦煌遗书残片图像缀合方法

摘要

本发明公开了一种基于语句通顺性的敦煌遗书残片图像缀合方法,包括以下步骤:A:将残片图像按缺失类型进行分类;B:获取残片图像的列宽、列高和间隙;C:根据缺失类型是否对应对残片图像A与B进行判断;D:对残片图像A和B的列宽列高比的比值和列宽间隙比的比值进行判断;E:对等比放大后残片图像B与A的列高比值、间隙比值和列宽比值进行判断;F:利用笔迹判断神经网络模型判断残片图像A与B的笔迹相似度;G:对残片图像A和B进行边缘相似度计算和语句通顺性检测;H:所有待缀合残片图像比较完毕后,得到敦煌遗书残片图像A的所有备选缀合图像。本发明综合考虑待缀合残片图像文字内容的语句通顺性和边缘相似度,提高敦煌遗书残片图像缀合的效率和准确性。

著录项

  • 公开/公告号CN115620057A

    专利类型发明专利

  • 公开/公告日2023-01-17

    原文格式PDF

  • 申请/专利权人 河南大学;

    申请/专利号CN202211276002.4

  • 申请日2022-10-18

  • 分类号G06V10/764(2022.01);G06V10/74(2022.01);G06V10/82(2022.01);G06T7/73(2017.01);G06T7/13(2017.01);G06T3/40(2006.01);G06F16/583(2019.01);

  • 代理机构郑州睿途知识产权代理事务所(普通合伙) 41183;

  • 代理人李伊宁

  • 地址 475001 河南省开封市顺河回族区明伦街85号

  • 入库时间 2023-06-19 18:21:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-10

    实质审查的生效 IPC(主分类):G06V10/764 专利申请号:2022112760024 申请日:20221018

    实质审查的生效

  • 2023-01-17

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种断裂物品的图像拼合方法,尤其涉及一种基于语句通顺性的敦煌遗书残片图像缀合方法。

背景技术

敦煌遗书是研究中古时期中国、中亚、东亚及南亚的历史学、考古学、宗教学、人类学、社会学、语言学、文学史、艺术史、科技史及民族史的重要研究资料,具有极高的文物价值和文献研究价值,敦煌遗书残片图像则是进行敦煌遗书研究的主要材料。在敦煌遗书研究的专业领域中,敦煌遗书残片图像的原边是指书卷边界,书卷边界即为敦煌遗书残片图像中敦煌遗书残片纸张的边缘,而断边则非天然形成,是敦煌遗书纸张因破损所形成的边缘。敦煌遗书纸张上存在着书卷横向边界线和书卷竖向网格线,分别为敦煌遗书纸张的上下边界和古代的造纸厂在敦煌遗书纸张上绘制的竖向对齐直线。但在很多敦煌遗书纸张上,书卷竖向网格线已经消失或变得难以辨认。

现有的敦煌遗书研究过程中,研究专家通常利用领域专业知识手工缀合敦煌遗书,以判别两片敦煌遗书残片在破损前是否同属一处。上述手工缀合方法的准确性和效率较低,且工作强度较大。

申请号为CN202110440552.4,名称为《一种敦煌遗书残片图像的自动缀合方法》的发明授权专利,公开了一种敦煌遗书残片图像的自动缀合方法,能够兼顾断边碴口密合度以及断边缀合后所形成的网格单元宽度的精确度,提高敦煌遗书残片图像缀合的效率和准确性。但上述专利仅通过敦煌遗书残片图像的物理信息作为缀合参考因素,依赖书卷竖向网格线,参考因素较为单一,缀合准确率有待进一步提高。而且,当某个待缀合敦煌遗书残片图像的碴口是平齐状时,由于其边缘特征极不显著,极易导致其它边缘平齐状的敦煌遗书残片图像作为候选结果返回,从而带来大量干扰性的候选结果,最终导致缀合效果较差。

另一方面,由于馆藏单位、拍摄工具与技术、拍摄人、拍摄距离、拍摄角度、拍摄规范和标准不同的原因,拍摄工具捕获的遗书图像与遗书的真实物理尺寸存在不同程度的差异,造成了敦煌遗书图像并非原始大小,存在不同比例和不同程度的缩放,致使原属同一幅敦煌遗书的两个或多个遗书残片,经拍摄工具拍摄后得到的图像大小可能都非原始大小,且缩放程度各异。上述情况为敦煌遗书图像的缀合提出了新的挑战。

发明内容

本发明的目的是提供一种基于语句通顺性的敦煌遗书残片图像缀合方法,能够综合考虑待缀合敦煌遗书残片图像文字内容的语句通顺性和边缘相似度,提高敦煌遗书残片图像缀合的效率和准确性。

本发明采用下述技术方案:

一种基于语句通顺性的敦煌遗书残片图像缀合方法,包括以下步骤:

A:依据敦煌遗书残片缺失部位的位置及断边形态,人工将待缀合的敦煌遗书残片图像进行分类为如下缺失类型:

a型:上部缺失;b型:下部缺失;c型:左下缺失;d型:左上缺失;e型:右下缺失;f型:右上缺失;g型:左侧平直缺失;h型:右侧平直缺失;i型:左侧锯齿状缺失;j型:右侧锯齿状缺失;

B:对待缀合的敦煌遗书残片图像中的每列文本列进行标注,得到每列文本列的最小外接矩形框及文字内容;将高度值最大的最小外接矩形框Q的宽度和高度分别作为列宽w和列高h,并将最小外接矩形框Q和与Q相邻的最小外接矩形框的之间水平距离作为间隙d;

C:针对指定的敦煌遗书残片图像A与待缀合的敦煌遗书残片图像B,首先判断敦煌遗书残片图像A与敦煌遗书残片图像B的缺失类型是否对应,若缺失类型相互对应,则进入步骤D;若缺失类型不对应,则根据缺失类型是否对应,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;

D:判断敦煌遗书残片图像A的列宽列高比,与敦煌遗书残片图像B的列宽列高比的比值P

E:对敦煌遗书残片图像B进行缩放,先后使缩放后的敦煌遗书残片图像B的列宽以及间隙与残片图像A的列宽和间隙一致;在列宽一致时,计算缩放后的敦煌遗书残片图像B的列高与敦煌遗书残片图像A的列高的比值,以及缩放后的敦煌遗书残片图像B的间隙与敦煌遗书残片图像A的间隙的比值;在间隙一致时,计算缩放后的敦煌遗书残片图像B的列高与敦煌遗书残片图像A的列高的比值,以及缩放后的敦煌遗书残片图像B的列宽与敦煌遗书残片图像A的列宽的比值;

若在列宽一致时,列高的比值与间隙的比值同时在设定的第二比值范围内,且在间隙一致时,列高的比值与列宽的比值同时在设定的第三比值范围内,则进入步骤F;否则返回步骤C;

F:对笔迹判断神经网络模型进行训练,然后将敦煌遗书残片图像A和敦煌遗书残片图像B输入训练后的笔迹判断神经网络模型中进行判断,若敦煌遗书残片图像A与敦煌遗书残片图像B中的笔迹相似度大于等于设定的笔迹相似度阈值,则进入步骤G;若小于设定的笔迹相似度阈值,则返回步骤C;

G:首先对敦煌遗书残片图像A和敦煌遗书残片图像B进行边缘相似度计算,得到敦煌遗书残片图像A和敦煌遗书残片图像B的时间序列匹配度;然后判断敦煌遗书残片图像A的缺失类型是否属于i型或j型;若不属于,则继续对敦煌遗书残片图像A和敦煌遗书残片图像B进行语句通顺性检测,得到敦煌遗书残片图像A和敦煌遗书残片图像B的语句通顺性数值;

当敦煌遗书残片图像A的缺失类型属于i型或j型时,若得到的时间序列匹配度大于等于设定的时间序列匹配度阈值,则将敦煌遗书残片图像B作为备选缀合图像,然后返回步骤C,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;否则直接返回步骤C,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;

当敦煌遗书残片图像A的缺失类型不属于i型或j型时,若得到的时间序列匹配度大于等于设定的时间序列匹配度阈值,且语句通顺性数值中的最大值大于等于设定的语句通顺性阈值,则将敦煌遗书残片图像B作为备选缀合图像,然后返回步骤C,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;否则直接返回步骤C,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;

H:当敦煌遗书残片图像A与所有待缀合的敦煌遗书残片图像比较完毕后,得到敦煌遗书残片图像A的所有备选缀合图像。

所述的步骤A中,由人工依据敦煌遗书残片缺失部位的位置及断边形态进行判断:

当断边为横向走向,且断边横跨敦煌遗书残片图像中若干文本列时,若敦煌遗书残片缺失部位为缺上,则判定为a型:上部缺失;若敦煌遗书残片缺失部位为缺下,则判定为b型:下部缺失;

当断边为纵向走向,且断边未横跨敦煌遗书残片图像中任意一列文本列,即断边位于文本列一侧间隙处时,若敦煌遗书残片缺失部位为缺左,则判定为g型:左侧平直缺失;若敦煌遗书残片缺失部位为缺右,则判定为h型:右侧平直缺失;

当断边为纵向走向,且断边为锯齿状并反复横跨敦煌遗书残片图像中的一列或多列文本列时,若敦煌遗书残片缺失部位为缺左,则判定为i型:左侧锯齿状缺失;若敦煌遗书残片缺失部位为缺右,则判定为j型:右侧锯齿状缺失;

当断边为倾斜走向,且断边横跨敦煌遗书残片图像中若干文本列时,若敦煌遗书残片缺失部位为缺左下,则判定为c型:左下缺失;若敦煌遗书残片缺失部位为缺左上,则判定为d型:左上缺失;若敦煌遗书残片缺失部位为缺右下,则判定为e型:右下缺失;若敦煌遗书残片缺失部位为缺右上,则判定为f型:右上缺失。

所述的步骤G中,在进行敦煌遗书残片图像A和敦煌遗书残片图像B的语句通顺性检测时,按照如下步骤进行:

G2-1:利用现有的敦煌遗书残片图像的释文数据集构建训练集,并利用训练集对BERT预训练语言模型进行调优训练,得到调优训练后的BERT语言模型;

G2-2:利用调优训练后的BERT语言模型,将敦煌遗书残片图像A与敦煌遗书残片图像B进行语句通顺性检测,得到与敦煌遗书残片图像A与敦煌遗书残片图像B的语句通顺性数值。

所述的步骤G2-1包括以下具体步骤:

G2-1-1:获取现有的敦煌遗书残片图像的释文数据集,敦煌遗书残片图像的释文数据集由若干段语句组成;

G2-1-2:将敦煌遗书残片图像的释文数据集中的繁体字转化为简体字,然后将繁转简处理后的数据集中未出现在BERT词表中的文字经去重后,补入BERT词表中;

G2-1-3:在繁转简处理后的敦煌遗书残片图像的释文数据集中,仅保留段落中文字数量大于等于文字数量阈值的每段语句,并根据保留下的每段语句建立训练集;

G2-1-4:依据得到的训练集,构建BERT语言模型训练所需的正负样本;

G2-1-5:利用得到的正样本和负样本,对BERT预训练语言模型进行调优训练,最终得到调优训练后的BERT语言模型。

所述的步骤G2-1-4包括以下具体步骤:

首先,将训练集中的每段语句分别输入到句读系统中,利用句读系统对每段语句中的文字进行标点符号标注;

然后,根据已标注标点符号后的整段语句,按照下述方法构建正样本:

(1)寻找整段语句中的句号,通过一个或多个句号将整段语句划分为一句或多句语句;

(2)寻找每句语句中的逗号;

若整句语句中没有逗号,则随机选取整句语句中的前若干个文字作为正样本的第一划分句,剩余文字作为第二划分句;

若整句语句中存在逗号,则通过一个或多个逗号将整句语句划分为两个或多个子句;然后将整句语句中的两个或多个子句,按照顺序分别划分为正样本的第一划分句和第二划分句,其中,正样本的第一划分句至少包含一个子句,正样本的第二划分句至少包含一个子句;

最终构建得到CSV格式的正样本数据集,正样本的表达式为[S

最后,按照下述方法构建负样本:

(1)从两段不同的语句中随机选取子句作为负样本的第一划分句和第二划分句,其中,负样本的第一划分句至少包含一个子句,第二划分句至少包含一个子句;

(2)从包含句号的整段语句中,选择句号之前的句子中最后一个或多个子句作为负样本的第一划分句,然后选择句号之后的句子中最前一个或多个子句作为负样本的第二划分句;

最终构建得到CSV格式的负样本数据集,负样本的表达式为[S

所述的步骤G2-2包括以下具体步骤:

G2-2-1:提取敦煌遗书残片图像A与敦煌遗书残片图像B上的文字信息;然后将文字信息中的繁体字转化为简体字;

G2-2-2:根据文字信息在敦煌遗书残片图像A中出现的位置,按照从右至左且从上至下的顺序,依次将经繁转简处理后的敦煌遗书残片图像A的文字信息划分为若干文本列,并利用文本列构建敦煌遗书残片图像A的文本列集合S,S={S

将敦煌遗书残片图像B,按照相同的方法构建敦煌遗书残片图像B的文本列集合T,T={T

G2-2-3:计算敦煌遗书残片图像A与敦煌遗书残片图像B在各种相互位置关系及文本列对应状态下的语句通顺性最大值;

G2-2-4:在得到的敦煌遗书残片图像A与敦煌遗书残片图像B,在各种相互位置关系下及对齐状态下对应的语句通顺性数值中,选取语句通顺性数值中的最高值作为敦煌遗书残片图像A与敦煌遗书残片图像B的语句通顺性数值。

所述的步骤G2-2-3包括以下具体步骤:

若敦煌遗书残片图像A和敦煌遗书残片图像B分别为b型和a型、c型和f型或者e型和d型时;则将敦煌遗书残片图像A的第1列文本列S

若连接处未标注任何符号,则选取连接处所在的子句,以该子句在连接处前的文字和连接处后的文字作为S

若连接处标注的符号为句号或逗号,则选取句号或逗号的前后各一个子句作为S

将S

然后,按照上述方法将敦煌遗书残片图像A的第2列文本列S

以此类推;直至将敦煌遗书残片图像A的第m列文本列S

同理,按照上述方法,依次得到敦煌遗书残片图像A的第1列文本列S

以此类推;直至将敦煌遗书残片图像A的第1列文本列S

最终得到敦煌遗书残片图像A与敦煌遗书残片图像B的所有对齐状态下的语句通顺性数值NSP(S

若敦煌遗书残片图像A和敦煌遗书残片图像B分别为a型和b型、f型和c型或者d型和e型时;则按照上述方法,依次获得敦煌遗书残片图像B与敦煌遗书残片图像A的所有对齐状态下的语句通顺性数值NSP(T

若敦煌遗书残片图像A为g型,敦煌遗书残片图像B为h型时,则将从敦煌遗书残片图像A的第m列文本列S

若敦煌遗书残片图像A为h型,敦煌遗书残片图像B为g型时,则将从敦煌遗书残片图像A的第1列文本列S

所述的步骤D中,比值

所述的步骤E中,第二比值范围为[0.8,1.25],第三比值范围为[0.8,1.25]。

所述的步骤G2-1-4中,正样本和负样本的数量比例为1:3。

本发明综合考虑待缀合敦煌遗书残片图像文字内容的语句通顺性和边缘相似度,提高敦煌遗书残片图像缀合的效率和准确性。

附图说明

图1为本发明的流程示意图。

具体实施方式

以下结合附图和实施例对本发明作以详细的描述:

如图1所示,本发明所述的基于语句通顺性的敦煌遗书残片图像缀合方法,包括以下步骤:

A:依据敦煌遗书残片缺失部位的位置及断边形态,人工将待缀合的敦煌遗书残片图像进行分类为如下缺失类型:

a型:上部缺失;b型:下部缺失;c型:左下缺失;d型:左上缺失;e型:右下缺失;f型:右上缺失;g型:左侧平直缺失;h型:右侧平直缺失;i型:左侧锯齿状缺失;j型:右侧锯齿状缺失;

本实施例中,由人工依据敦煌遗书残片缺失部位的位置及断边形态进行判断:

当断边为横向走向,且断边横跨敦煌遗书残片图像中若干文本列时,若敦煌遗书残片缺失部位为缺上,则判定为a型:上部缺失;若敦煌遗书残片缺失部位为缺下,则判定为b型:下部缺失;

当断边为纵向走向,且断边未横跨敦煌遗书残片图像中任意一列文本列,即断边位于文本列一侧间隙处时,若敦煌遗书残片缺失部位为缺左,则判定为g型:左侧平直缺失;若敦煌遗书残片缺失部位为缺右,则判定为h型:右侧平直缺失;

当断边为纵向走向,且断边为锯齿状并反复横跨敦煌遗书残片图像中的一列或多列文本列时,若敦煌遗书残片缺失部位为缺左,则判定为i型:左侧锯齿状缺失;若敦煌遗书残片缺失部位为缺右,则判定为j型:右侧锯齿状缺失;

当断边为倾斜走向,且断边横跨敦煌遗书残片图像中若干文本列时,若敦煌遗书残片缺失部位为缺左下,则判定为c型:左下缺失;若敦煌遗书残片缺失部位为缺左上,则判定为d型:左上缺失;若敦煌遗书残片缺失部位为缺右下,则判定为e型:右下缺失;若敦煌遗书残片缺失部位为缺右上,则判定为f型:右上缺失;

B:对待缀合的敦煌遗书残片图像中的每列文本列进行标注,得到每列文本列的最小外接矩形框及文字内容;将高度值最大的最小外接矩形框Q的宽度和高度分别作为列宽w和列高h,并将最小外接矩形框Q和与Q相邻的最小外接矩形框的之间水平距离作为间隙d;

本发明中,在获得文本列的最小外接矩形框时,通过矩形框将每个文本列中所有文字框入,且矩形框的上边紧贴文本列内最上方文字顶端边缘,矩形框的下边紧贴文本列内最下端文字底端边缘,矩形框的左边紧贴文本列内所有文字中的最左侧边缘,矩形框的右边紧贴文本列内所有文字中的最右侧边缘。

C:针对指定的敦煌遗书残片图像A与待缀合的敦煌遗书残片图像B,首先判断敦煌遗书残片图像A与敦煌遗书残片图像B的缺失类型是否对应,若缺失类型相互对应,则进入步骤D;若缺失类型不对应,则根据缺失类型是否对应,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;

本实施例中,a型与b型相互对应;c型与f型相互对应;d型与e型相互对应;g型与h型相互对应;i型与j型相互对应。

本实施例中,利用缺失类型首先对待缀合的两幅敦煌遗书残片图像进行初次图像过滤,能够快速剔除无法缀合的两幅敦煌遗书残片图像,减小后续缀合过程中的工作量,提高缀合效率。

D:判断敦煌遗书残片图像A的列宽列高比,与敦煌遗书残片图像B的列宽列高比的比值P

本实施例中,两幅敦煌遗书残片图像的比值

考虑到拍摄工具捕获的敦煌遗书图像与敦煌遗书的真实物理尺寸所存在不同程度的差异,本实施例中,通过抽取两幅待缀合敦煌遗书图像的列宽列高比和列宽间隙比,以同一幅敦煌遗书的比例基本一致为筛选条件进行第二次图像过滤,能够剔除明显不属于同一幅敦煌遗书残片的两幅敦煌遗书残片图像,减小后续缀合过程中的工作量,提高缀合效率。

E:对敦煌遗书残片图像B进行缩放,先后使缩放后的敦煌遗书残片图像B的列宽以及间隙与残片图像A的列宽和间隙一致;

在列宽一致时,计算缩放后的敦煌遗书残片图像B的列高与敦煌遗书残片图像A的列高的比值,以及缩放后的敦煌遗书残片图像B的间隙与敦煌遗书残片图像A的间隙的比值;

在间隙一致时,计算缩放后的敦煌遗书残片图像B的列高与敦煌遗书残片图像A的列高的比值,以及缩放后的敦煌遗书残片图像B的列宽与敦煌遗书残片图像A的列宽的比值;

若在列宽一致时,列高的比值与间隙的比值同时在设定的第二比值范围内,且在间隙一致时,列高的比值与列宽的比值同时在设定的第三比值范围内,则进入步骤F;否则返回步骤C;

本发明中,以敦煌遗书残片图像A的列宽w

然后继续以敦煌遗书残片图像A的间隙d

本实施例中,首先将敦煌遗书残片图像B的列宽缩放r倍,使得w

然后将敦煌遗书残片图像B的间隙缩放t倍,使得d

考虑到拍摄工具捕获的敦煌遗书图像与敦煌遗书的真实物理尺寸所存在不同程度的差异,本实施例中,通过以敦煌遗书残片图像A的列宽和间隙为基准,将敦煌遗书残片图像B恢复至与敦煌遗书残片图像A同等大小,再以两幅敦煌遗书残片图像的尺寸是否匹配为筛选条件进行第三次图像过滤,能够剔除明显不属于同一幅敦煌遗书残片的两幅敦煌遗书残片图像,减小后续缀合过程中的工作量,提高缀合效率。

F:对笔迹判断神经网络模型进行训练,然后将敦煌遗书残片图像A和敦煌遗书残片图像B输入训练后的笔迹判断神经网络模型中进行判断,若敦煌遗书残片图像A与敦煌遗书残片图像B中的笔迹相似度大于等于设定的笔迹相似度阈值,则进入步骤G;若小于设定的笔迹相似度阈值,则返回步骤C;

笔迹判断神经网络模型采用经典的孪生神经网络模型,该模型的输入是一对图像,中间步骤包括两幅图像特征的提取及融合,输出是两幅图像之间的笔迹相似度。训练孪生神经网络模型时,需要构造正负样本对。正样本对的构造包括两部分,一是已经缀合的每对遗书残片图像,二是将每幅敦煌遗书残片图像随机切分为两部分,组成正样本对。负样本对是非相互对应的两种缺失类型下的不同敦煌遗书残片图像之间的组合。正样本对与负样本对的数量比例为1:1。

本实施例中,通过现有的孪生神经网络模型,以两幅敦煌遗书残片图像中的笔迹相似度作为筛选条件进行第四次图像过滤,能够剔除笔迹明显不相似的两幅敦煌遗书残片图像,减小后续缀合过程中的工作量,提高缀合效率。

G:首先对敦煌遗书残片图像A和敦煌遗书残片图像B进行边缘相似度计算,得到敦煌遗书残片图像A和敦煌遗书残片图像B的时间序列匹配度;然后判断敦煌遗书残片图像A的缺失类型是否属于i型或j型;若不属于,则继续对敦煌遗书残片图像A和敦煌遗书残片图像B进行语句通顺性检测,得到敦煌遗书残片图像A和敦煌遗书残片图像B的语句通顺性数值;

当敦煌遗书残片图像A的缺失类型属于i型或j型时,若得到的时间序列匹配度大于等于设定的时间序列匹配度阈值,则将敦煌遗书残片图像B作为备选缀合图像,然后返回步骤C,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;否则直接返回步骤C,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;

当敦煌遗书残片图像A的缺失类型不属于i型或j型时,若得到的时间序列匹配度大于等于设定的时间序列匹配度阈值,且语句通顺性数值大于等于设定的语句通顺性阈值,则将敦煌遗书残片图像B作为备选缀合图像,然后返回步骤C,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;否则直接返回步骤C,继续比较敦煌遗书残片图像A与下一个待缀合的敦煌遗书残片图像;

在进行敦煌遗书残片图像A和敦煌遗书残片图像B的边缘相似度计算时,按照如下步骤进行:

G1-1:人工确定敦煌遗书残片图像A和敦煌遗书残片图像B的上侧、下侧、左侧和右侧四个边缘处的基准线以及与左侧基准线紧邻的中部基准线,得到敦煌遗书残片图像A和敦煌遗书残片图像B的基准参照图像;

G1-2:利用计算机定位得到的敦煌遗书残片基准参照图像中上侧基准线的位置坐标点U、下侧基准线的位置坐标点D、左侧基准线的位置坐标点L、右侧基准线的位置坐标点R以及中部基准线的位置坐标点M的位置;

G1-3:利用计算机计算敦煌遗书残片基准参照图像中网格单元的宽度;

G1-4:根据敦煌遗书残片图像A的真实物理尺寸获取网格单元的真实物理宽度,然后根据敦煌遗书残片图像A对应的敦煌遗书残片基准参照图像的网格单元的宽度,计算得出敦煌遗书残片图像所对应的敦煌遗书残片基准参照图像的网格单元的宽度值恢复到真实物理尺寸的缩放比例γ;其中,γ=β

G1-5:对敦煌遗书残片图像A和敦煌遗书残片图像B进行边缘检测以提取敦煌遗书残片图像的边缘线,得到敦煌遗书残片图像A和敦煌遗书残片图像B对应的边缘线图像;

G1-6:利用计算机获取敦煌遗书残片图像A和敦煌遗书残片图像B所对应的边缘线图像中的边缘线骨架,得到每幅敦煌遗书残片图像所对应的边缘线骨架图像,边缘线骨架指边缘线中居中的像素点;

G1-7:人工确定敦煌遗书残片图像A和敦煌遗书残片图像B的边缘线骨架图像中的左侧和右侧断边部分,得到每幅敦煌遗书残片图像对应的边缘线骨架标注图像;

G1-8:对步骤G1-7中得到的边缘线骨架标注图像中边缘线骨架的左侧与右侧断边部分,分别通过时间序列化处理得到对应的二维数值型的时间序列化数据;

G1-9:利用步骤G1-4中得到的缩放比例γ和倍数关系β,将步骤G1-2中得到的基准线的位置坐标点L:(l

G1-10:将步骤G1-9中得到的二维时间序列化数据T′

G1-11:对待缀合的敦煌遗书残片图像A和敦煌遗书残片图像B,按照步骤G1-10分别得到两幅敦煌遗书残片图像的边缘线骨架的断边部分经归一化处理后的时间序列化边缘曲线数据T″

上述步骤的具体细节属于现有技术,已在申请号为CN202110440552.4,名称为《一种敦煌遗书残片图像的自动缀合方法》的发明授权专利进行了详细的公开,在此不再赘述。

在进行敦煌遗书残片图像A和敦煌遗书残片图像B的语句通顺性检测时,按照如下步骤进行:

G2-1:利用现有的敦煌遗书残片图像的释文数据集构建训练集,并利用训练集对BERT预训练语言模型进行调优训练,得到调优训练后的BERT语言模型;

所述的步骤G2-1包括以下具体步骤:

G2-1-1:获取现有的敦煌遗书残片图像的释文数据集,敦煌遗书残片图像的释文数据集由若干段语句组成;

敦煌遗书残片图像的释文数据集中,每段语句中的文字信息均对应表示一个敦煌遗书残片图像中的文字内容;;

G2-1-2:将敦煌遗书残片图像的释文数据集中的繁体字转化为简体字,然后将繁转简处理后的数据集中未出现在BERT词表中的文字经去重后,补入BERT词表中;

本实施例中,可利用OPENCC程序进行繁体转简体操作;

G2-1-3:在繁转简处理后的敦煌遗书残片图像的释文数据集中,仅保留段落中文字数量大于等于文字数量阈值的每段语句,并根据保留下的每段语句建立训练集;

本实施例中,文字数量阈值为4;

G2-1-4:依据得到的训练集,构建BERT语言模型训练所需的正负样本;

首先,将训练集中的每段语句分别输入到句读系统中,利用句读系统对每段语句中的文字进行标点符号标注;

句读系统采用现有的由古联智能数据研究室和“古联-北师大联合实验室”基于不同训练方法研发的古籍自动标点系统,该系统使用了《中华经典古籍库》独有的数据量高达15亿的整理本古籍作为训练集,模型效果在验证集上的标点F1值超过92%,断句F1值超过96%。

然后,根据已标注标点符号后的整段语句,按照下述方法构建正样本:

(1)寻找整段语句中的句号,通过一个或多个句号将整段语句划分为一句或多句语句;

(2)寻找每句语句中的逗号;

若整句语句中没有逗号,则随机选取整句语句中的前若干个文字作为正样本的第一划分句,剩余文字作为第二划分句;

若整句语句中存在逗号,则通过一个或多个逗号将整句语句划分为两个或多个子句;然后将整句语句中的两个或多个子句,按照顺序分别划分为正样本的第一划分句和第二划分句,其中,正样本的第一划分句至少包含一个子句,正样本的第二划分句至少包含一个子句;

最终构建得到CSV格式的正样本数据集,正样本的表达式为[S

如某段语句组成如下:SS1,SS2,SS3,SS4。SS5,SS6,SS7。SS8,SS9。其中SS1至SS4组成第一句语句,SS5至SS7组成第二句语句,SS8和SS9组成第三句语句,第一句语句至第三句语句组成该段语句。

则该段语句可穷举出如下正样本:

[SS1,SS2+SS3+SS4],[SS1+SS2,SS3+SS4],[SS1+SS2+SS3,SS4],[SS1,SS2],[SS2,SS3],[SS3,SS4],[SS2+SS3,SS4],[SS2,SS3+SS4],[SS5,SS6+SS7],[SS5+SS6,SS7],[SS5,SS6],[SS6,SS7],[SS8,SS9];

最后,按照下述方法构建负样本:

(1)从两段不同的语句中随机选取子句作为负样本的第一划分句和第二划分句,其中,负样本的第一划分句至少包含一个子句,第二划分句至少包含一个子句;

(2)从包含句号的整段语句中,选择句号之前的句子中最后一个或多个子句作为负样本的第一划分句,然后选择句号之后的句子中最前一个或多个子句作为负样本的第二划分句;

最终构建得到CSV格式的负样本数据集,负样本的表达式为[S

本实施例中,正样本和负样本的数量比例为1:3。

G2-1-5:利用得到的正样本和负样本,对BERT预训练语言模型进行调优训练,最终得到调优训练后的BERT语言模型;

G2-2:利用调优训练后的BERT语言模型,将敦煌遗书残片图像A与敦煌遗书残片图像B进行语句通顺性检测,得到与敦煌遗书残片图像A与敦煌遗书残片图像B的语句通顺性数值;

所述的步骤G2-2包括以下具体步骤:

G2-2-1:提取敦煌遗书残片图像A与敦煌遗书残片图像B上的文字信息;然后将文字信息中的繁体字转化为简体字;

G2-2-2:根据文字信息在敦煌遗书残片图像A中出现的位置,按照从右至左且从上至下的顺序,依次将经繁转简处理后的敦煌遗书残片图像A的文字信息划分为若干文本列,并利用文本列构建敦煌遗书残片图像A的文本列集合S,S={S

将敦煌遗书残片图像B,按照相同的方法构建敦煌遗书残片图像B的文本列集合T,T={T

G2-2-3:计算敦煌遗书残片图像A与敦煌遗书残片图像B在各种相互位置关系及文本列对应状态下的语句通顺性最大值;

若敦煌遗书残片图像A和敦煌遗书残片图像B分别为b型和a型、c型和f型或者e型和d型时;则将敦煌遗书残片图像A的第1列文本列S

若连接处未标注任何符号,则选取连接处所在的子句,以该子句在连接处前的文字和连接处后的文字作为S

若连接处标注的符号为句号或逗号,则选取句号或逗号的前后各一个子句作为S

将S

然后,按照上述方法将敦煌遗书残片图像A的第2列文本列S

以此类推;直至将敦煌遗书残片图像A的第m列文本列S

同理,按照上述方法,依次得到敦煌遗书残片图像A的第1列文本列S

以此类推;直至将敦煌遗书残片图像A的第1列文本列S

最终得到敦煌遗书残片图像A与敦煌遗书残片图像B的所有对齐状态下的语句通顺性数值NSP(S

若敦煌遗书残片图像A和敦煌遗书残片图像B分别为a型和b型、f型和c型或者d型和e型时;则按照上述方法,依次获得敦煌遗书残片图像B与敦煌遗书残片图像A的所有对齐状态下的语句通顺性数值NSP(T

若敦煌遗书残片图像A为g型,敦煌遗书残片图像B为h型时,则将从敦煌遗书残片图像A的第m列文本列S

若敦煌遗书残片图像A为h型,敦煌遗书残片图像B为g型时,则将从敦煌遗书残片图像A的第1列文本列S

G2-2-4:在得到的敦煌遗书残片图像A与敦煌遗书残片图像B,在各种相互位置关系下及对齐状态下对应的语句通顺性数值中,选取语句通顺性数值中的最高值作为敦煌遗书残片图像A与敦煌遗书残片图像B的语句通顺性数值。

本实施例中,时间序列匹配度阈值和的语句通顺性阈值可根据经验设定。通过充分考虑两幅待缀合敦煌遗书残片图像在缀合位置处的语句通顺性,能够剔缺失部位及断边形态均相匹配,但敦煌遗书残片图像文字的语义明显无关的干扰项,极大地提高了敦煌遗书残片图像缀合的效率和准确性。

H:当敦煌遗书残片图像A与所有待缀合的敦煌遗书残片图像比较完毕后,得到敦煌遗书残片图像A的所有备选缀合图像。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号