首页> 中国专利> 一种基于深度学习的盲文读物校对方法及系统

一种基于深度学习的盲文读物校对方法及系统

摘要

本发明提出一种基于深度学习的盲文读物校对方法,包括:对已知盲文图像进行盲符标注,生成标注图,构建已知数据集;以该已知数据集对深度学习模型进行训练,获得初始识别模型;以盲文读物对应的盲文图像为目标盲文图像,将该目标盲文图像划分为迁移学习图像和校对图像,以该迁移学习图像对该初始识别模型进行迁移学习训练,得到目标识别模型;以该目标识别模型对该校对图像进行识别,获得该校对图像的校对电子盲文;通过该电子盲文和该校对图像对应的原始电子盲文进行对比,以完成对该盲文读物的质检校对。还提出一种基于深度学习的盲文读物校对系统,以及一种实施盲文读物校对的数据处理装置。

著录项

  • 公开/公告号CN114519860A

    专利类型发明专利

  • 公开/公告日2022-05-20

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN202210066282.X

  • 发明设计人 刘宏;雷欣;王向东;钱跃良;

    申请日2022-01-20

  • 分类号G06V30/418;G06V30/414;G06V30/42;G06V30/148;G06V30/19;G06V10/82;G06F40/126;G06F16/903;G06N3/04;G06N3/08;G06K9/62;

  • 代理机构北京律诚同业知识产权代理有限公司;

  • 代理人祁建国;张燕华

  • 地址 100080 北京市海淀区中关村科学院南路6号

  • 入库时间 2023-06-19 15:22:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-20

    公开

    发明专利申请公布

说明书

技术领域

本发明属于图像识别技术领域,具体涉及一种面向盲文读物的盲文图像自动识别和校对方法及系统。

背景技术

盲文又称为盲字、凸字或点字,是一种供盲人使用的特定文字,由六个点按一定凹凸起伏的规律排列组合而成,靠触觉感知,图1所示为一张双面打印的盲文扫描得到的盲文数字化图像。盲文在盲人的日常生活中占据着重要地位,是他们获取知识、与他人交流不可缺少的工具。

因盲文点字的起伏排列,盲文点字的点位如果出现错误,将严重影响盲人的摸读与理解。盲文读物在印制过程中,经常会出现由于机械电子装置执行异常导致的印制错误,如漏点、多点或错点等,因此需在盲文读物印制完成后再次进行校对检验,以降低印制过程中的差错率。如按照目前盲文读物校对检验方式,需要邀请盲人对印制后的盲文读物进行逐字逐行的摸读校对,需要投入大量的人力和时间,费事费力且效率极为低下。

利用人工智能方法来自动识别盲文和完成质检校对,将极大地减少了人工校对时间,可快速标注出错误的盲符类型和位置信息,提升盲文书籍出版校对的效率和智能化水平。

目前常用的盲符识别方法主要包括基于传统数字图像处理的方法和基于机器学习的识别方法。图像处理方法主要利用图像灰度阈值或盲点边缘检测等技巧将盲点与背景分离,然后构建盲文网格将盲点转换为识别的盲符。机器学习方法则通过图像特征进行分类学习,来识别盲符。

现有研究大多针对单一数据集研究盲文识别方法,缺乏针对新场景盲文图像,特别是数据分布不一致的盲文进行高精度识别方面的研究,同时也缺乏针对盲文质检校对任务的智能化校对技术的研究。

发明内容

针对现有技术基于机器学习的盲文图像识别的数据集单一、缺乏新场景盲文图像、缺乏盲文质检校对等问题,本发明提出了一个基于深度学习的盲文读物识别和质检校对方法,具体包括:对已知盲文图像进行盲符标注,生成标注图,构建已知数据集;以该已知数据集对深度学习模型进行训练,获得初始识别模型;以盲文读物对应的盲文图像为目标盲文图像,将该目标盲文图像划分为迁移学习图像和校对图像,以该迁移学习图像对该初始识别模型进行迁移学习训练,得到目标识别模型;以该目标识别模型对该校对图像进行识别,获得该校对图像的校对电子盲文;通过该电子盲文和该校对图像对应的原始电子盲文进行对比,以完成对该盲文读物的质检校对。

本发明所述的盲文读物校对方法,其中,对已知盲文图像进行63类盲符的像素级类别标注,得到该已知盲文图像对应的标注图。

本发明所述的盲文读物校对方法,其中,对深度学习模型进行训练的步骤具体包括:在该已知盲文图像上进行小区域图像采样,获得第一小区域采样图,并在该已知盲文图像对应的标注图上进行相同位置的小区域图像采样,获得第二小区域采样图,以该第一小区域采样图和该第二小区域采样图对U-Net语义分割网络模型进行多类别盲符的像素级分类模型训练,得到初始识别模型。

本发明所述的盲文读物校对方法,其中,对该初始识别模型进行迁移学习训练的步骤具体包括:对该迁移学习图像进行盲符像素级标注,获得该迁移学习图像的标注图,构建为迁移学习数据集,以该迁移学习数据集对该初始识别模型进行迁移学习训练,得到该目标识别模型。

本发明所述的盲文读物校对方法,其中,U-Net语义分割网络模型采用交叉熵损失函数和Dice损失函数的加权融合函数作为损失函数。

本发明所述的盲文读物校对方法,其中,对该校对图像利用目标识别模型进行识别时,在该校对图像上,利用滑动窗口策略进行有重叠的小区域图像截取;累加重叠部分的预测结果,将多个截取到的小区域图像按照其在该校对盲文图像上的位置进行拼接,得到该校对盲文图像的盲符预测结果,生成该校对盲文图像的盲符像素级分割预测结果图。

本发明所述的盲文读物校对方法,其中,对该校对图像得到的盲符像素级分割预测图进行电子盲文转化的步骤包括:采用形态学方法提取盲符区域信息、每个盲符的外框坐标、盲符所属的盲文类型以及预测该盲符为该类型的概率,以及盲符的行列信息,生成该校对图像的盲符像素级分割预测结果图的结果文件;根据盲文类型和盲文ASCII码对应关系,将该结果文件转换成盲文ASCII文件;清除该盲文ASCII文件每行信息后的多余空格,删除该盲文ASCII文件中的空白行;将该盲文ASCII文件转换成盲文UTF-8文件,作为该校对图像的校对电子盲文。

本发明所述的盲文读物校对方法,其中,对该校对图像识别得到的电子盲文文件进行校对时,将该校对图像的原始电子盲文与该校对图像的校对电子盲文进行字符匹配,识别出具有差异的盲符位置和类别信息,以完成该盲文读物的质检校对。

本发明还提出一种基于深度学习的盲文读物校对系统,包括:初始模型训练模块,用于对已知盲文图像进行盲符标注,生成标注图,构建已知数据集;以该已知数据集对深度学习模型进行训练,获得初始识别模型;模型迁移学习模块,用于获取盲文读物的目标盲文图像,将该目标盲文图像划分为迁移学习图像和校对图像,以该迁移学习图像对该初始识别模型进行迁移学习训练,得到目标识别模型;目标图像识别模块,用于以该目标识别模型对该校对图像进行识别,获得该校对图像的校对电子盲文;质检校对模块,用于将该校对电子盲文与该校对图像的原始电子盲文进行质检校对。

本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,当该计算机可执行指令被执行时,实现如前所述的基于深度学习的盲文读物校对方法。

本发明还提出一种数据处理装置,包括如前所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,实现基于深度学习的盲文读物校对。

附图说明

图1是纸版双面盲文的扫描图像。

图2是本发明的基于U-Net网络和迁移学习的盲文识别及校对框架图。

图3是本发明的盲文图像对应的像素级盲符标注图。

图4是本发明的电子盲文对比结果图

图5是本发明的数据处理装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。

发明人在进行基于深度学习的盲文识别和质检的研究中,发现现有人工智能技术进行盲文图像识别大多针对单一数据集,数据集规模往往较小,导致识别模型的泛化能力有限。缺乏针对新场景的盲文图像识别的效果测试,特别是如果测试的数据与训练样本的数据分布差异较大时,盲文图像识别性能会明显下降。再者,目前技术大多针对盲文识别技术,对盲文电子化和智能校对方面的研究较少。

发明人经过大量的实验研究发现,利用深度学习技术进行盲方检测和识别具有较高的准确率和鲁棒性,但是在面对不同场景下采集的盲文图像是,仍然存在识别率下降的问题,本发明采用迁移学习机制来快速迁移已有模型,提高新场景下的忙完了识别性能。本发明在现有的基于语义分割的盲文识别方法的基础上进行改进,提出了基于U-Net网络和迁移学习机制进行盲符的自动识别及智能校对的方法。首先在公开的盲文图像数据集上或者已有的盲文图像数据集上,将六点盲符作为目标,利用U-Net网络及在整张盲文图像上进行patch采样,进行端到端的63类盲符的像素级分割训练,并通过形态学处理获得盲符区域及盲符行列信息。然后在新场景盲文数据集上,利用新场景下的少量样本,利用迁移学习方法快速的将已有模型快速迁移到新的场景下,再将盲符识别结果转化为电子盲文,最后将盲文识别结果与原始的盲文读物电子盲文进行自动对比,自动找到识别结果和原始电子盲文不一致的盲方位置和类别信息,以获得最终的盲文校对结果。

图2是本发明的基于U-Net网络和迁移学习的盲文识别及校对框架图。如图2所示,面向盲文打印材料的基于深度学习的盲文图像自动识别包含如下步骤及部件:

步骤1:数据集的采集和构建;数据集包括两部分,一部分为已有数据集,可以采用公开的双面盲文图像数据集DSBI,也可以是自行采集的盲文图像数据集。另一部分来自新场景下,纸版的盲文读物材料,可以是打印的材料或者印制的盲文材料,可以采用平板扫描仪进行盲文图像数据采集,该部分盲文图像有对应的电子版盲文文档。

数据采集部件101:

盲文图像采集是研究的重要一步,新场景下的盲文材料,可以使用平板扫描仪扫描为100dpi分辨率的盲文图像,图像大小一般为850×1169像素,并采用JPEG格式存储。

数据构建部件102:

本实验的数据集包括两部分:一部分为已有盲文图像数据集,另一部分为新场景下的盲文图像数据。

已有盲文图像数据可以采用公开发布的双面盲文图像数据集,简称DSBI(Double-Sided Braille Image)。该数据集来自六本古旧双面盲文书籍和一本普通打印材料,共包含114张双面盲文图像,并提供了提供了凸点、凹点、凸盲符和凹盲符的位置和点数标注信息。已有盲文图像数据也可以采用其他已有的盲文数字化图像,比如包含部分双面盲文或者单面盲文的盲文图像数据。

为了完成盲文质检校对任务,需要进一步构建新场景下的盲文图像数据集,该数据集可以包含双面盲文图像及单面盲文图像,每张盲文图像有对应的电子版盲文文档。

步骤2:数据标注;采集和构建盲文图像数据集后,需要对盲符区域进行标注。公开的数据集DSBI提供了盲方位置和类别的标注信息,可以编写程序生成语义分割训练需要的盲方像素级标注图。其他的已有数据集,如果没有盲方标注信息,可以采用交互式标注工具,利用矩形框对盲文图像中的每个盲符区域进行框取或者勾画,并存储对应的盲符区域的类别及盲符的行列信息,同时生成盲方像素级标注图。

盲符区域的标注部件103:

训练阶段是将原始盲文图像及对应的盲符像素级标注图像放入模型进行训练,因此,在训练前需要先生成对应的盲符像素级标注图像。以凸盲符为例,根据盲符结构可知,每个盲符由0~6个凸点组成,每个盲点可凸出、可不凸出,构成64种盲符,包括空盲符。模型训练时空盲符当做背景区域类别对待,因此对应63类盲符语义分割。对于公开数据集DSBI提供的盲符位置标注信息,首先需要知道盲文图像中每个盲符的边框信息和类别以及盲符的行列信息,将同一类盲符所在的盲符区域标注为同一颜色,并将背景标注为黑色,从而得到每张盲文图像对应的盲符像素级标注图,如附图3所示。对于其他的已有盲文图像数据,可以采用交互式标注方法对盲方区域进行位置和类别的标注,并生成对应的盲符像素级标注图。

步骤3:模型的训练;在已有的公开的双面盲文图像数据集上,或已有盲文图像数据集上,对整张盲文图像采用patch小区域采样策略截取包含部分盲符的局部区域图,并再对应的标注图上截图对应的局部标注图,然后使用U-Net语义分割网络对盲文图像进行63类盲符的像素级分割模型训练。本发明中patch大小可以选择512×512,或者其他尺寸。然后将少量新的打印盲文图像数据输入预训练模型得到初步的盲符识别结果,经过进一步人工校对和标注,将少量标注数据与预训练模型进行迁移学习,得到优化后的新模型。

模型预训练部件104:

采用U-Net网络作为端到端的盲符语义分割网络,对已有盲文图像数据集中所有盲文图像进行像素级语义分割模型训练。为了进一步提升盲符的分割性能,在U-Net网络的末端加入了一个辅助学习任务。将63种不同类别的盲符均视为盲符前景对象,而盲文图像的背景作为另一个对象,由此构成一个二值分类。在训练阶段同时计算多类盲符语义分割损失和二类盲符前景分割损失来不断更新网络参数,以此更好地帮助盲符的像素级分割。采用的交叉熵损失函数H和Dice损失函数Diceloss的加权平均函数作为损失函数,计算公式如下。

其中,N表示盲文图像的像素总数,C表示类别数(在多类盲符语义分割任务中C=63,二类盲符前景分割任务中C=2),t

最后采用以上交叉熵损失函数和Dice损失函数的加权平均函数作为损失函数。

同时,为了增加训练样本数量,尝试采用patch采样策略,即将原始盲文图像裁剪为多个大小一致的patch区域进行模型训练,同时对应的盲文标注图像也需要进行相应位置的patch裁剪。实验结果表明patch策略将极大的增加盲符语义分割的训练样本及其多样性,从而提升盲文识别准确率。

模型迁移学习部件105:

实验表明,在已有数据集上得到的预训练模型泛化能力可能有限,在新场景盲文图像上进行测试时,由于盲文图像数据的特征分布可能存在差异,导致新场景下的盲方识别率不高,有很多误报和漏报,给后期的盲文校对带来了额外的工作量。为了解决上述问题,需要加入部分新场景下的盲文图像样本及其标注图进行预训练模型的迁移学习和优化训练。因此,选取少量新场景下的盲文图像数据输入已有的预训练模型得到初步的盲符识别结果,并进行进一步人工校对和标注,然后将这些图像及其标注数据与预训练模型进行迁移学习。由于新场景下的数据量可能有限,有些类别的盲符数量有限,本发明在训练阶段会统计各类样本的数量,增加某一类盲符较少的盲文图像,平衡盲符的样本数量,最终得到优化后的新模型。

步骤4:模型的测试;将大量剩余的新场景盲文图像通过新模型进行盲方的语义分割,并采用形态学方法提取盲符区域信息,将像素级分割结果转化为方框级盲符识别结果,利用盲方行列排列规则,获取盲方的行列信息。

盲符区域测试部件106:

步骤3中的新模型训练完毕之后,接下来对模型进行测试。测试时,在待识别盲文图像上,利用滑动窗口策略进行有重叠的patch区域截取,滑动步长为patch边长的一半,然后累加重叠部分的预测结果,最后将多个已测试的patch按照其在原图的位置进行拼接得到整张盲文图像的盲符预测结果,由此便可得到63类盲符像素级分割预测结果图。

提取盲符部件107:

对于63类的像素级语义分割结果,逐类别二值化;对其进行腐蚀操作去除相邻盲符间的粘连;紧接着进行膨胀处理,消除图像中的小颗粒噪声;然后使用连通域分析,得到多个连通区域。为了减少噪声避免误报,还需移除小的连通区域,即删除高/宽度太小的外框,避免同一盲符包含两个外框。最后提取每个连通区域的外部轮廓,以每个轮廓的最小外接矩形作为盲符标识框,由此便可得到图像版盲文识别结果。

盲符校对部件108:

对于新场景下的盲文图像,还需要将图像版结果转化为对应的电子盲文格式,与正确的盲文文档做对比校验,从而得到不一致的盲符位置和类别信息,为后续提高质检校对效率等操作奠定基础。

首先,将图像版盲文识别结果图保存为对应的所含盲符信息的文件,包括每个盲符的外框左上角坐标、右下角坐标,盲符所属的盲文类型,预测该盲符为该类型的概率。利用盲文类型、盲文凸点和盲文ASCII码对应关系,将上述文件转换成相应的盲文ASCII文件。然后,清除盲文ASCII文件每行信息后存在的多余空格,由于这些空格往往会干扰后续与正确的盲文电子档文件的对比,因此需要先将其处理掉。为了更好的进行后续的对比校验,空白行在此处也一并删掉,同时正确的盲文电子档也会做此操作。最后,将盲文ASCII文件转换成盲文UTF-8文件,即可得到盲文电子版结果。

本发明进一步将预测得到的盲符UTF-8文件与正确的盲文电子档文件做比较,找到差异元素的具体位置,即错误识别和漏检盲符的行列信息,最终将对比结果以HTML格式输出并展示,将二者不同的地方用色块标注出来,同时计算出各评价指标的值,以此来评估模型的预测效果,可以非常直观快速的定位识别结果与实际盲文的不同之处。图4展示了识别的盲文(图4的左图)和原始盲文(图4的右图)的对比结果,用矩形框标识出两者不一致的盲符位置,方便编辑进行核查和确认,从而提高质检效率。

对于凹盲文而言,在双面盲文中,如果凹盲文没有对应的正确盲文电子版文件,那么还需要将正面的凹盲文信息转换成背面的凸盲文信息,然后与背面的凸盲文正确电子版文件进行对比。由此实现单面扫描双面识别的效果,即双面盲文既可识别正面的盲符,也可以识别反面的盲符,从而减少扫描图像次数,提高识别和校对效率。首先获取行列信息,即当前凹盲符识别图像中各盲符的行列信息;接着修改盲符的行列信息,行号不变,背面的列号=总列数+1–正面的列号;最后将凹盲符转化为对应的凸盲符,统计正面凹盲符的点信息,利用python字典将正面凹盲符转化为背面对应的凸盲符。例如,正面“124”对应背面“145”,正面“123”对应背面“456”等等。

步骤5:盲符识别及校对结果

结果输出与保存部件109:

将盲文图像最终的识别结果进行输出,并保存在硬盘文件中,方便后续对此测试结果进行分析,或者将其与新的数据预测进行比对。

图5是本发明的数据处理装置结构示意图。如图5所示,本发明还提出一种数据处理装置,包括处理器和计算机可读存储介质,其中处理器调取并执行该计算机可读存储介质中的可执行指令,以对盲文读物进行校对;计算机可读存储介质存储有可执行指令,可执行指令被处理器执行时,实现上述基于深度学习的盲文读物校对方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

本发明通过深度学习技术,直接端到端的在整张盲文图像上进行63类盲符的像素级分割,结合迁移学习机制提高预训练模型的泛化能力,并经过一系列后处理操作得到盲符最终的识别结果和校对信息。该技术能高效、准确的检测、识别和对比盲文图像中的盲符,从而协助快速得到盲文智能校对结果,提高盲文质检校对和出版效率。

以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号