首页> 中国专利> 基于字符监督信息的弱监督文本检测方法

基于字符监督信息的弱监督文本检测方法

摘要

本发明公开了一种基于字符监督信息的弱监督文本检测方法,涉及文本检测领域,尤其是一种基于字符监督信息的弱监督文本检测方法,其包括:骨干网络进行特征提取;对提取的特征进行上采样;生成字符级的标注;输出字符区域概率图以及文本中心线;得到响应值高的连通区域,再将该区域外扩得到完整的字符边界;遍历文本中心线,将每个文本区域内的所有点连接并做平滑处理后得到最终的检测区域。本发明能够应用于多种场景下的文本检测问题,借助于字符检测结果,能够精确的定位每一个字符的所在位置,从而获取较高的检测精度。弱监督的学习方式,使得整个网络不断地迭代,最终达到较好的收敛效果。

著录项

说明书

技术领域

本发明属于文本检测领域,尤其是一种基于字符监督信息的弱监督文本检测方法。

背景技术

文本检测做为OCR技术中的一个关键步骤,一直以来都吸引了研究人员的广泛关注。文本检测的目的是精确的定位出图片中文字的位置,检测出具体的坐标信息以供后续识别模型进行识别。目前在自动驾驶、图片检索领域均有着大量的应用。传统的文本检测技术主要针对印刷体,利用扫描设备将光学文件转换成图像文件,再转换为字符点阵格式,后续处理算法再进一步编辑处理。然而随着时代的发展,目前的处理对象逐渐演变为自然场景下的文本检测,环境更加复杂,字体也更加多变。针对这类真实场景,之前的方法存在很大的局限性。

针对自然场景下的文本检测问题,现有的检测技术主要是利用回归或分割的方法,以单词为基本单元,直接得到整个单词的区域。这些方法能够很好的处理间隔较小的文本,然而很多实际应用场景的单词中每个字符之间的间距比较大,以单词为基础进行处理时,很难得到完整的文本边界信息,从而影响整体的检测效果。本专利主要解决复杂场景下的文本检测问题。

发明内容

本发明提供了一种基于字符监督信息的弱监督文本检测方法,用于解决现有技术中自然场景下的复杂背景、多变字体的检测问题。

本发明采用如下技术方案:

本发明的技术方案主要由两部分组成:第一部分是以字符为学习目标并提取单词中心线特征的过程,第二部分是基于单个字符以及单词中心线的后处理合并成完整单词的过程。在第一部分中,我们采用增加了空洞卷积层的ResNet34进行特征提取,再利用反向的U形结构进行语义信息增强,得到每个字符区域的特征图以及单词中心线的特征图,考虑绝大多数数据集没有字符级别的标注,我们还引入了一种弱监督方式,在训练的过程中通过迭代的方式不断生成字符信息,同时加入了置信度设置标识弱监督生成结果的好坏。第二部分中,先利用字符特征图还原出完整字符,再利用单词中心线将属于同一单词的字符相连接,最后对边界做平滑处理,得到最终的文本区域。

一种基于字符监督信息的弱监督文本检测方法,包括如下步骤:

S100:骨干网络进行特征提取;

S200:通过上采样网络对提取的特征进行上采样;

S300:对获得的采样数据通过弱监督的方式,利用分水岭算法生成字符级的标注;

S400:经过上采样网络融合的特征经过四层卷积层后输出字符区域概率图以及文本中心线;

S500:得到字符概率图后先利用opencv得到响应值高的连通区域,再利用Vatti算法将该区域外扩得到完整的字符边界;

S600:遍历文本中心线,中心线穿过的字符即作为同一个文本处理,每个字符边界分别取左上、右上、右下、左下四个点,最后将每个文本区域内的所有点进行排序连接并做平滑处理后得到最终的检测区域。

进一步地,所述骨干网络为ResNet34网络。

进一步地,三层卷积层作为一个block嵌入并替换了ResNet34网络的第三个layer,每个卷积层使用空洞卷积核替换标准卷积,空洞率分别设置为1、2以及3。

进一步地,ResNet34网络额外增加了一个layer来进一步的做特征提取。

进一步地,上采样网络由四个block组成,每个block先对提取的特征进行两次卷积操作,再进行上采样;每个block的输出结果和骨干网络对应block的输出按位相加后输入到下一个block。

进一步地,弱监督生成字符集的标注的过程为:先根据提供的坐标信息将对应的单词部分截取出来,之后利用分水岭算法得到每个字符的位置信息,作为标注信息送入到网络中参与训练。

进一步地,字符结果生成出后会生成一个置信度,该值用来度量本次生成的结果是否可信,计算公式为:

l(w)表示预测的关于单词w中字符的个数,lc(w)表示真实标注中的单词w包含的字符个数,当预测的字符个数与原始单词相同时,认为该次结果完全可信。

进一步地,在S100:骨干网络进行特征提取前,还包括S90:图片尺寸步骤,将图片调整到统一的尺寸,对于尺寸不满足的图片,利用双线性插值的方法和/或数据增广的方式进行处理。

进一步地,数据增广方式包括:随机旋转一定的角度,改变图像的亮度以及随机调整图片的饱和度。

进一步地,在S90图片尺寸调整步骤前,还包括S80:弱监督的训练标签制作步骤,通过该步骤生成每个字符的区域概率分布图以及文本中心线。

(1)图片输入后先经过一个骨干网络进行特征提取。在本方法中,基于运行时间和最终精度的考量,我们选择了ResNet34作为骨干网络。为了增大网络的感受野同时尽可能的保留更多的细节信息,我们对ResNet34的第三个layer的卷积层进行了替换。我们重新搭建了三层卷积层作为一个新block替换了原第三个layer中的block,每个卷积层使用空洞卷积核替换标准卷积,空洞率分别设置为1,2,3。空洞卷积核的使用进一步增大了网络提取大特征的能力。此外,我们额外增加了一个layer来进一步的做特征提取。

(2)特征提取完成后,我们加入了一个上采样模块。该模块可以将高分辨率图像的空间信息和低分辨率图像的语义信息相融合,从而提高整个网络的泛化能力。该网络由四个block组成,每个block先对特征进行两次卷积操作,再进行上采样。每个block的输出结果和骨干网络对应block的输出按位相加后输入到下一个block。

(3)弱监督学习。由于字符级的标注代价太大,现有的真实数据集几乎均以单词级别的标注为主,因此本方法采用弱监督的方式,在训练过程中迭代生成字符接的标注。其生成过程为,先根据提供的坐标信息将对应的单词部分截取出来,输入到该网络中,之后利用分水岭算法得到每个字符的位置信息,再将本次生成的结果送回到网络中作为标签进行训练。字符结果生成后会生成一个置信度,该值用来度量本次分水岭算法生成的结果是否可信。

(4)经过上采样网络融合的特征经过四层卷积层后输出字符区域概率图以及文本中心线。再将生成的字符结果送回网络重复(2)~(5)直接网络收敛。

(5)得到字符概率图后先利用opencv得到响应值高的连通区域,再利用Vatti算法将该区域外扩得到完整的字符边界。之后遍历文本中心线,中心线穿过的字符即作为同一个文本处理。每个字符边界分别取左上、右上、右下、左下四个点,最后将每个文本区域内的所有点进行排序连接并做平滑处理后得到最终的检测区域。

本发明的积极效果如下:

一种基于字符监督信息的弱监督文本检测方法,其包括如下步骤:

S100:骨干网络进行特征提取;

S200:通过上采样网络对提取的特征进行上采样;

S300:对获得的采样数据通过弱监督的方式,利用分水岭算法生成字符级的标注;

S400:经过上采样网络融合的特征经过四层卷积层后输出字符区域概率图以及文本中心线;

S500:得到字符概率图后先利用opencv得到响应值高的连通区域,再利用Vatti算法将该区域外扩得到完整的字符边界;

S600:遍历文本中心线,中心线穿过的字符即作为同一个文本处理,每个字符边界分别取左上、右上、右下、左下四个点,最后将每个文本区域内的所有点进行排序连接并做平滑处理后得到最终的检测区域。

本发明能够应用于多种场景下的文本检测问题,借助于字符检测结果,能够精确的定位每一个字符的所在位置,从而获取较高的检测精度。弱监督的学习方式,使得整个网络不断地迭代,最终达到较好的收敛效果。文本中心线作为学习目标降低了网络训练的难度,使得网络不仅对于水平的文本有着良好的效果,对于倾斜、弯曲多种情况下的文本也能进行很好的检测。此外,该网络还有着较好的泛化能力,在一种场景下做完训练后可以直接用在其他场景下,并且对于弱光照下的难以检测的文本同样非常有效。

附图说明

图1为本发明实施方式骨干网络ResNet34结构图;

图2为本发明实施方式上采样模块结构图;

图3为本发明实施方式二维高斯分布通过透视变换变换到四边形框过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。

如图1-3所示,一种基于字符监督信息的弱监督文本检测方法,包括如下步骤:

S100:骨干网络进行特征提取;

S200:通过上采样网络对提取的特征进行上采样;

S300:对获得的采样数据通过弱监督的方式,利用分水岭算法生成字符级的标注;

S400:经过上采样网络融合的特征经过四层卷积层后输出字符区域概率图以及文本中心线;

S500:得到字符概率图后先利用opencv得到响应值高的连通区域,再利用Vatti算法将该区域外扩得到完整的字符边界;

S600:遍历文本中心线,中心线穿过的字符即作为同一个文本处理,每个字符边界分别取左上、右上、右下、左下四个点,最后将每个文本区域内的所有点进行排序连接并做平滑处理后得到最终的检测区域。

进一步地,所述骨干网络为ResNet34网络。

进一步地,三层卷积层作为一个block嵌入并替换了ResNet34网络的第三个layer,每个卷积层使用空洞卷积核替换标准卷积,空洞率分别设置为1、2以及3。

进一步地,ResNet34网络额外增加了一个layer来进一步的做特征提取。

进一步地,上采样网络由四个block组成,每个block先对提取的特征进行两次卷积操作,再进行上采样;每个block的输出结果和骨干网络对应block的输出按位相加后输入到下一个block。

进一步地,弱监督生成字符集的标注的过程为:先根据提供的坐标信息将对应的单词部分截取出来,之后利用分水岭算法得到每个字符的位置信息,作为标注信息送入到网络中参与训练。

进一步地,字符结果预测出后会生成一个置信度,该值用来度量本次生成的结果是否可信,计算公式为:

l(w)表示预测的关于单词w中字符的个数,lc(w)表示真实标注中的单词w包含的字符个数,当预测的字符个数与原始单词相同时,认为该次结果完全可信。

进一步地,在S100:骨干网络进行特征提取前,还包括S90:图片尺寸步骤,将图片调整到统一的尺寸,对于尺寸不满足的图片,利用双线性插值的方法和/或数据增广的方式进行处理。

进一步地,数据增广方式包括:随机旋转一定的角度,改变图像的亮度以及随机调整图片的饱和度。

进一步地,在S90图片尺寸调整步骤前,还包括S80:弱监督的训练标签制作步骤,通过该步骤生成每个字符的区域概率分布图以及文本中心线。

本发明的技术方案主要由两部分组成:第一部分是以字符为学习目标并提取单词中心线特征的过程,第二部分是基于单个字符以及单词中心线的后处理合并成完整单词的过程。在第一部分中,我们采用增加了空洞卷积层的ResNet34进行特征提取,再利用反向的U形结构进行语义信息增强,得到每个字符区域的特征图以及单词中心线的特征图,考虑绝大多数数据集没有字符级别的标注,我们还引入了一种弱监督方式,在训练的过程中通过分水岭算法不断生成字符信息,同时加入了置信度设置标识弱监督生成结果的好坏。第二部分中,先利用字符特征图还原出完整字符,再利用单词中心线将属于同一单词的字符相连接,最后对边界做平滑处理,得到最终的文本区域。

该文本检测方法包含以下主要步骤:

(1)图片输入后先经过一个骨干网络进行特征提取。在本方法中,基于运行时间和最终精度的考量,我们选择了ResNet34作为骨干网络。为了为了增大网络的感受野同时尽可能的保留更多的细节信息,我们对ResNet34的第三个layer的卷积层进行了替换。我们重新搭建了三层卷积层作为一个block嵌入到了第三个layer中,每个卷积层使用空洞卷积核替换标准卷积,空洞率分别设置为1,2,3。空洞卷积核的使用进一步增大了网络提取大特征的能力。此外,我们额外增加了一个layer来进一步的做特征提取。调整后的网络结构图1所示。

(2)特征提取完成后,我们加入了一个上采样模块。该模块可以将高分辨率图像的空间信息和低分辨率图像的语义信息相融合,从而提高整个网络的泛化能力。该网络由四个block组成,每个block先对特征进行两次卷积操作,再进行上采样。每个block的输出结果和骨干网络对应block的输出按位相加后输入到下一个block。其结构图2所示。

(3)弱监督学习。由于字符级的标注代价太大,现有的真实数据集几乎均以单词级别的标注为主,因此本方法采用弱监督的方式,在训练过程中迭代生成字符接的标注。其生成过程为,先根据提供的坐标信息将对应的单词部分截取出来,输入到该网络中,之后利用分水岭算法得到每个字符的位置信息,再将本次生成的结果送回到网络中作为标签进行训练。字符结果生成后会生成一个置信度,该值用来度量本次分水岭算法生成的结果是否可信,计算公式为:

l(w)表示预测的关于单词w中字符的的个数,lc(w)表示真实标注中的单词w包含的字符个数。当预测的字符个数与原始单词相同是,我们认为该次结果完全可信。

(4)经过上采样网络融合的特征经过四层卷积层后输出字符区域概率图以及文本中心线。再将生成的字符结果送回网络重复(2)~(5)直接网络收敛。

(5)得到字符概率图后先利用opencv得到响应值高的连通区域,再利用Vatti算法将该区域外扩得到完整的字符边界。之后遍历文本中心线,中心线穿过的字符即作为同一个文本处理。每个字符边界分别取左上、右上、右下、左下四个点,最后将每个文本区域内的所有点进行排序连接并做平滑处理后得到最终的检测区域。

下面是本发明的一个具体实施案例,本发明提供了一个基于字符监督信息的弱监督的文本检测方法,具体过程如下:

基于弱监督的训练标签制作:

1.标签包括概率分布图和文本中心线两部分。对于每一张图,考虑到在文本内部也存在中心和边缘的差异,我们需要生成每个字符的区域概率分布图。可使用连续的二维高斯分布来表示概率,位于字符中心的像素点有较高的位置分,而位于字符边缘的像素点位置分较低,从而能够充分利用像素点的位置信息。然而由于字符的形状通常不太规则,因此需要再将二维高斯分布通过透视变换变换到四边形框中,其过程如图3所示。

中心线根据预先提供的真实标签生成。在真实边框的上下两条边中各均匀采样10个点,按序计算出每一对点的中心点,之后利用侧边的中点共计12个点连成的线作为该文本的中心线。

2.场景文本图片预处理

训练时图片尺寸固定为800×800,对于尺寸不满足的图片,利用双线性插值的方法进行处理。本方法使用的数据增广方式为:随机旋转一定的角度,改变图像的亮度,随机调整图片的饱和度。

3.基于弱监督的字符级场景文本图片特征提取

将图片预处理后得到的张量数据输入到ResNet34中进行特征提取。其中原ResNet34的第三个layer被空洞卷积的构成的block替换。此外,本方法额外增加了一层layer用来强化特征提取。

4.基于上采样模块的特征语义信息增强

ResNet34网络用来提取空间特征,然而训练过程中的语义信息能够辅助识别不同的尺寸的文本。因此我们增加了四个上采样模块进行特征融合。特征输入该模块后,先经过1×1的卷积进行通道升维,再经过3×3卷积做特征处理,其中每次卷积操作会加正则化操作防止过拟合。最后通过上采样操作扩大特征图的尺寸与ResNet34的输出结果相加后输入到下一个block中。

5.字符后处理

当模型收敛后,经反卷积模块后会输出每个最终的字符区域的预测结构以及文本中心线。依据高斯热力图将字符的中心取出后利用Vatti算法对该中心扩展,得到完整的字符区域并获得边界坐标点。之后利用中心线信息,记录属于同一个中心线(文本)的字符在同一个集合中。基于该字符集合,对每个字符边界取四个顶点,最终将所有的顶点按照顺时针排序,平滑处理后得到改文本的边界作为最终的检测结果。

6.模型训练

模型训练过程中的优化目标如下所示:

其中,Sc(p)表示置信度,Sr(p)和Sr*(p)分别表示预测的概率值以及生成真实概率值。此外,优化器选用SGD来计算梯度并进行反向传播。训练的batch size设置为10,总共训练800个epoch。

7.模型应用

在通过上面的训练过程后可以得到多个模型,选取其中最优的模型(优化的目标函数值最小)用于应用,在应用模型时不需要再进行数据增强,只需要把图像调整到800×800大小,归一化后即可作为模型的输入。整个的网络模型的参数都固定不动,输入图像经神经网络进行特征提取并完成后处理后即可得到图像中文本内容的检测结果。

以上实施方式仅为本发明的优选实施例,而并非本发明可行实施的穷举。对于本领域一般技术人员而言,在不背离本发明原理和精神的前提下对其所做出的任何显而易见的改动,都应当被认为包含在本发明的权利要求保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号