首页> 中国专利> 一种基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法

一种基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法

摘要

本发明公开了一种基于Tesseract‑OCR的飞机主显示器PFD中空速标尺的识别方法,属于仪表识别领域。本发明的基于Tesseract‑OCR的飞机主显示器PFD中空速标尺的识别方法,先对图片进行预处理,利用Tesseract‑OCR针对性的训练数据集,以提取不完整字符的特征并保存,解决航空仪表中空速标尺的滚轮式数字显示存在不完整字符时识别率不高甚至无法识别的问题;然后结合LSTM神经网络模型,可以将不完整的字符特征进行有效训练,提高了含有不完整字符时的识别率。

著录项

  • 公开/公告号CN113239932A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 西安建筑科技大学;

    申请/专利号CN202110560479.4

  • 发明设计人 赵亮;王迪;

    申请日2021-05-21

  • 分类号G06K9/34(20060101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人崔方方

  • 地址 710055 陕西省西安市碑林区雁塔路13号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明属于仪表识别领域,尤其是一种基于Tesseract-OCR的飞机主显示器 PFD中空速标尺的识别方法。

背景技术

在仪表识别中,光学字符识别(OCR,Optical Character Recognition)算法是一种 常见的仪表识别方法,在1985年时,HP实验室研发出Tesseract的OCR引擎, 它的基础理论是通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状 翻译成计算机文字的过程。现有的Tesseract OCR算法的不足表现在:(1)当航 空仪表中空速标尺的滚轮式数字显示出现不完整字符时,现有数据集无法发挥作 用,会出现无法识别的情况。(2)当训练出针对性的数据集时,识别率不高。

发明内容

本发明的目的在于克服上述现有技术的缺点,提供一种基于Tesseract-OCR 的飞机主显示器PFD中空速标尺的识别方法。

为达到上述目的,本发明采用以下技术方案予以实现:

一种基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法,包括 以下步骤:

(1)将采集到的图片依次进行灰度化和二值化的预处理,得到预处理后的 图片;

(2)基于预处理后的图片进行字符分割,得到完整字符和不完整字符;

(3)将所述不完整字符利用Tesseract-OCR进行针对性的训练,得到数据集;

(4)利用所述数据集结合LSTM神经网络模型,得到新的数据集;

(5)将待识别图片进行灰度化和二值化预处理,在Tesseract-OCR上,调用 结合所述新的数据集进行识别。

进一步的,步骤(1)利用RGB到灰度图的转换公式进行灰度化:

GARY=RED*0.299+GREEN*0.588+BLUE*0.133。

进一步的,步骤(1)利用通过设置预设阈值将图像划分成两部分-前景和背 景进行二值化。

进一步的,采用下式进行二值化:

式中,f(x,y)为原始图像;T为灰度阈值;g(x,y)为阈值运算得到的二值图像。

进一步的,步骤(2)采用垂直投影法对预处理后的图片进行字符分割。

进一步的,步骤(3)的具体过程为:

将所述不完整字符集采用jessboxeditor训练;

对不完整字符的Box文件进行逐一校正,校正好以后,定义字体特征文件;

在样本图片所在目录下创建一个批预处理文件,执行批预处理文件得到最终 生成的语言文件,将所述语言文件拷贝在程序的tessdata文件中,即得到训练好 的数据库。

进一步的,步骤(4)具体包括:

(401)从所述数据集生成的.tif和.box文件中提取lstmf文件,用于LSTM 神经网络模型的训练;

(402)从.traineddata文件中提取.lstm文件,得到LSTM神经网络模型;

(403)从生成阶段文件eng.lstm时开始训练,训练至LSTM神经网络模型 的错误率低于0.01时结束;

(404)训练结束后产生.checkpoint文件,将所述数据集产生的语言文件 和.checkpoint文件合并生成新的语言文件,将新的语言文件放在tessdata文件夹 中,得到新的数据集。

进一步的,步骤(403)中训练次数为6000次。

与现有技术相比,本发明具有以下有益效果:

本发明的基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法, 先对图片进行预处理,利用Tesseract-OCR针对性的训练数据集,以提取不完整 字符的特征并保存,解决航空仪表中空速标尺的滚轮式数字显示存在不完整字符 时识别率不高甚至无法识别的问题;然后结合LSTM神经网络模型,可以将不完 整的字符特征进行有效训练,提高了含有不完整字符时的识别率。

附图说明

图1为本发明的流程示意图;

图2为实施例灰度化后的图片;

图3为实施例二值化后的图片;

图4为实施例中的图片,其中,图4(a)、图4(b)、图4(c)、图4(d) 分别为原图、二值化图、字符投影的直方图和分割后的字符图;

图5为实施例中部分切割后的字符集;

图6为实施例中的效果示意图;其中,图6(a)为使用自带数据集识别的效 果图,图6(b)为使用训练的数据集识别的效果图,图6(c)为结合了LSTM 神经网络的数据库识别的效果图;

图7为实施例的识别率对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述 的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的 实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应 该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例 能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具 有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步 骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单 元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其 它步骤或单元。

考虑到航空仪表的复杂性,本发明针对航空仪表中空速标尺的滚轮式数字显 示存在不完整字符时的情况,进行针对性的数据集训练,解决了含有不完整字符 时无法识别的问题,并且结合LSTM神经网络模型,提高了含有不完整字符时的 识别率。

下面结合附图对本发明做进一步详细描述:

参见图1,图1为本发明的流程示意图,一种基于Tesseract-OCR的飞机主 显示器PFD中空速标尺的识别方法,包括以下步骤:

(1)预处理:将采集到的图片进行灰度化和二值化,使图片可以更好的识 别;

(2)字符分割:对预处理后的图片进行字符分割,分为完整字符和不完整 字符,不完整字符进行针对性字符集训练,进而进行后续识别;

(3)训练数据集:将分割后得到的不完整字符,进行训练得到数据集;

(4)训练LSTM神经网络模型:从之前训练好的样本数据集生成的文件中 提取lstmf文件用于lstm训练,接着从.traineddata文件中提取.lstm文件,然后从 生成的阶段文件开始训练,训练6000次,使错误率低于0.01,训练结束后产生 的.checkpoint文件与之前训练好的数据集产生的语言文件合并生成新的语言文件 放在tessdata文件夹中;

(5)字符识别:将待识别图片进行预处理后通过代码调用训练好的数据集, 完成识别。

综上所述,本发明提出的基于Tesseract-OCR的飞机主显示器PFD中空速标 尺的识别方法,首先对采集到的图片进行预处理,使其更好的识别,可以提高算 法识别率,由于飞机驾驶舱中的主显示器PFD数字为滚动式显示,所以需要进 行针对性字符集训练,在此采用jessboxeditor训练,以提取不完整字符的特征并 保存,接着将Tesseract OCR与神经网络模型相结合,使得到的不完整字符特征 进行有效训练,提高识别率。

本发明实施例中,步骤(1)具体包括以下步骤:

对采集到的图片进行预处理,包括灰度化和二值化,以便后续预处理,由于 人眼对绿色的敏感程度最强,蓝色最弱,所以绿色通道权值是最大的,蓝色通道 权值最小,RGB到灰度图的转换公式为:

GARY=RED*0.299+GREEN*0.588+BLUE*0.133

式中,GARY表示灰度;RED表示红色分量;GREEN表示绿色分量;BLUE 表示蓝色分量。

待识别图像进行灰度化以后,为了更好的识别,要去除一些干扰因素,所以 进行二值化预处理,预处理后的图像为黑白图,这样可以突出前景,与背景分离。

二值化预处理如下式:

式中,f(x,y)为原始图像;T为灰度阈值;g(x,y)为阈值运算得到的二值 图像。

请参见图2和图3,图2为灰度化后的图片,图3是二值化后的图片。本发 明实施例中,选取阈值194作为较好预处理的分割值。

本发明实施例的步骤(2)中,对预处理后的图进行裁剪,裁剪出需要识别 的部分,接着使用垂直投影法进行字符分割,具体垂直投影分割法为:

字符切割选用OpenCV中的垂直投影法,原理是利用二值化图片的像素的分 布直方图进行分析,从而找出相邻字符的分界点进行分割,当图像只有物体和背 景组成的适合,灰度级直方图成为明显的双峰值。

此时需要找到谷值来进行分割,找到第一个峰值和第二个峰值,再找到第一 个峰值和第二个峰值之间的谷值,从而确定谷值的阈值,本发明在此选用最大类 间法(OTSU算法)。OTSU,中文翻译是最大类间方差法,是日本科学家在20世 纪70年代末提出来的,该法是研究图像的灰度特点,根据图像的灰度分布,使 图像拥有前景与背景两个部分。计算前景图像和背景图像之间的类间方法的值。 数值越高,前景图像与背景图像的差值越大。由于这个原因在错误分类中,背景 图像也夺取了目标图像的内容,或者背景图像中的某些内容被列入到了目标图像 中。这样一来方差就会变小。所以,如果目标与背景图像的离散度大,错误率将 被降低。

OTSU算法的原理如下:对前景背景图像作分割处理时,把阈值设为t,将 前景图像像素点总数占图像总像素的比令为w

u=w

前景和背景图象的方差为:

g=w

在实际计算中,可采用等价公式:

σ

当前景与背景图像的方差较大时,即式中的g较大时,t为图像的最佳分割 阈值。本文根据飞机仪表图像的特点利用该法操作仪表图像。字符切割图为图4 所示。

本发明实施例中,步骤(3)中,采集1000张样本图片,对其进行预处理, 将预处理后得到的图片使用垂直投影法分割字符分割,得到的不完整字符集采用 jessboxeditor训练,部分切割后的的得到的字符集如图5所示。

下载了Tesseract-OCR后,首先下载Java JDK,下载完成以后安装Jtessboxeditor,所以需要对Box文件进行逐一校正,所以数据越多工作量越大, 校正好以后,定义字体特征文件,在样本图片所在目录下创建一个批预处理文件, 执行批预处理文件便得到最终生成的语言文件,将其拷贝在程序的tessdata文件 中,即可使用训练好的数据库。

本发明实施例的步骤(4),具体包括:

(401)从步骤(3)的本数据集生成的.tif和.box文件中提取lstmf文件用于 LSTM神经网络模型训练;

(402)用以有的.traineddata文件中提取.lstm文件;

(403)从生成的阶段文件eng.lstm开始训练,训练至错误率低于0.01时结 束,在此训练6000次;

(404)训练结束后会产生.checkpoint文件,将其和之前训练好的样本数据 集产生的新的语言文件合并生成新的语言文件,将合成后的文件放在tessdata文 件夹中,通过代码调用来识别,测试识别率。

本发明实施例中,将待识别图片进行预处理以后通过代码分别调用自带库的 数据集、训练的数据集、训练的数据集结合LSTM模型来识别,测试识别率。

参见图6,图6(a)为使用自带数据集识别的效果图,图6(b)为使用自己 训练的数据集识别的效果图,图6(c)为结合了LSTM神经网络的数据库识别 的效果图,从图中可以看出,图6(c)的识别效果最好。参见图7,可以看出本 发明的识别率有很大提高。

本发明实施例的基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别 方法,通过OpenCV对采集到的图片进行预处理,以便后续预处理,由于航空仪 表的复杂性,对其进行针对性的字符集训练,提取了不完整字符的特征并保存, 解决了含有不完整字符时无法识别的问题,结合LSTM神经网络模型,有效的利 用了字符集特征,提高了含有不完整字符时的识别率。

以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡 是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发 明权利要求书的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号