首页> 中国专利> 一种基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法

一种基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于Tesseract‑OCR的飞机主显示器PFD中空速标尺的识别方法，属于仪表识别领域。本发明的基于Tesseract‑OCR的飞机主显示器PFD中空速标尺的识别方法，先对图片进行预处理，利用Tesseract‑OCR针对性的训练数据集，以提取不完整字符的特征并保存，解决航空仪表中空速标尺的滚轮式数字显示存在不完整字符时识别率不高甚至无法识别的问题；然后结合LSTM神经网络模型，可以将不完整的字符特征进行有效训练，提高了含有不完整字符时的识别率。

著录项

公开/公告号CN113239932A

专利类型发明专利
公开/公告日2021-08-10

原文格式PDF
申请/专利权人西安建筑科技大学;
展开▼

申请/专利号CN202110560479.4
发明设计人赵亮;王迪;
展开▼

申请日2021-05-21
分类号G06K9/34(20060101);G06K9/62(20060101);G06N3/04(20060101);
代理机构61200 西安通大专利代理有限责任公司;
代理人崔方方
地址 710055 陕西省西安市碑林区雁塔路13号
入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明属于仪表识别领域，尤其是一种基于Tesseract-OCR的飞机主显示器 PFD中空速标尺的识别方法。

背景技术

在仪表识别中，光学字符识别(OCR,Optical Character Recognition)算法是一种常见的仪表识别方法，在1985年时，HP实验室研发出Tesseract的OCR引擎，它的基础理论是通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。现有的Tesseract OCR算法的不足表现在：(1)当航空仪表中空速标尺的滚轮式数字显示出现不完整字符时，现有数据集无法发挥作用，会出现无法识别的情况。(2)当训练出针对性的数据集时，识别率不高。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种基于Tesseract-OCR 的飞机主显示器PFD中空速标尺的识别方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法，包括以下步骤：

(1)将采集到的图片依次进行灰度化和二值化的预处理，得到预处理后的图片；

(2)基于预处理后的图片进行字符分割，得到完整字符和不完整字符；

(3)将所述不完整字符利用Tesseract-OCR进行针对性的训练，得到数据集；

(4)利用所述数据集结合LSTM神经网络模型，得到新的数据集；

(5)将待识别图片进行灰度化和二值化预处理，在Tesseract-OCR上，调用结合所述新的数据集进行识别。

进一步的，步骤(1)利用RGB到灰度图的转换公式进行灰度化：

GARY＝RED*0.299+GREEN*0.588+BLUE*0.133。

进一步的，步骤(1)利用通过设置预设阈值将图像划分成两部分-前景和背景进行二值化。

进一步的，采用下式进行二值化：

式中，f(x,y)为原始图像；T为灰度阈值；g(x,y)为阈值运算得到的二值图像。

进一步的，步骤(2)采用垂直投影法对预处理后的图片进行字符分割。

进一步的，步骤(3)的具体过程为：

将所述不完整字符集采用jessboxeditor训练；

对不完整字符的Box文件进行逐一校正，校正好以后，定义字体特征文件；

在样本图片所在目录下创建一个批预处理文件，执行批预处理文件得到最终生成的语言文件，将所述语言文件拷贝在程序的tessdata文件中，即得到训练好的数据库。

进一步的，步骤(4)具体包括：

(401)从所述数据集生成的.tif和.box文件中提取lstmf文件，用于LSTM 神经网络模型的训练；

(402)从.traineddata文件中提取.lstm文件，得到LSTM神经网络模型；

(403)从生成阶段文件eng.lstm时开始训练，训练至LSTM神经网络模型的错误率低于0.01时结束；

(404)训练结束后产生.checkpoint文件，将所述数据集产生的语言文件和.checkpoint文件合并生成新的语言文件，将新的语言文件放在tessdata文件夹中，得到新的数据集。

进一步的，步骤(403)中训练次数为6000次。

与现有技术相比，本发明具有以下有益效果：

本发明的基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法，先对图片进行预处理，利用Tesseract-OCR针对性的训练数据集，以提取不完整字符的特征并保存，解决航空仪表中空速标尺的滚轮式数字显示存在不完整字符时识别率不高甚至无法识别的问题；然后结合LSTM神经网络模型，可以将不完整的字符特征进行有效训练，提高了含有不完整字符时的识别率。

附图说明

图1为本发明的流程示意图；

图2为实施例灰度化后的图片；

图3为实施例二值化后的图片；

图4为实施例中的图片，其中，图4(a)、图4(b)、图4(c)、图4(d) 分别为原图、二值化图、字符投影的直方图和分割后的字符图；

图5为实施例中部分切割后的字符集；

图6为实施例中的效果示意图；其中，图6(a)为使用自带数据集识别的效果图，图6(b)为使用训练的数据集识别的效果图，图6(c)为结合了LSTM 神经网络的数据库识别的效果图；

图7为实施例的识别率对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

考虑到航空仪表的复杂性，本发明针对航空仪表中空速标尺的滚轮式数字显示存在不完整字符时的情况，进行针对性的数据集训练，解决了含有不完整字符时无法识别的问题，并且结合LSTM神经网络模型，提高了含有不完整字符时的识别率。

下面结合附图对本发明做进一步详细描述：

参见图1，图1为本发明的流程示意图，一种基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法，包括以下步骤：

(1)预处理：将采集到的图片进行灰度化和二值化，使图片可以更好的识别；

(2)字符分割：对预处理后的图片进行字符分割，分为完整字符和不完整字符，不完整字符进行针对性字符集训练，进而进行后续识别；

(3)训练数据集：将分割后得到的不完整字符，进行训练得到数据集；

(4)训练LSTM神经网络模型：从之前训练好的样本数据集生成的文件中提取lstmf文件用于lstm训练，接着从.traineddata文件中提取.lstm文件，然后从生成的阶段文件开始训练，训练6000次，使错误率低于0.01，训练结束后产生的.checkpoint文件与之前训练好的数据集产生的语言文件合并生成新的语言文件放在tessdata文件夹中；

(5)字符识别：将待识别图片进行预处理后通过代码调用训练好的数据集，完成识别。

综上所述，本发明提出的基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法，首先对采集到的图片进行预处理，使其更好的识别，可以提高算法识别率，由于飞机驾驶舱中的主显示器PFD数字为滚动式显示，所以需要进行针对性字符集训练，在此采用jessboxeditor训练，以提取不完整字符的特征并保存，接着将Tesseract OCR与神经网络模型相结合，使得到的不完整字符特征进行有效训练，提高识别率。

本发明实施例中，步骤(1)具体包括以下步骤：

对采集到的图片进行预处理，包括灰度化和二值化，以便后续预处理，由于人眼对绿色的敏感程度最强，蓝色最弱，所以绿色通道权值是最大的，蓝色通道权值最小，RGB到灰度图的转换公式为：

GARY＝RED*0.299+GREEN*0.588+BLUE*0.133

式中，GARY表示灰度；RED表示红色分量；GREEN表示绿色分量；BLUE 表示蓝色分量。

待识别图像进行灰度化以后，为了更好的识别，要去除一些干扰因素，所以进行二值化预处理，预处理后的图像为黑白图，这样可以突出前景，与背景分离。

二值化预处理如下式：

式中，f(x,y)为原始图像；T为灰度阈值；g(x,y)为阈值运算得到的二值图像。

请参见图2和图3，图2为灰度化后的图片，图3是二值化后的图片。本发明实施例中，选取阈值194作为较好预处理的分割值。

本发明实施例的步骤(2)中，对预处理后的图进行裁剪，裁剪出需要识别的部分，接着使用垂直投影法进行字符分割，具体垂直投影分割法为：

字符切割选用OpenCV中的垂直投影法，原理是利用二值化图片的像素的分布直方图进行分析，从而找出相邻字符的分界点进行分割，当图像只有物体和背景组成的适合，灰度级直方图成为明显的双峰值。

此时需要找到谷值来进行分割，找到第一个峰值和第二个峰值，再找到第一个峰值和第二个峰值之间的谷值，从而确定谷值的阈值，本发明在此选用最大类间法(OTSU算法)。OTSU，中文翻译是最大类间方差法，是日本科学家在20世纪70年代末提出来的，该法是研究图像的灰度特点，根据图像的灰度分布，使图像拥有前景与背景两个部分。计算前景图像和背景图像之间的类间方法的值。数值越高，前景图像与背景图像的差值越大。由于这个原因在错误分类中，背景图像也夺取了目标图像的内容，或者背景图像中的某些内容被列入到了目标图像中。这样一来方差就会变小。所以，如果目标与背景图像的离散度大，错误率将被降低。

OTSU算法的原理如下：对前景背景图像作分割处理时，把阈值设为t，将前景图像像素点总数占图像总像素的比令为w

u＝w

前景和背景图象的方差为：

g＝w

在实际计算中，可采用等价公式：

当前景与背景图像的方差较大时，即式中的g较大时，t为图像的最佳分割阈值。本文根据飞机仪表图像的特点利用该法操作仪表图像。字符切割图为图4 所示。

本发明实施例中，步骤(3)中，采集1000张样本图片，对其进行预处理，将预处理后得到的图片使用垂直投影法分割字符分割，得到的不完整字符集采用 jessboxeditor训练，部分切割后的的得到的字符集如图5所示。

下载了Tesseract-OCR后，首先下载Java JDK，下载完成以后安装Jtessboxeditor，所以需要对Box文件进行逐一校正，所以数据越多工作量越大，校正好以后，定义字体特征文件，在样本图片所在目录下创建一个批预处理文件，执行批预处理文件便得到最终生成的语言文件，将其拷贝在程序的tessdata文件中，即可使用训练好的数据库。

本发明实施例的步骤(4)，具体包括：

(401)从步骤(3)的本数据集生成的.tif和.box文件中提取lstmf文件用于 LSTM神经网络模型训练；

(402)用以有的.traineddata文件中提取.lstm文件；

(403)从生成的阶段文件eng.lstm开始训练，训练至错误率低于0.01时结束，在此训练6000次；

(404)训练结束后会产生.checkpoint文件，将其和之前训练好的样本数据集产生的新的语言文件合并生成新的语言文件，将合成后的文件放在tessdata文件夹中，通过代码调用来识别，测试识别率。

本发明实施例中，将待识别图片进行预处理以后通过代码分别调用自带库的数据集、训练的数据集、训练的数据集结合LSTM模型来识别，测试识别率。

参见图6，图6(a)为使用自带数据集识别的效果图，图6(b)为使用自己训练的数据集识别的效果图，图6(c)为结合了LSTM神经网络的数据库识别的效果图，从图中可以看出，图6(c)的识别效果最好。参见图7，可以看出本发明的识别率有很大提高。

本发明实施例的基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法，通过OpenCV对采集到的图片进行预处理，以便后续预处理，由于航空仪表的复杂性，对其进行针对性的字符集训练，提取了不完整字符的特征并保存，解决了含有不完整字符时无法识别的问题，结合LSTM神经网络模型，有效的利用了字符集特征，提高了含有不完整字符时的识别率。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于Tesseract-OCR的飞机主显示器PFD中空速标尺的识别方法 [P] . 中国专利： CN113239932A . 2021-08-10
2. 主飞行显示器的基于俯仰和功率的不可靠空速符号系统 [P] . 中国专利： CN103562682A . 2014-02-05
3. Method for Evaluating the Integrity of a Pitot-Static Based Airspeed Detector [P] . 美国专利： US2012180581A1 . 2012-07-19

机译：一种基于皮托管的空速检测器完整性评估方法
4. A FEMTOCELL BASE STATION, AND A METHOD OF RADIO COMMUNICATION IN A NETWORK COMPRISING A FEMTOCELL BASE STATION [P] . 世界知识产权组织专利： WO2010057563A1 . 2010-05-27

机译：一种飞蜂窝基站，以及包括飞蜂窝基站的网络中的无线电通信方法
5. METHOD FOR DYNAMICALLY IDENTIFYING LOCATIONS OF MOBILE NODES IN A TIME DIVISION MULTIPLE ACCESS BASED AD HOC COMMUNICATION NETWORK [P] . 欧洲知识产权局专利： EP2163048B1 . 2010-09-01

机译：一种基于时分多址的AD HOC通信网络中动态节点位置的动态识别方法