法律状态公告日
法律状态信息
法律状态
2023-08-25
实质审查的生效 IPC(主分类):G06V30/422 专利申请号:2023105364728 申请日:20230512
实质审查的生效
2023-08-08
公开
发明专利申请公布
技术领域
本发明涉及图像辨析技术领域,具体为电气图纸中多行文字和/或多角度文字识别方法及系统。
背景技术
在对电气图纸进行识别信息的过程中发现文字的识别至关重要,因为文字信息不仅能够反应图纸中的大量信息,而且对图纸中的逻辑关系也起到很大的作用。然而不同的电气图纸由于生产厂家不同而具有不同风格,相对于常规的单行的文字识别,复杂格式的文字往往无法较好被识别出来,尤其是对于多角度以及多行格式的文字。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了电气图纸中多行文字和/或多角度文字识别方法及系统,解决了相对于常规的单行的文字识别,复杂格式的文字往往无法较好被识别出来的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,提供了一种电气图纸中多行文字识别方法,包括:
检测多行文字所在区域;
确定各所述多行文字区域的区域坐标,并根据所述区域坐标对所述原始图片进行坐标提取,得到提取后的图片;
对提取的多行文字所在区域,进行单行文字检测;
将属于同一多行文字区域的单行文字进行拼接。
优选的,所述检测多行文字所在区域,通过YOLOv5目标检测算法实现,具体包括:
通过AutoCAD根据实际电气工程要求设计绘制生成PDF,再转化为计算机可处理的图像格式;
对图像中的多行文字所在区域进行标注并训练出模型权重,将此权重用于检测电气设计图纸中的多行文字区域。
优选的,所述确定各所述多行文字区域的区域坐标,并根据所述区域坐标对所述原始图片进行坐标提取,得到提取后的图片,具体包括:
通过YOLOv5算法中设置save-txt参数,将检测出的多行文字区域坐标保留在TXT文档中;
根据所述TXT文档中保留的所述区域坐标对所述目标图片进行提取,保存得到新的图片。
第二方面,提供了一种电气图纸中多行文字识别系统,包括:
多行文字检测模块,用于检测多行文字所在区域;
文字提取模块,用于确定各所述多行文字区域的区域坐标,并根据所述区域坐标对所述原始图片进行坐标提取,得到提取后的图片;
单行文字检测模块,用于对提取的多行文字所在区域,进行单行文字检测;
拼接模块,用于将属于同一多行文字区域的单行文字进行拼接。
优选的,所述多行文字检测模块具体包括:
标注单元,用于对原始图片中的多行文字所在区域进行标注;
训练单元,用于利用标注后的样本图片训练YOLOv5目标检测模型;
检测单元,用于利用训练好的YOLOv5目标检测模型检测原始图片中的多行文字所在区域。
优选的,所述文字提取模块具体包括:
坐标保存单元,用于在所述多行文字区域检测时,在所述YOLOv5目标检测模型中设置save-txt参数,将检测出的所述多行文字所在区域的坐标保留在TXT文档中;
裁切单元,用于根据所述TXT文档中保留的所述区域坐标对原始图片进行裁切,得到裁切后的多行文字图片。
第三方面,提供了一种电气图纸中多角度文字识别方法,包括:
检测文字所在区域;
将识别结果保留坐标,将文字所在区域进行提取;
对文字图片进行三次旋转,分别为90度、180度、270度,并保存;
通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果;
后续的文字识别暂时按照该文字的角度进行旋转,若置信度低于阈值,则重复检测文字所在区域,高于阈值则作为输出结果。
第四方面,提供了一种电气图纸中多角度文字识别系统,包括:
文字检测模块,用于利用YOLOv5目标检测模型检测文字所在区域;
文字提取模块,用于确定各所述文字区域的区域坐标,并根据所述区域坐标对所述原始图片进行坐标提取,得到提取后的图片;
文字旋转模块,用于将上述文字提取图片分别进行90度、180度、270度三次旋转;
文字方向识别模块,用于通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果。
第五方面,提供了一种电气图纸中多行文字和多角度文字识别方法,包括:
通过YOLOv5目标检测算法,检测多行文字所在区域;
将识别结果保留坐标,将多行文字所在区域提取;
对提取的多行文字区域,再通过YOLOv5目标检测算法,进行单行文字检测;
将属于同一多行文字区域的单行文字进行拼接;
对于检测出的单行文字,对文字图片进行三次旋转,分别为90度、180度、270度,并保存;
通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果;
后续的文字暂时按照该文字的角度进行旋转,若置信度低于阈值,则重复检测多行文字所在区域,高于阈值则作为输出结果。
第六方面,提供了一种电气图纸中多行文字和多角度文字识别系统,包括:
多行文字检测模块,用于通过YOLOv5目标检测算法,检测多行文字所在区域;
文字提取模块,用于将识别结果保留坐标,将多行文字所在区域提取;
单行文字检测模块,用于对提取的多行文字区域,再通过YOLOv5目标检测算法,进行单行文字检测;
拼接模块,用于将属于同一多行文字区域的单行文字进行拼接;
文字旋转模块,用于对于检测出的单行文字,对文字图片进行三次旋转,分别为90度、180度、270度,并保存;
文字方向识别模块,用于通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果;
判断模块,用于对后续的文字暂时按照该文字的角度进行旋转,若置信度低于阈值,则重复检测多行文字所在区域,高于阈值则作为输出结果。
(三)有益效果
本发明电气图纸中多行文字和/或多角度文字识别方法及系统,解决了相对于常规的单行的文字识别,复杂格式的文字往往无法较好被识别出来的问题。
附图说明
图1为本发明实施例中多行文字和/或多角度文字识别方法流程示意图;
图2为本发明实施例中提供的多行文字区域图;
图3为本发明实施例中提供的对多行文字区域图再次进行文字检测图;
图4为本发明实施例中提供的拼接文字图;
图5为本发明实施例中提供的多角度文字检测图。
具体实施方式
下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明实施例提供了一种电气图纸中多行文字识别方法,包括:
检测多行文字所在区域;
确定各多行文字区域的区域坐标,并根据区域坐标对原始图片进行坐标提取,得到提取后的图片;
对提取的多行文字所在区域,进行单行文字检测;
将属于同一多行文字区域的单行文字进行拼接。
优选的,检测多行文字所在区域,通过YOLOv5目标检测算法实现,具体包括:
通过AutoCAD根据实际电气工程要求设计绘制生成PDF,再转化为计算机可处理的图像格式;
对图像中的多行文字所在区域进行标注并训练出模型权重,将此权重用于检测电气设计图纸中的多行文字区域。
优选的,确定各多行文字区域的区域坐标,并根据区域坐标对原始图片进行坐标提取,得到提取后的图片,具体包括:
通过YOLOv5算法中设置save-txt参数,将检测出的多行文字区域坐标保留在TXT文档中;
根据TXT文档中保留的区域坐标对目标图片进行提取,保存得到新的图片。
本发明实施例提供了一种电气图纸中多行文字识别系统,包括:
多行文字检测模块,用于检测多行文字所在区域;
文字提取模块,用于确定各多行文字区域的区域坐标,并根据区域坐标对原始图片进行坐标提取,得到提取后的图片;
单行文字检测模块,用于对提取的多行文字所在区域,进行单行文字检测;
拼接模块,用于将属于同一多行文字区域的单行文字进行拼接。
优选的,多行文字检测模块具体包括:
标注单元,用于对原始图片中的多行文字所在区域进行标注;
训练单元,用于利用标注后的样本图片训练YOLOv5目标检测模型;
检测单元,用于利用训练好的YOLOv5目标检测模型检测原始图片中的多行文字所在区域。
优选的,文字提取模块具体包括:
坐标保存单元,用于在多行文字区域检测时,在YOLOv5目标检测模型中设置save-txt参数,将检测出的多行文字所在区域的坐标保留在TXT文档中;
裁切单元,用于根据TXT文档中保留的区域坐标对原始图片进行裁切,得到裁切后的多行文字图片。
本发明实施例提供了一种电气图纸中多角度文字识别方法,包括:
检测文字所在区域;
将识别结果保留坐标,将文字所在区域进行提取;
对文字图片进行三次旋转,分别为90度、180度、270度,并保存;
通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果;
后续的文字识别暂时按照该文字的角度进行旋转,若置信度低于阈值,则重复检测文字所在区域,高于阈值则作为输出结果。
本发明实施例提供了一种电气图纸中多角度文字识别系统,包括:
文字检测模块,用于利用YOLOv5目标检测模型检测文字所在区域;
文字提取模块,用于确定各文字区域的区域坐标,并根据区域坐标对原始图片进行坐标提取,得到提取后的图片;
文字旋转模块,用于将上述文字提取图片分别进行90度、180度、270度三次旋转;
文字方向识别模块,用于通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果。
本发明实施例提供了一种电气图纸中多行文字和多角度文字识别方法,包括:
通过YOLOv5目标检测算法,检测多行文字所在区域;
将识别结果保留坐标,将多行文字所在区域提取;
对提取的多行文字区域,再通过YOLOv5目标检测算法,进行单行文字检测;
将属于同一多行文字区域的单行文字进行拼接;
对于检测出的单行文字,对文字图片进行三次旋转,分别为90度、180度、270度,并保存;
通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果;
后续的文字暂时按照该文字的角度进行旋转,若置信度低于阈值,则重复检测多行文字所在区域,高于阈值则作为输出结果。
本发明实施例提供了一种电气图纸中多行文字和多角度文字识别系统,包括:
多行文字检测模块,用于通过YOLOv5目标检测算法,检测多行文字所在区域;
文字提取模块,用于将识别结果保留坐标,将多行文字所在区域提取;
单行文字检测模块,用于对提取的多行文字区域,再通过YOLOv5目标检测算法,进行单行文字检测;
拼接模块,用于将属于同一多行文字区域的单行文字进行拼接;
文字旋转模块,用于对于检测出的单行文字,对文字图片进行三次旋转,分别为90度、180度、270度,并保存;
文字方向识别模块,用于通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果;
判断模块,用于对后续的文字暂时按照该文字的角度进行旋转,若置信度低于阈值,则重复检测多行文字所在区域,高于阈值则作为输出结果。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供一种电气图纸中多行文字和多角度文字识别方法,包括:
S1:通过YOLOv5目标检测算法,检测文字所在区域。
通过将原始的电气图纸为图像格式;之后对图像中的文字所在区域进行标注并训练出模型权重,将此权重用于检测电气图纸图片中的文字区域。具体为,步骤S1包括:
S11:通过AutoCAD根据实际电气工程要求设计绘制生成PDF,再转化为计算机可以处理的图像格式;
S12:对图像中的文字所在区域进行标注并训练出模型权重,将此权重用于检测电气设计图纸中的文字区域;
S13:利用训练好的YOLOv5目标检测模型检测所述目标图片中的所述文字所在区域。
S2:将文字区域识别结果保留坐标,将该区域提取另存为新的图片。
通过YOLOv5算法中设置save-txt参数,将检测出的文字区域坐标保留在TXT文档中;将YOLO格式TXT标注文件转换为VOC格式XML标注文件;通过OpenCV读取XML中的信息,在原图中进行裁切,并保存裁切的图片,如图2所示。具体为,步骤S2包括:
S21:通过YOLOv5算法中设置save-txt参数,将检测出的文字区域坐标保留在TXT文档中;
S22:根据所述TXT文档中保留的所述区域坐标对所述目标图片进行裁切,得到裁切的图片。具体为,
将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件;
读取所述XML标注文件中保留的所述区域坐标,并对所述原始图片进行裁切,得到所述裁切的图片。
将图片中检测出的多行文字区域坐标保留,并转化为XML格式,通过OpenCV根据XML中的坐标信息,对原图再进行检测,检测后的图片如图3所示。
S3:将属于同一多行文字区域的单行文字进行拼接,如图4所示。
S4:将图片中检测出的单行文字区域进行三次旋转,分别为90度、180度、270度,并保存。
S5:通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果。
S6:后面的文字暂时按照该文字的角度进行旋转,若置信度低于阈值,则重复第一步,高于阈值则作为输出结果,最后按照前三步,直到所有文字识别完成,如图5示。
本实施例中,能够解决实际电气图纸中复杂文字无法检测的问题,相比于直接进行文本检测方法,有很强的实用性,可靠性较高,能够改善文本的检测结果,提高检测算法的准确性。
实施例2
本实施例提供一种电气图纸中多行文字和多角度文字识别系统,包括:
文字检测模块M1,用于利用YOLOv5目标检测模型检测文字所在区域。
所述文字检测模块M1具体包括:
标注单元,用于对原始图片中的文字所在区域进行标注;
训练单元,用于利用标注后的样本图片训练YOLOv5目标检测模型;
检测单元,用于利用训练好的YOLOv5目标检测模型检测所述原始图片中的文字所在区域。
文字区域提取模块M2,用于确定各所述文字区域的区域坐标,并根据所述区域坐标对所述原始图片进行区域裁切,得到裁切图片。
所述文字区域提取模块M2具体包括:
坐标保存单元,用于在所述文字区域检测时,在所述YOLOv5目标检测模型中设置save-txt参数,将检测出的所述文字所在区域的坐标保留在TXT文档中;
裁切单元,用于根据所述TXT文档中保留的所述区域坐标对原始图片进行裁切,得到裁切的文字区域图片。
具体的,所述裁切单元包括:
文件格式转换子单元,用于将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件;
裁切子单元,用于读取所述XML标注文件中保留的所述区域坐标,并对所述原始图片进行裁切,得到裁切的文字图片。
拼接模块M3,用于将属于同一多行文字区域的单行文字进行拼接。
文字旋转模块M4,用于将上述文字提取图片分别进行90度、180度、270度三次旋转。
文字方向识别模块M5,用于通过OCR识别四个方向的文字,并选出置信度最高的方向的文字识别结果作为输出结果。
本说明书中每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制
本申请的实施例可提供为方法或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
机译: 象形文字识别装置,象形文字识别系统和象形文字识别方法
机译: 图像文字检测装置,图像文字识别系统和图像文字识别方法
机译: 文字识别系统,文字工具和文字识别方法