公开/公告号CN113836971A
专利类型发明专利
公开/公告日2021-12-24
原文格式PDF
申请/专利权人 中国人寿资产管理有限公司;
申请/专利号CN202010580263.X
发明设计人 翟晓刚;
申请日2020-06-23
分类号G06K9/00(20060101);G06K9/34(20060101);
代理机构11762 北京一品慧诚知识产权代理有限公司;
代理人邓树山
地址 100033 北京市西城区金融大街17号
入库时间 2023-06-19 13:49:36
技术领域
本发明涉及文档处理领域,尤其涉及一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质。
背景技术
PDF(Portable Document Format,译为可移植文档格式),是一种常用的电子文件格式,在多类型操作系统具有较高的通用性和兼容性,可保证文件传输过程中数据信息不被修改或不因为编码类型导致发生变化,因此PDF被作为一种文件信息传递的主流形式。PDF文件可防止他人无意中触到键盘修改文件内容,但同时也造成修改不便的结果,且难以转换其他文件格式。
发明内容
针对现有技术存在的问题,本发明提供了一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质。
为了解决上述技术问题,本发明提供以下技术方案:
一种图像型扫描件识别后的视觉信息重现方法,包括以下步骤:
S1:建立字宽像素、行间距像素与word文档中字体库字体、行间距大小的对照表;
S2:上传图像型扫描件PDF;
S3:对所述图像型扫描件PDF逐页切割成图片格式并对图片进行预处理;
S4:通过基于深度学习和计算机视觉技术的文本行检测算法计算图像型扫描件PDF所有切割图片的文字行区域的位置信息,即计算出行区域内的每个字的字宽像素和所有文本行区域的起始坐标信息和结束坐标信息;
S5:通过基于深度学习的OCR文字识别技术,识别出所有行检测区域内的文字内容;
S6:计算出行检测区域中文字包括标点符号的个数;
S7:通过文本行区域的起始坐标和结束坐标信息计算出的行宽及行文字个数计算出文字的平均宽度像素,并将文字的平均宽度像素与步骤S4计算出的字宽像素进行比较,取较小值定为最终字宽像素值;
S8:将步骤S7所得的字宽像素值带入到对照表,得到对应的字体和字体大小,并把所述字体、字号与行检测区域位置信息进行匹配对应;
S9:根据文本行区域的起始坐标信息和结束坐标信息计算出行间距像素并带入对照表,得到对应的行间距大小,同时计算段落视觉信息,确定是否为段首;
S10:根据字体、字号、行间距及段落视觉信息输出可编辑word文档。
进一步的,所述步骤S1包括:建立所有字宽像素、行间距像素与word中常用字体、字号、行间距大小的对应关系。
进一步的,所述步骤S2包括:上传图像型扫描件PDF时执行本地化加密程序。
进一步的,所述步骤S3预处理包括:使用印章去除、倾斜校正、噪音去除等。
进一步的,所述步骤S4包括:图像型扫描件PDF为长文本,对长文本图像型扫描件图片进行逐页分析处理,实现文本行区域检测与行区域定位,分析计算出每个行区域的起始坐标信息以及结束坐标信息。
进一步的,所述步骤S9包括:根据相邻行区域起始坐标信息和结束坐标信息,通过计算高位行的结束坐标与低位行的起始坐标信息的行高的差值确定行间距像素,再通过计算高位行与低位行的起始坐标信息的行宽的差值确定段落视觉信息。
进一步的,所述步骤S9确定段首:通过计算相邻行的起始坐标的行宽差值为S7计算出文字的宽度像素的大约2倍,即标记为段首,行前面空两格。
本发明提供一种图像型扫描件识别后的视觉信息重现方法,通过所述步骤S4至S8的字宽像素查找字体、字号、行间距的对照表,得到相应的字号,并通过所述步骤S9计算出段首,分析出段首空2个文字。
本发明提供的一种图像型扫描件识别后的视觉信息重现系统,所述系统在本地CPU服务器上进行加载,且系统为多用户并发使用,所述图像型扫描件识别后的视觉信息重现系统为图像型扫描件识别内容视觉信息恢复系统,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述任一项所述的图像型扫描件识别后的视觉信息重现方法。
本发明提供的一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现上述任一项所述的图像型扫描件识别后的视觉信息重现方法。
本发明提供的一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质,通过该方法可以实现多用户并发使用该系统上传图像型扫描件PDF文件开展视觉信息重现系统,系统采用基于计算机视觉的视觉信息分析算法,分析图像型扫描件PDF内容对应的字体和排版样式等视觉信息,输出相应视觉信息的可编辑word文档,用户上传信息具有保密性,安全且易操作,快速实现PDF转换格式。
附图说明
图1为本发明的实施例架构示意图。
图2为本发明的实施例实施流程图。
图3为本发明的实施例文本行区域检测结果示意图。
图4为本发明视觉信息恢复系统处理前后的PDF文件与word文件。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1与图2所示,本发明提供了一种图像型扫描件识别后的视觉信息重现系统,该系统在本地CPU服务器上进行加载,且系统为多用户并发使用,本发明的图像型扫描件识别后的视觉信息重现系统为图像型扫描件识别内容视觉信息恢复系统,图像型扫描件PDF通过在该系统上进行一系列处理步骤,实现将图像型扫描件PDF转换为可编辑word文档。
处理步骤包括以下:
首先,建立字宽像素、行间距像素与word文档中字体库字体、行间距大小的对照表;
建立所有字宽像素、行间距像素与word中常用字体、字号、行间距大小的对应关系。
其次,将图像型扫描件PDF上传到内容视觉信息恢复系统上,系统获取到图像型扫描件PDF;
系统在获取图像型扫描件PDF过程中执行本地化加密程序。
再次,对图像型扫描件PDF逐页切割成图片格式并对图片进行预处理;
执行用于降低获取图像型扫描件PDF阻碍的干扰因素的预处理,预处理步骤包括使用印章去除、倾斜校正、噪音去除等。
然后,通过基于深度学习和计算机视觉技术的文本行检测算法计算图像型扫描件PDF所有切割图片的文字行区域的位置信息,即计算出字宽L
本发明的图像型扫描件PDF为长文本,通过对长文本图像型扫描件PDF进行逐页分析处理,实现文本行区域检测与行区域定位,分析计算出每个文本行区域的起始坐标信息以及结束坐标信息;
同一行的行位置信息为:文本行区域起始坐标记为P
然后再通过基于深度学习的OCR文字识别技术,识别出所有文本行检测区域内的文字内容;
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
进一步的,计算出行检测区域中文字包括标点符号的个数,记为SUM;
通过已获得的行宽W及行文字个数SUM计算出文字的平均宽度像素,文字的平均宽度像素记为
进一步将所得的字宽像素值L带入到对照表上,得到对应的字体、字体大小,并把所述字体与行检测区域位置信息进行匹配对应;
再进一步根据文本行起始坐标信息和结束坐标信息计算出行间距像素并带入对照表,得到对应的行间距大小,同时计算段落视觉信息,确定是否为段首;
先确定相邻行区域起始坐标信息和结束坐标信息,相邻行包括高位行与低位行,再通过计算高位行结束坐标信息与低位行的开始坐标信息的行高的差值确定行间距像素,接着通过计算高位行与低位行的开始坐标信息的行宽的差值确定段落视觉信息。
例如图3所示,获取当前文本相邻行的起始坐标信息与结束坐标信息,其中坐标
通过以下式子计算相邻行的行间距像素:
将计算结果与对照表进行对应,确定文本行间距;
再通过以下式子计算相邻行的起始坐标的宽度差值,获得段落视觉信息;
从上述式子中得出:计算出的相邻行的宽度差值是为正数,且该正数可能是整数值也可能是非整数值,即若计算出的宽度差值约等于所述文字的平均宽度像素
如图4所示,图像型扫描件PDF通过基于深度学习和计算机视觉技术的文本行检测算法与基于深度学习的OCR文字识别技术,以及一系列计算,最后根据字体、字体大小、行间距及段落视觉信息输出可编辑的word文档,图4所示左边的文本为图像型扫描件PDF源文件,图4所示右边的文本为视觉信息恢复后的word文档内容。
在本发明中,通过步骤S4至S8的字宽像素查找字体、字体大小的对照表,得到相应的字体、字号,并通过步骤S9计算出段首,分析出段首空2个文字的平均宽度像素。
本发明提供了一种图像型扫描件识别后的视觉信息重现系统,所述系统在本地CPU服务器上进行加载,且系统为多用户并发使用,所述图像型扫描件识别后的视觉信息重现系统为图像型扫描件识别内容视觉信息恢复系统,包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现上述任一项所述的图像型扫描件识别后的视觉信息重现方法。
本发明还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现上述任一项所述的图像型扫描件识别后的视觉信息重现方法。
本发明通过在本地CPU服务器上加载图像型扫描件识别内容视觉信息恢复系统,建立字宽像素、行间距像素与word文档中字体库字体大小的对照表,用户上传待视觉信息重现的图像型扫描件PDF,上传图像型扫描件PDF过程中系统执行保密程序,接着对图像型扫描件PDF进行预处理,再采用系统采用基于计算机视觉的视觉信息分析算法与基于深度学习的OCR文字识别技术,计算出字宽L
本发明的图像型扫描件识别内容视觉信息恢复系统支持多用户并发上传,彼此互不影响,且上传文件具有保密性,不会因此泄露用户资料。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
机译: 图像扫描系统,扫描图像处理设备,用于其执行的计算机可读存储介质存储程序,图像扫描方法和扫描图像处理方法
机译: 视网膜扫描型图像投影装置,视网膜扫描型图像投影方法和视网膜扫描型图像投影系统
机译: 图像重现系统以比输入扫描更细的间距提供重现