首页> 中国专利> 一种评价整洁度的方法、装置及电子设备

一种评价整洁度的方法、装置及电子设备

摘要

本发明提供了一种评价整洁度的方法、装置及电子设备,其中,该方法包括:获取待处理的文本图像;检测出文本图像中的文本框和文本框置信度;识别出文本框中的字符和字符置信度;根据检测参数确定文本图像的检测评价值,根据识别参数确定文本图像的识别评价值,进而确定文本图像的整洁度评价值。本发明实施例提供的评价整洁度的方法、装置及电子设备,分别对文本框检测和字符识别进行评价来确定整洁度评价值,可以从检测和识别两个维度分别进行综合评价,使得最终确定的整洁度评价值更加准确。根据文本框置信度和字符置信度来表征文本的整洁度,可以更加有效地利用检测模型和识别模型所确定的置信度,使得该方法更加贴合机器评价的场景。

著录项

  • 公开/公告号CN112434668A

    专利类型发明专利

  • 公开/公告日2021-03-02

    原文格式PDF

  • 申请/专利权人 北京一起教育科技有限责任公司;

    申请/专利号CN202011465277.3

  • 发明设计人 曹润东;

    申请日2020-12-14

  • 分类号G06K9/00(20060101);G06K9/20(20060101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人柳欣

  • 地址 100102 北京市朝阳区望京东园四区7号楼13层1302室

  • 入库时间 2023-06-19 10:05:17

说明书

技术领域

本发明涉及机器评价技术领域,具体而言,涉及一种评价整洁度的方法、装置、电子设备及计算机可读存储介质。

背景技术

在语文和英语作文等自动批改场景中,因学生会有变化多样的书写风格,所展现的作文版面的整洁度情况也有着很大差异,而学生书写作文版面的整洁度对于评价该作文的分数以及帮助学生树立更好的书写习惯有着很大帮助。目前主要通过老师的经验对学生作文版面的整洁度进行打分。

市面上也存在机器打分的模型,但其主要是通过识别作文中的插入行、涂改等情况进行打分,打分效果以及可信度较差。

发明内容

为解决现有存在的技术问题,本发明实施例提供一种评价整洁度的方法、装置、电子设备及计算机可读存储介质。

第一方面,本发明实施例提供了一种评价整洁度的方法,包括:

获取待处理的文本图像;

检测出所述文本图像中的文本框,并确定所述文本框的文本框置信度,所述文本框置信度用于表示正确检测出所述文本框的概率;

识别出所述文本框中的字符,并确定所述字符的字符置信度,所述字符置信度用于表示正确识别出所述字符的概率;

根据检测参数确定所述文本图像的检测评价值,根据识别参数确定所述文本图像的识别评价值,根据所述检测评价值和所述识别评价值确定所述文本图像的整洁度评价值;其中,所述文本框置信度为一项检测参数,所述文本框置信度与所述检测评价值之间为正相关关系,所述字符置信度为一项识别参数,所述字符置信度与所述识别评价值之间为正相关关系。

第二方面,本发明实施例还提供了一种评价整洁度的装置,包括:

图像获取模块,用于获取待处理的文本图像;

检测模块,用于检测出所述文本图像中的文本框,并确定所述文本框的文本框置信度,所述文本框置信度用于表示正确检测出所述文本框的概率;

识别模块,用于识别出所述文本框中的字符,并确定所述字符的字符置信度,所述字符置信度用于表示正确识别出所述字符的概率;

评价模块,用于根据检测参数确定所述文本图像的检测评价值,根据识别参数确定所述文本图像的识别评价值,根据所述检测评价值和所述识别评价值确定所述文本图像的整洁度评价值;其中,所述文本框置信度为一项检测参数,所述文本框置信度与所述检测评价值之间为正相关关系,所述字符置信度为一项识别参数,所述字符置信度与所述识别评价值之间为正相关关系。

第三方面,本发明实施例提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述的评价整洁度的方法中的步骤。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的评价整洁度的方法中的步骤。

本发明实施例提供的评价整洁度的方法、装置、电子设备及计算机可读存储介质,根据在文本框检测过程和字符识别过程中分别确定的检测参数和识别参数,分别对文本框检测和字符识别进行评价,从而确定相应的检测评价值和识别评价值,进而综合确定文本图像的整洁度评价值。该方法通过分别对文本框检测和字符识别进行评价来确定整洁度评价值,可以从检测和识别两个维度分别进行综合评价,使得最终确定的整洁度评价值更加准确。同时,在检测过程中提取出文本框置信度,在识别过程中提取出字符置信度,根据文本框置信度和字符置信度来表征文本的整洁度,可以更加有效地利用检测模型和识别模型所确定的置信度,使得该方法更加贴合机器评价的场景。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的一种评价整洁度的方法的流程图;

图2示出了本发明实施例所提供的评价整洁度的方法中,文本图像的一种示意图;

图3示出了本发明实施例所提供的一种评价整洁度的装置的结构示意图;

图4示出了本发明实施例所提供的一种用于执行评价整洁度的方法的电子设备的结构示意图。

具体实施方式

在本发明实施例的描述中,所属技术领域的技术人员应当知道,本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此,本发明实施例可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。

上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输,包括:无线、电线、光缆、射频(Radio Frequency,RF)或者以上任意合适的组合。

可以以汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,例如:Java、Smalltalk、C++,还包括常规的过程式程序设计语言,例如:C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括:局域网(LAN)或广域网(WAN),可以连接到用户计算机,也可以连接到外部计算机。

本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

下面结合本发明实施例中的附图对本发明实施例进行描述。

图1示出了本发明实施例所提供的一种评价整洁度的方法的流程图。如图1所示,该方法包括:

步骤101:获取待处理的文本图像。

本发明实施例中,在需要对某个文本,尤其是手写文本,的整洁度进行评价时,可以通过拍照、扫描等方式生成该文本的图像,其即为待处理的文本图像。

步骤102:检测出文本图像中的文本框,并确定文本框的文本框置信度,文本框置信度用于表示正确检测出文本框的概率。

本发明实施例中,文本图像中的文本一般以多行或多列的形式表示出来,通过检测的方式即可检测出文本图像中的文本框;其中,由于文本一般是以行的形式表示,本实施例中的文本框一般为文本行框。具体地,可通过文本框检测模型进行检测,如通过CTPN(Connectionist Text Proposal Network,连接文本预选框网络)模型进行检测,CTPN模型可以准确定位图像中的文本行。本实施例中,通过对文本图像进行检测处理,可以检测出其中的所有文本框,不同的文本框具有不同的顶点坐标信息;其中,文本框一般为四边形的形状,其具有四个顶点,该顶点坐标信息即包括四个顶点的坐标。根据该顶点坐标信息可以确定相应文本框的长度、宽度,以及与其他文本框之间的距离等。

此外,在检测文本框的过程中,本发明实施例还提取出能够表征正确检测出该文本框的概率,并将该概率作为文本框的置信度,即文本框置信度。例如,通过CTPN等文本框检测模型进行检测时,其本质是检测出概率最高的文本框;例如,某一行文本可以对应文本框A,也可以对应文本框B,但根据模型检测的结果,该行文本对应是文本框A的概率为a%,对应是文本框B的概率为b%,且a>b,此时该模型即输出概率更高的文本框A,一般的文本框检测方法也只关注所检测出的文本框,即根据检测出的文本框A进行后续处理,而不会关注该文本框A的概率a%。而在本发明实施例中,在对手写的文本进行文本框检测时,若该文本写的越工整,则越能够更高概率地检测出文本框,此时的整洁度也越高;因此,本实施例在检测文本框的同时,还确定相应文本框的文本框置信度,该文本框置信度越高,说明越能高概率检测出文本框,文本图像中的文本的整洁度也越高。

步骤103:识别出文本框中的字符,并确定字符的字符置信度,字符置信度用于表示正确识别出字符的概率。

本发明实施例中,还对该文本图像进行字符识别处理,以识别出该文本图像中包含的字符。具体地,本实施例对文本框对应的文本图像进行字符识别处理,来识别出每个文本框内的字符(比如汉字等);其中,可以预先设置一个字符识别模型,比如CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)模型等,根据该字符识别模型进行字符识别处理,即可识别出文本框中的所有字符。此外,本实施例中也提取出正确识别字符的概率,并将该概率作为相应字符的字符置信度。例如,文本框中存在字符“我”,字符识别模型确定该字符是“我”的概率为80%,是“找”的概率为20%,则字符识别模型确定该字符为“我”,且该字符的字符置信度为80%。

本实施例中,置信度(包括文本框置信度和字符置信度)一般只是用于模型选择出最适合的处理结果,本实施例提供的方法根据文本框置信度和字符置信度来表征文本的整洁度,可以更加充分、有效地利用检测模型和识别模型在处理过程中所确定的置信度,使得该方法更加贴合机器评价的场景,该方法更适合用于机器评价。

步骤104:根据检测参数确定文本图像的检测评价值,根据识别参数确定文本图像的识别评价值,根据检测评价值和识别评价值确定文本图像的整洁度评价值;其中,文本框置信度为一项检测参数,文本框置信度与检测评价值之间为正相关关系,字符置信度为一项识别参数,字符置信度与识别评价值之间为正相关关系。

本发明实施例中,将该评价整洁度的方法主要分为两个过程,即步骤102所示的检测过程,以及步骤103所示的识别过程。由于检测过程和识别过程采用不同的处理方式,例如检测过程是基于CTPN等文本框检测模型实现的,识别过程是基于CRNN等字符识别模型实现的,故本实施例中将检测过程所确定的参数称为检测参数,如文本框置信度,将识别过程所确定的参数称为识别参数,如字符置信度,之后分别根据检测参数和识别参数确定该文本图像的检测评价值、识别评价值,进而结合检测评价值和识别评价值来综合确定该文本图像整体上的整洁度评价值。其中,文本框置信度与检测评价值之间为正相关关系,即文本框置信度越大,说明越容易正确检测出该文本框,该检测评价值越大,相应的整洁度评价值也越高;同样地,字符置信度与识别评价值之间为正相关关系,即字符置信度越大,说明越能唯一确定该字符是哪个字符,该字符书写地越工整,故识别评价值也越大,相应的整洁度评价值也越高。

本发明实施例提供的一种评价整洁度的方法,该方法根据在文本框检测过程和字符识别过程中分别确定的检测参数和识别参数,分别对文本框检测和字符识别进行评价,从而确定相应的检测评价值和识别评价值,进而综合确定文本图像的整洁度评价值。该方法通过分别对文本框检测和字符识别进行评价来确定整洁度评价值,可以从检测和识别两个维度分别进行综合评价,使得最终确定的整洁度评价值更加准确。同时,在检测过程中提取出文本框置信度,在识别过程中提取出字符置信度,根据文本框置信度和字符置信度来表征文本的整洁度,可以更加有效地利用检测模型和识别模型所确定的置信度,使得该方法更加贴合机器评价的场景。

在上述实施例的基础上,由于待处理的文本图像可以是用户自行提交的图像(如照片),可能导致文本图像中存在背景等干扰因素,本实施例通过预处理来准确提取出所需的文本框。本实施例中,上述步骤102“检测出文本图像中的文本框”包括:

步骤A1:对文本图像进行文本框检测处理,确定候选框以及相应的顶点坐标信息,顶点坐标信息包括顶点坐标信息。

步骤A2:根据顶点坐标信息确定确定为背景框和间框的候选框,并剔除所有候选框中的背景框和间框,并将剩余的候选框作为文本框;背景框为与文本框之间距离大于预设阈值的候选框,间框为两个文本框之间的候选框。

本发明实施例中,可以采用现有的文本框检测模型(如CTPN模型等)对文本图像进行文本框检测处理,由于现有的CTPN模型等会检测出文本图像中所有的框(包含文本框),从而导致其中可能存在不是文本框的框,例如背景框等。本实施例中,将文本框检测处理后所确定的框均称为候选框,其中包括文本框,即文本框也是一种候选框,之后根据所有候选框的顶点坐标信息来确定哪些候选框是文本框。

具体地,文本图像中包含多个文本框,且多个文本框会距离较近形成文本主体,且文本主体占大部分;而背景框是与待处理的文本主体不相关的框,其一般距离文本框较远,故可以把与文本框之间距离大于预设阈值的候选框作为背景框。如图2所示,图中左侧部分存在几个零散的候选框,这些候选框距离文本框较远,此时即可将这些候选框作为背景框。

此外,手写的文本可能存在插入字的情况,由于在同一文本行内没有可以插入字的空间,此时一般会在该文本行的上方或下方填充该字,以表示此处插入了字。在文本框检测处理时,插入的字由于与其他文本行均不在同一行,其也会被识别出存在一个候选框,由于该候选框仍然位于文本主体内,其不是背景框,本实施例中将该背景框称为间框,一般情况下,间框位于两个文本框之间。在识别出哪些候选框为背景框、哪些候选框为间框之后,即可将剩余的其他候选框作为后续待处理的文本框。

可选地,在上述步骤102“检测出文本图像中的文本框”之后,该方法还包括:

步骤A3:根据文本框的顶点坐标信息确定文本框的宽度。

本发明实施例中,文本框一般为四边形形状的框,通过该文本框的四个顶点的坐标即可确定文本框的尺寸,如长度、宽度等,本实施例只关注文本框的宽度。其中,由于文本框一般为文本行框,此处该文本框的宽度实际为高度。具体地,可以通过两个顶点的坐标确定一个宽度(高度)h1,之后再通过另外两个顶点的坐标确定另一个宽度h2,将h1和h2的平均值作为该文本框的宽度。

步骤A4:根据文本框的宽度确定文本图像中所有文本框的波动程度,并将波动程度作为一项检测参数,且波动程度与检测评价值之间为负相关关系;波动程度std为:

本发明实施例中,文本框的波动程度用于表示文本框宽度的变化程度,若多个文本框的宽度基本上相同,则波动程度较小,也可以说明该文本图像中的文本比较工整;相反地,若文本框的宽度相差较大,则说明用户(如学生)在书写不同行的文本时,用户没有保证每行的标准一致,此时的整洁度相对较差。具体地,本实施例将该波动程度作为一项检测参数,即基于文本框置信度和波动程度来综合确定检测评价值。其中,由于波动程度越大,整洁度越差,故波动程度与检测评价值之间为负相关关系。

可选地,本实施例还基于间框的占比来确定检测评价值。具体的,在上述步骤A2“根据顶点坐标信息确定确定为背景框和间框的候选框”之后,该方法还包括:

步骤A5:确定框占比,并将间框占比作为一项检测参数,框占比为文本框占比或间框占比。

其中,文本框占比为文本框的数量与总框数量的比值,且文本框占比与检测评价值之间为正相关关系;间框占比为间框的数量与总框数量的比值,且间框占比与检测评价值之间为负相关关系;总框数量为间框的数量与文本框的数量之和。

本发明实施例中,背景框为干扰评价的框,需要完全剔除;而间框对应用户书写文本时所插入的字,间框的数量越多,说明该文本图像中的文本存在越多的插入情况,整洁度也越差;本实施例中具体通过间框占比来进行评价,即确定检测评价值。本实施例中,间框占比为间框的数量与总框数量(间框的数量与文本框的数量之和)的比值,间框占比越大,说明插入字的情况越严重,整洁度也越差,故间框占比作为一项检测参数时,其与检测评价值之间为负相关关系。

此外,由于文本框占比和间框占比的之和为1,故也可以通过文本框占比来间接表示间框的比例情况。具体地,该文本框占比越大,说明间框的占比越小,整洁度也越好,故该文本框占比与检测评价值之间为正相关关系。

本实施例中,间框占比和文本框占比均为框占比,由于文本框置信度、框占比以及上述确定的波动程度均可作为检测参数,故可以结合上述多种检测参数综合确定检测评价值,使得检测评价值更加准确。

在上述实施例的基础上,上述步骤103“识别出文本框中的字符,并确定字符的字符置信度”具体包括:

步骤B1:根据训练后的字符识别模型对文本框对应的文本图像进行识别处理,识别出文本框中的正常字符和涂改字符,并确定正常字符的第一字符置信度和涂改字符的第二字符置信度。

步骤B2:将第一字符置信度和第二字符置信度均作为一项识别参数,且第一字符置信度和第二字符置信度与识别评价值之间均为正相关关系。

本发明实施例中,根据字符识别模型(如CRNN模型等)对文本图像进行识别处理;其中,该字符识别模型除了用于识别正常字符之外,还用于识别涂改字符;本实施例中,涂改字符为用户执行涂改操作后所留下的字符,该涂改字符没有具体的实际含义,但其会影响文本的整洁度。本实施例中将字符分为正常字符(可以正常识别的字符)和涂改字符,以方便识别出文本图像中哪些内容是被涂改的。同时,字符识别模型识别出正常字符时也具有相应的字符置信度,即第一字符置信度,而识别出涂改字符的置信度为第二字符置信度。第一字符置信度和第二字符置信度均为字符置信度,二者与识别评价值之间均为正相关关系。其中,识别出涂改字符的置信度(即第二字符置信度)越高,说明该字符越容易被识别,本实施例中认为整洁度仍然较高;相反,若第二字符置信度较低,首先说明该字符不是正常字符,其次该字符也难以被识别,极大概率说明该字符书写不规范,整洁度较差。

此外,本实施例中将生僻字符作为涂改字符对字符识别模型进行训练。具体地,在上述步骤B1“根据训练后的字符识别模型对文本框对应的文本图像进行识别处理”之前,该方法还包括:

步骤B3:获取第一训练样本和第二训练样本,第一训练样本包括常用字符以及相对应的字符标注,第二训练样本包括生僻字符以及涂改标签,生僻字符与涂改标签之间为多对一关系。

步骤B4:根据多个第一训练样本和多个第二训练样本对预设的字符识别模型进行训练,生成训练后的字符识别模型。

本发明实施例中,该字符识别模型的主要框架仍然可以采用现有的模型框架,如CRNN模型等,区别在于传统字符识别模型会确定所有字符对应的标注,而本实施例中会将部分生僻字符标注上涂改标签,而其余的常用字符仍然按照常规的标注方式进行标注。即,本实施例中的第一训练样本可以采用常规的训练样本,每个字符(常用字符)对应一个确定的字符标注;而第二训练样本中的字符(生僻字符)对应唯一的涂改标签,即多个生僻字符均对应同样的涂改标签,该涂改标签也可以当做是一个字符标注,只是多个生僻字符对应一个涂改标签。本发明实施例中,该生僻字符具体可以为生僻字,也可以是其他没有语义含义的符号,例如圆形、方块等。其中,可以按照人为经验将字符集中的字符划分为常用字符和生僻字符,也可以通过每个字符的使用频率对字符进行划分,本实施例对此不做限定。

在对字符识别模型进行训练时,按照常规训练方式进行训练即可。即把第一训练样本的常用字符作为输入、把相对应的字符标注作为输出,从而进行训练;同样地,把第二训练样本的生僻字符作为输入、把涂改标签作为输出,同样也可以进行训练。训练后得到的字符识别模型可以正常识别常用字符,而与涂改标签对应的字符即可认为是涂改字符。本实施例中通过生僻字符来指代涂改字符,可以方便字符识别模型学习到涂改字符的特征,进而实现对涂改字符的识别。

可选地,在步骤B1“识别出文本框中的正常字符和涂改字符”之后,该方法还包括:

步骤B5:确定字符占比,并将涂改字符占比作为一项识别参数,字符占比为正常字符占比或涂改字符占比。

其中,正常字符占比为正常字符的数量与总字符数量的比值,且正常字符占比与识别评价值之间为正相关关系;涂改字符占比为涂改字符的数量与总字符数量的比值,且涂改字符占比与识别评价值之间为负相关关系;总字符数量为涂改字符的数量与正常字符的数量之和。

本发明实施例中,由于涂改字符越多,整洁度也越差,因此可以通过涂改字符的占比来确定文本图像的识别评价值,进而能够评价整洁度。其中,涂改字符占比为涂改字符的数量与总字符数量(涂改字符的数量与正常字符的数量之和)的比值,涂改字符占比越大,说明涂改的情况越严重,整洁度也越差,故涂改字符占比作为一项识别参数时,其与识别评价值之间为负相关关系。

此外,由于正常字符占比与涂改字符占比之和为1,与上述的文本框占比表示间框占比类似,本实施例中也可以通过正常字符占比来间接表示涂改字符占比,只是正常字符占比与识别评价值之间为正相关关系。

在上述实施例的基础上,检测参数具体可以包括:文本框置信度、波动程度和间框占比(或文本框占比)等多项,识别参数具体可以包括:第一字符置信度、第二字符置信度、涂改字符占比(或正常字符占比)等多项,本实施例中可以采用加权的方式分别计算检测评价值和识别评价值,之后再确定整体的整洁度评价值。其中,由于每种置信度(包括文本框置信度、第一字符置信度、第二字符置信度)的数量为多个,本实施例具体通过置信度的平均值来计算相应的评价值。例如,文本图像存在多个文本框时,每个文本框对应一个文本框置信度,此时可以根据所有文本框置信度的平均值来计算检测评价值。

此外,该整洁度评价值用于评价文本图像的整洁度,整洁度评价值越高,说明其整洁度越好。具体的,该整洁度评价值可以为为百分制,十分制等,也可以通过进一步分段量化进行评价。例如上述的置信度以及占比等均为0~1之间的数值,其最终确定的整洁度评价值也可以是0~1之间的数值,此时可以分段量化如下:大于0.8的为很整洁,0.5~0.8的为一般整洁,0.2~0.5的为不整洁,0.2以下的为很不整洁。

上文详细描述了本发明实施例提供的评价整洁度的方法,该方法也可以通过相应的装置实现,下面详细描述本发明实施例提供的评价整洁度的装置。

图3示出了本发明实施例所提供的一种评价整洁度的装置的结构示意图。如图3所示,该评价整洁度的装置包括:

图像获取模块31,用于获取待处理的文本图像;

检测模块32,用于检测出所述文本图像中的文本框,并确定所述文本框的文本框置信度,所述文本框置信度用于表示正确检测出所述文本框的概率;

识别模块33,用于识别出所述文本框中的字符,并确定所述字符的字符置信度,所述字符置信度用于表示正确识别出所述字符的概率;

评价模块34,用于根据检测参数确定所述文本图像的检测评价值,根据识别参数确定所述文本图像的识别评价值,根据所述检测评价值和所述识别评价值确定所述文本图像的整洁度评价值;其中,所述文本框置信度为一项检测参数,所述文本框置信度与所述检测评价值之间为正相关关系,所述字符置信度为一项识别参数,所述字符置信度与所述识别评价值之间为正相关关系。

在上述实施例的基础上,所述检测模块32检测出所述文本图像中的文本框包括:

对所述文本图像进行文本框检测处理,确定候选框以及相应的顶点坐标信息;

根据所述顶点坐标信息确定确定为背景框和间框的候选框,并剔除所有所述候选框中的所述背景框和所述间框,并将剩余的所述候选框作为文本框;所述背景框为与所述文本框之间距离大于预设阈值的候选框,所述间框为两个文本框之间的候选框。

在上述实施例的基础上,所述检测模块32在检测出所述文本图像中的文本框之后,还用于:

根据所述文本框的顶点坐标信息确定所述文本框的宽度;

根据所述文本框的宽度确定所述文本图像中所有所述文本框的波动程度,并将所述波动程度作为一项检测参数,且所述波动程度与所述检测评价值之间为负相关关系;所述波动程度std为:

在上述实施例的基础上,所述检测模块32在根据所述顶点坐标信息确定确定为背景框和间框的候选框之后,还用于:

确定框占比,并将所述间框占比作为一项检测参数,所述框占比为文本框占比或间框占比;

其中,所述文本框占比为所述文本框的数量与总框数量的比值,且所述文本框占比与所述检测评价值之间为正相关关系;

所述间框占比为所述间框的数量与总框数量的比值,且所述间框占比与所述检测评价值之间为负相关关系;所述总框数量为所述间框的数量与所述文本框的数量之和。

在上述实施例的基础上,所述识别模块33识别出所述文本框中的字符,并确定所述字符的字符置信度,包括:

根据训练后的字符识别模型对所述文本框对应的文本图像进行识别处理,识别出所述文本框中的正常字符和涂改字符,并确定所述正常字符的第一字符置信度和所述涂改字符的第二字符置信度;

将所述第一字符置信度和所述第二字符置信度均作为一项识别参数,且所述第一字符置信度和所述第二字符置信度与所述识别评价值之间均为正相关关系。

在上述实施例的基础上,所述识别模块33识别出所述文本框中的正常字符和涂改字符之后,还用于:

确定字符占比,并将所述涂改字符占比作为一项识别参数,所述字符占比为正常字符占比或涂改字符占比;

其中,所述正常字符占比为所述正常字符的数量与总字符数量的比值,且所述正常字符占比与所述识别评价值之间为正相关关系;

所述涂改字符占比为所述涂改字符的数量与总字符数量的比值,且所述涂改字符占比与所述识别评价值之间为负相关关系;所述总字符数量为所述涂改字符的数量与所述正常字符的数量之和。

在上述实施例的基础上,还包括训练模块;

在所述识别模块33根据训练后的字符识别模型对所述文本框对应的文本图像进行识别处理之前,所述训练模块用于:

获取第一训练样本和第二训练样本,所述第一训练样本包括常用字符以及相对应的字符标注,所述第二训练样本包括生僻字符以及涂改标签,所述生僻字符与所述涂改标签之间为多对一关系;

根据多个所述第一训练样本和多个所述第二训练样本对预设的字符识别模型进行训练,生成训练后的字符识别模型。

本发明实施例提供的一种评价整洁度的装置,该装置根据在文本框检测过程和字符识别过程中分别确定的检测参数和识别参数,分别对文本框检测和字符识别进行评价,从而确定相应的检测评价值和识别评价值,进而综合确定文本图像的整洁度评价值。该装置通过分别对文本框检测和字符识别进行评价来确定整洁度评价值,可以从检测和识别两个维度分别进行综合评价,使得最终确定的整洁度评价值更加准确。同时,在检测过程中提取出文本框置信度,在识别过程中提取出字符置信度,根据文本框置信度和字符置信度来表征文本的整洁度,可以更加有效地利用检测模型和识别模型所确定的置信度,使得该装置更加贴合机器评价的场景。

此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述评价整洁度的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

具体的,参见图4所示,本发明实施例还提供了一种电子设备,该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中,该电子设备还包括:存储在存储器1150上并可在处理器1120上运行的计算机程序,计算机程序被处理器1120执行时实现上述评价整洁度的方法实施例的各个过程。

收发器1130,用于在处理器1120的控制下接收和发送数据。

本发明实施例中,总线架构(用总线1110来代表),总线1110可以包括任意数量互联的总线和桥,总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。

处理器1120可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

总线1110还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口1140在总线1110和收发器1130之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器1130从其他设备接收外部数据,收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口1160,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解,在本发明实施例中,存储器1150可进一步包括相对于处理器1120远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。

应理解,本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器,或可包括易失性存储器和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。

易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中,存储器1150存储了操作系统1151和应用程序1152的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。

具体而言,操作系统1151包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。

此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述评价整洁度的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。

在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号