首页> 中国专利> 一种获得数学对象标注模型、数学对象标注的方法和装置

一种获得数学对象标注模型、数学对象标注的方法和装置

摘要

本申请公开了一种获得数学对象标注模型、数学对象标注的方法和装置,获得数学对象标注模型的方法包括:利用第一数学对象图像和标注信息训练深度神经网络获得数学对象标注模型;该第一数学对象图像的数量小于预设数量;将第二数学对象图像输入对应的数学对象标注模型,获得第二数学对象图像的初始标注信息;根据初始标注信息和初始标注信息的修正信息,获得第二数学对象图像的修正标注信息;利用第二数学对象图像和修正标注信息,训练数学对象标注模型获得目标数学对象标注模型。数学对象标注的方法包括:在上述基础上,确定待标注数学对象图像;将待标注数学对象图像输入对应的目标数学对象标注模型,获得待标注数学对象图像的标注信息。

著录项

  • 公开/公告号CN112699887A

    专利类型发明专利

  • 公开/公告日2021-04-23

    原文格式PDF

  • 申请/专利权人 科大讯飞股份有限公司;

    申请/专利号CN202011621526.3

  • 发明设计人 牛雪静;章继东;何春江;陈明军;

    申请日2020-12-30

  • 分类号G06K9/34(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人柳欣

  • 地址 230088 安徽省合肥市高新区望江西路666号

  • 入库时间 2023-06-19 10:43:23

说明书

技术领域

本申请涉及图像处理技术领域,尤其涉及一种获得数学对象标注模型、数学对象标注的方法和装置。

背景技术

随着深度神经网络的快速发展,基于深度神经网络的相关技术取得了突破性的成果,达到超越人类的水平。在字符识别领域中,深度神经网络也得到广泛的应用。

虽然基于深度神经网络的字符识别技术超越了传统的光学字符识别技术;但是深度神经网络的参数量大、更复杂,需要大量的训练样本以防止训练得到的模型过拟合,而大量的训练样本通常需要人工标注。尤其是在数学对象标注领域中,为了得到较为准确的基于深度神经网络的数学对象标注模型,通常需要对大量的数学对象图像中数学对象进行人工标注得到标注信息,以形成大量的训练样本。

发明人经过研究发现,大量的人工标注需要耗费大量的人力;大量的人工标注使得标注过程中存在很多重复的操作,且有些数学对象的标注操作本身较为繁琐、复杂,导致人工标注的标注信息容易出现各种各样的错误;该错误无法被及时发现,导致标注信息的质量下降;从而导致后续使用该训练样本中该标注信息得到的数学对象标注模型不够准确,容易出现不可预测的问题。

发明内容

有鉴于此,本申请实施例提供一种获得数学对象标注模型、数学对象标注的方法和装置,能够节省大量的人力,有效减少人工标注过程中存在的重复操作;有效提高标注信息的质量;从而使得数学对象标注模型更加准确,尽量避免出现不可预测的问题,以便提高数学对象标注准确率。

第一方面,本申请实施例提供了一种获得数学对象标注模型的方法,所述方法包括:

基于第一数学对象图像和标注信息,对深度神经网络进行训练获得数学对象标注模型;所述第一数学对象图像的数量小于预设数量;

将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息;

根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息;

基于所述第二数学对象图像和所述修正标注信息,对所述数学对象标注模型进行训练获得目标数学对象标注模型。

可选的,所述第一数学对象图像包括第一完整实例图像,所述标注信息包括完整实例包围框位置信息和实例类别标签,所述数学对象标注模型包括完整实例检测模型;和/或,

所述第一数学对象图像包括第一完整实例包围框图像,所述标注信息包括单个实例包围框位置信息和单个实例掩码信息,所述数学对象标注模型包括单个实例检测分割模型,所述单个实例检测分割模型包括单个实例检测子模型和单个实例分割子模型;和/或,

所述第一数学对象图像包括第二单个实例包围框图像,所述第二单个实例包围框图像是基于所述单个实例掩码信息处理后的第一单个实例包围框图像,所述标注信息包括各行掩码信息,所述数学对象标注模型包括行检测分割模型;和/或,

所述第一数学对象图像包括所述行掩码信息对应的第一行内容图像,所述标注信息包括行内容中各个字符信息,所述数学对象标注模型包括行内容识别模型;

其中,所述实例包括数学题干或数学作答。

可选的,所述将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息,包括:

将第二完整实例图像输入所述完整实例检测模型,获得所述第二完整实例图像的完整实例包围框预测位置信息和实例类别预测标签;

对应地,所述根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息,包括:

获取所述完整实例包围框预测位置信息和所述实例类别预测标签的第一修正信息;所述第一修正信息包括所述完整实例包围框预测位置信息的修改信息、删除信息、新增信息,以及所述实例类别预测标签的修改信息、删除信息、新增信息中一个或多个;

利用所述第一修正信息调整所述完整实例包围框预测位置信息和所述实例类别预测标签,获得所述第二完整实例图像的完整实例包围框修正位置信息和实例类别修正标签。

可选的,所述将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息,包括:

基于所述完整实例包围框修正位置信息,获得所述第二完整实例图像中第二完整实例包围框图像;

将所述第二完整实例包围框图像输入所述单个实例检测分割模型中单个实例检测子模型,获得所述第二完整实例包围框图像的单个实例包围框预测位置信息;

对应地,所述根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息,包括:

获取所述单个实例包围框预测位置信息的第二修正信息;所述第二修正信息包括所述单个实例包围框预测位置信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第二修正信息调整所述单个实例包围框预测位置信息,获得所述第二完整实例包围框图像的单个实例包围框修正位置信息。

可选的,所述将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息,包括:

基于所述单个实例包围框修正位置信息,获得所述第二完整实例图像中所述单个实例包围框修正位置信息对应的第三单个实例包围框图像;

将所述第三单个实例包围框图像输入所述单个实例检测分割模型中单个实例分割子模型,获得所述第三单个实例包围框图像的单个实例预测掩码信息;

对应地,所述根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息,包括:

获取所述单个实例预测掩码信息的第三修正信息;所述第三修正信息具体为所述单个实例预测掩码信息的修改信息;

利用所述第三修正信息调整所述单个实例预测掩码信息,获得所述第三单个实例包围框图像的单个实例修正掩码信息。

可选的,所述将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息,包括:

基于所述单个实例修正掩码信息处理所述第三单个实例包围框图像,获得第四单个实例包围框图像;

将所述第四单个实例包围框图像输入所述行检测分割模型,获得所述第四单个实例包围框图像的各行预测掩码信息;

对应地,所述根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息,包括:

获取所述各行预测掩码信息的第四修正信息;所述第四修正信息包括所述各行预测掩码信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第四修正信息调整所述各行预测掩码信息,获得所述第四单个实例包围框图像的各行修正掩码信息。

可选的,所述将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息,包括:

针对每行修正掩码信息,获得第四单个实例包围框图像中所述行修正掩码信息对应的第二行内容图像;

基于所述行内容识别模型和预设字典识别所述第二行内容图像,获得所述第二行内容图像的行内容中各个预测字符信息;

对应地,所述根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息,包括:

获取所述行内容中各个预测字符信息的第五修正信息;所述第五修正信息包括所述行内容中各个预测字符信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第五修正信息调整所述行内容中各个预测字符信息,获得所述第二行内容图像的行内容中各个修正字符信息。

可选的,还包括:

计算所述行内容中各个预测字符信息的预测概率;

若所述预测概率小于预设概率,向标注信息修正用户突出显示所述预测概率所对应的预测字符信息。

可选的,还包括:

若所述预设字典不存在所述修正字符信息,向标注信息修正用户显示所述修正字符信息的相似字符信息;所述相似字符信息是基于所述修正字符信息在所述预设字典中确定的;

若所述标注信息修正用户确定所述修正字符信息错误,基于所述相似字符信息修正所述修正字符信息;

若所述标注信息修正用户确定所述修正字符信息正确,将所述修正字符信息增加至所述预设字典。

可选的,还包括:

当初始标注信息为多个时,若第M+1个初始标注信息与第M个初始标注信息的重合率大于第一预设重合率,过滤所述第M+1个初始标注信息,M为正整数;和/或,

当所述修正信息为多个时,若第N+1个修正信息与第N个修正信息的重合率大于第二预设重合率,过滤所述第N+1个修正信息,N为正整数。

可选的,还包括:

利用结构化文件存储所述第二数学对象图像和所述修正标注信息。

第二方面,本申请实施例提供了一种数学对象标注的方法,利用上述第一方面任一项所述的目标数学对象标注模型,所述方法包括:

确定待标注数学对象图像;

将所述待标注数学对象图像输入对应的目标数学对象标注模型,获得所述待标注数学对象图像的标注信息。

第三方面,本申请实施例提供了一种获得数学对象标注模型的装置,所述装置包括:

第一获得单元,用于基于第一数学对象图像和标注信息,对深度神经网络进行训练获得数学对象标注模型;所述第一数学对象图像的数量小于预设数量;

第二获得单元,用于将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息;

第三获得单元,用于根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息;

第四获得单元,用于基于所述第二数学对象图像和所述修正标注信息,对所述数学对象标注模型进行训练获得目标数学对象标注模型。

可选的,所述第一数学对象图像包括第一完整实例图像,所述标注信息包括完整实例包围框位置信息和实例类别标签,所述数学对象标注模型包括完整实例检测模型;和/或,

所述第一数学对象图像包括第一完整实例包围框图像,所述标注信息包括单个实例包围框位置信息和单个实例掩码信息,所述数学对象标注模型包括单个实例检测分割模型,所述单个实例检测分割模型包括单个实例检测子模型和单个实例分割子模型;和/或,

所述第一数学对象图像包括第二单个实例包围框图像,所述第二单个实例包围框图像是基于所述单个实例掩码信息处理后的第一单个实例包围框图像,所述标注信息包括各行掩码信息,所述数学对象标注模型包括行检测分割模型;和/或,

所述第一数学对象图像包括所述行掩码信息对应的第一行内容图像,所述标注信息包括行内容中各个字符信息,所述数学对象标注模型包括行内容识别模型;

其中,所述实例包括数学题干或数学作答。

可选的,所述第二获得单元包括:

将第二完整实例图像输入所述完整实例检测模型,获得所述第二完整实例图像的完整实例包围框预测位置信息和实例类别预测标签;

对应地,所述第三获得单元包括:

获取所述完整实例包围框预测位置信息和所述实例类别预测标签的第一修正信息;所述第一修正信息包括所述完整实例包围框预测位置信息的修改信息、删除信息、新增信息,以及所述实例类别预测标签的修改信息、删除信息、新增信息中一个或多个;

利用所述第一修正信息调整所述完整实例包围框预测位置信息和所述实例类别预测标签,获得所述第二完整实例图像的完整实例包围框修正位置信息和实例类别修正标签。

可选的,所述第二获得单元包括:

基于所述完整实例包围框修正位置信息,获得所述第二完整实例图像中第二完整实例包围框图像;

将所述第二完整实例包围框图像输入所述单个实例检测分割模型中单个实例检测子模型,获得所述第二完整实例包围框图像的单个实例包围框预测位置信息;

对应地,所述第三获得单元包括:

获取所述单个实例包围框预测位置信息的第二修正信息;所述第二修正信息包括所述单个实例包围框预测位置信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第二修正信息调整所述单个实例包围框预测位置信息,获得所述第二完整实例包围框图像的单个实例包围框修正位置信息。

可选的,所述第二获得单元包括:

基于所述单个实例包围框修正位置信息,获得所述第二完整实例图像中所述单个实例包围框修正位置信息对应的第三单个实例包围框图像;

将所述第三单个实例包围框图像输入所述单个实例检测分割模型中单个实例分割子模型,获得所述第三单个实例包围框图像的单个实例预测掩码信息;

对应地,所述第三获得单元包括:

获取所述单个实例预测掩码信息的第三修正信息;所述第三修正信息具体为所述单个实例预测掩码信息的修改信息;

利用所述第三修正信息调整所述单个实例预测掩码信息,获得所述第三单个实例包围框图像的单个实例修正掩码信息。

可选的,所述第二获得单元包括:

基于所述单个实例修正掩码信息处理所述第三单个实例包围框图像,获得第四单个实例包围框图像;

将所述第四单个实例包围框图像输入所述行检测分割模型,获得所述第四单个实例包围框图像的各行预测掩码信息;

对应地,所述第三获得单元包括:

获取所述各行预测掩码信息的第四修正信息;所述第四修正信息包括所述各行预测掩码信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第四修正信息调整所述各行预测掩码信息,获得所述第四单个实例包围框图像的各行修正掩码信息。

可选的,所述第二获得单元包括:

针对每行修正掩码信息,获得第四单个实例包围框图像中所述行修正掩码信息对应的第二行内容图像;

基于所述行内容识别模型和预设字典识别所述第二行内容图像,获得所述第二行内容图像的行内容中各个预测字符信息;

对应地,所述第三获得单元包括:

获取所述行内容中各个预测字符信息的第五修正信息;所述第五修正信息包括所述行内容中各个预测字符信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第五修正信息调整所述行内容中各个预测字符信息,获得所述第二行内容图像的行内容中各个修正字符信息。

可选的,还包括:

计算单元,用于计算所述行内容中各个预测字符信息的预测概率;

第一显示单元,用于若所述预测概率小于预设概率,向标注信息修正用户突出显示所述预测概率所对应的预测字符信息。

可选的,还包括:

第二显示单元,用于若所述预设字典不存在所述修正字符信息,向标注信息修正用户显示所述修正字符信息的相似字符信息;所述相似字符信息是基于所述修正字符信息在所述预设字典中确定的;

修正单元,用于若所述标注信息修正用户确定所述修正字符信息错误,基于所述相似字符信息修正所述修正字符信息;

增加单元,用于若所述标注信息修正用户确定所述修正字符信息正确,将所述修正字符信息增加至所述预设字典。

可选的,还包括:

第一过滤单元,用于当初始标注信息为多个时,若第M+1个初始标注信息与第M个初始标注信息的重合率大于第一预设重合率,过滤所述第M+1个初始标注信息,M为正整数;和/或,

第二过滤单元,用于当所述修正信息为多个时,若第N+1个修正信息与第N个修正信息的重合率大于第二预设重合率,过滤所述第N+1个修正信息,N为正整数。

可选的,还包括:

存储单元,用于利用结构化文件存储所述第二数学对象图像和所述修正标注信息。

第四方面,本申请实施例提供了一种数学对象标注的装置,利用上述第一方面任一项所述的目标数学对象标注模型,所述装置包括:

确定单元,用于确定待标注数学对象图像;

第五获得单元,用于将所述待标注数学对象图像输入对应的目标数学对象标注模型,获得所述待标注数学对象图像的标注信息。

第五方面,本申请实施例提供了一种终端设备,所述终端设备包括处理器以及存储器:

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行上述第一方面任一项所述的获得数学对象标注模型的方法,或者,上述第二方面所述的数学对象标注的方法。

第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面任一项所述的获得数学对象标注模型的方法,或者,上述第二方面所述的数学对象标注的方法。

与现有技术相比,本申请至少具有以下优点:

采用本申请实施例的技术方案,利用第一数学对象图像和标注信息训练深度神经网络获得数学对象标注模型;该第一数学对象图像的数量小于预设数量;将第二数学对象图像输入对应的数学对象标注模型,获得第二数学对象图像的初始标注信息;根据初始标注信息和初始标注信息的修正信息,获得第二数学对象图像的修正标注信息;利用第二数学对象图像和修正标注信息,训练数学对象标注模型获得目标数学对象标注模型。由此可见,首先,利用少量的第一数学对象图像和标注信息得到数学对象标注模型,以数学对象标注模型自动标注第二数学对象图像得到初始标注信息,能够节省大量的人力,有效减少人工标注过程中存在的重复操作;然后,通过修正信息调整初始标注信息得到修正标注信息,能够有效提高标注信息的质量;最后,利用第二数学对象图像和修正标注信息优化数学对象标注模型得到目标数学对象标注模型,使得目标数学对象标注模型更加准确,尽量避免出现不可预测的问题。

此外,采用本申请实施例的另一技术方案,在获得上述目标数学对象标注模型的基础上,确定待标注数学对象图像;将待标注数学对象图像输入对应的目标数学对象标注模型,获得待标注数学对象图像的标注信息。由于上述目标数学对象标注模型是优化数学对象标注模型得到,相较于数学对象标注模型,在对数学对象图像进行标注时更加准确;该方式中利用上述目标数学对象标注模型处理待标注数学对象图像,即可获得准确率较高的待标注数学对象图像的标注信息。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图;

图2为本申请实施例提供的一种获得数学对象标注模型的方法的流程示意图;

图3为本申请实施例提供的一种第二完整实例图像和第二完整实例图像的完整实例包围框修正位置信息和实例类别修正标签的示意图;

图4为本申请实施例提供的一种第二完整实例包围框图像和第二完整实例图像的单个实例包围框修正位置信息的示意图;

图5为本申请实施例提供的一种第三单个实例包围框图像和第三单个实例包围框图像的单个实例修正掩码信息的示意图;

图6为本申请实施例提供的一种第四单个实例包围框图像和第四单个实例包围框图像的各行预测掩码信息的示意图;

图7为本申请实施例提供的一种第二行内容图像和第二行内容图像的行内容中各个修正字符信息的示意图;

图8为本申请实施例提供的一种数学对象标注的方法的流程示意图;

图9为本申请实施例提供的一种获得数学对象标注模型的装置的结构示意图;

图10为本申请实施例提供的一种数学对象标注的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

现阶段,在数学对象标注领域中,为了得到较为准确的基于深度神经网络的数学对象标注模型,通常需要对大量的数学对象图像中数学对象进行人工标注得到标注信息,以形成大量的训练样本。但是,大量的人工标注需要耗费大量的人力;大量的人工标注使得标注过程中存在很多重复的操作,且有些数学对象的标注操作本身较为繁琐、复杂,导致人工标注的标注信息容易出现各种各样的错误;该错误无法被及时发现,导致标注信息的质量下降;从而导致后续使用该训练样本中该标注信息得到的数学对象标注模型不够准确,容易出现不可预测的问题。

为了解决这一问题,在本申请实施例中,利用第一数学对象图像和标注信息训练深度神经网络获得数学对象标注模型;该第一数学对象图像的数量小于预设数量;将第二数学对象图像输入对应的数学对象标注模型,获得第二数学对象图像的初始标注信息;根据初始标注信息和初始标注信息的修正信息,获得第二数学对象图像的修正标注信息;利用第二数学对象图像和修正标注信息,训练数学对象标注模型获得目标数学对象标注模型。可见,利用少量的第一数学对象图像和标注信息得到数学对象标注模型,以数学对象标注模型自动标注第二数学对象图像得到初始标注信息,能够节省大量的人力,有效减少人工标注过程中存在的重复操作;通过修正信息调整初始标注信息得到修正标注信息,能够有效提高标注信息的质量;利用第二数学对象图像和修正标注信息优化数学对象标注模型得到目标数学对象标注模型,使得目标数学对象标注模型更加准确,尽量避免出现不可预测的问题。

在本申请实施例另一实施例,在获得上述目标数学对象标注模型的基础上,确定待标注数学对象图像;将待标注数学对象图像输入对应的目标数学对象标注模型,获得待标注数学对象图像的标注信息。由于上述目标数学对象标注模型是优化数学对象标注模型得到,相较于数学对象标注模型,在对数学对象图像进行标注时更加准确;该方式中利用上述目标数学对象标注模型处理待标注数学对象图像,即可获得准确率较高的待标注数学对象图像的标注信息。

举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中,该场景包括用户终端101和服务器102。用户通过用户终端101对少量的第一数学对象图像进行标注得到标注信息后,将第一数学对象图像和标注信息发送至服务器102;服务器102采用本申请实施例提供的获得数学对象标注模型的方法,得到目标数学对象标注模型并存储。用户通过用户终端101将待标注数学对象图像发送至服务器102,服务器102采用采用本申请实施例提供的数学对象标注的方法,得到待标注数学对象图像的标注信息,将其返回给用户终端101,以便用户终端101针对待标注数学对象图像显示其标注信息。

首先,在上述应用场景中,虽然将本申请实施例提供的实施方式的动作描述由服务器102执行;但是,本申请实施例在执行主体方面不受限制,只要执行了本申请实施例提供的实施方式所公开的动作即可。

其次,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。

下面结合附图,通过实施例来详细说明本申请实施例中获得数学对象标注模型、数学对象标注的方法和装置的具体实现方式。

示例性方法

参见图2,示出了本申请实施例中一种获得数学对象标注模型的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:

步骤201:基于第一数学对象图像和标注信息,对深度神经网络进行训练获得数学对象标注模型;所述第一数学对象图像的数量小于预设数量。

一般地,通常需要对大量的数学对象图像中数学对象进行人工标注,得到标注信息形成大量的训练样本,基于此训练深度神经网络,才能得到较为准确的数学对象标注模型。但是,大量的人工标注需要耗费大量的人力;大量的人工标注使得标注过程中存在很多重复的操作,且有些数学对象的标注操作本身较为繁琐、复杂,导致人工标注的标注信息容易出现各种各样的错误;该错误无法被及时发现,导致标注信息的质量下降;从而导致数学对象标注模型不够准确,容易出现不可预测的问题。

因此,在本申请实施例中,可以先对少量的数学对象图像中数学对象进行人工标注,得到标注信息形成少量的第一训练样本,基于此训练深度神经网络,得到一个数学对象标注模型。虽然,该数学对象标注模型的训练样本数量较小,导致该数学对象标注模型进行数学对象标注时不够准确;但是,该数学对象标注模型深度挖掘学习了小部分数学对象图像和其标注信息之间的关联,能够对不具有标注信息的数学对象图像进行自动标注。即,该数学对象标注模型能够处理不具有标注信息的数学对象图像,自动得到数学对象图像的标注信息。

在本申请实施例中,将具有标注信息的数学对象图像记为第一数学对象图像,为了节省大量的人力,有效减少人工标注过程中存在的重复操作,具有标注信息的数学对象图像的数量较少,则预先设置一个数量作为预设数量,用于表示一个较小的数量值,第一数学对象图像的数量需要小于该预设数量。基于此,利用第一数学对象图像和其标注信息训练深度神经网络,即可得到一个数学对象标注模型。

由于在数学对象标注领域中,数学对象标注通常是指标注完整实例包围框、实例类别、单个实例包围框、单个实例掩码、行掩码以及行内容中各个字符等等。作为一种示例,在数学对象标注领域中,实例可以是指数学试题中的数学题干或数学作答。因此,步骤201的具体实施方式如下内容所示:

第一种步骤201的具体实施方式,第一数学对象图像可以是一个具有标注信息的完整实例图像,记为第一完整实例图像,其标注信息是完整实例包围框位置信息和实例类别标签;将第一完整实例图像输入第一深度神经网络,例如,Faster-RCNN、Mask-RCNN或SSD等,得到第一完整实例图像的完整实例包围框预测位置信息和实例类别预测标签;通过计算与上述标注信息中完整实例包围框位置信息和实例类别标签的损失函数,利用反向传播算法最小化损失函数更新第一深度神经网络的参数,实现对第一深度神经网络的训练,得到完整实例检测模型。

其中,包围框位置信息、包围框预测位置信息例如可以包括包围框左上角的横坐标、纵坐标、包围框的宽和高。当然,本申请实施例并不具体限定包围框位置信息、包围框预测位置信息,只要能够表征包围框位置、包围框预测位置即可。

第二种步骤201的具体实施方式,第一数学对象图像还可以是一个完整实例包围框图像,记为第一完整实例包围框图像,其标注信息是单个实例包围框位置信息和单个实例掩码信息;将第一完整实例包围框图像输入第二深度神经网络,例如,Mask-RCNN或HTC等,得到第一完整实例图像的单个实例包围框预测位置信息和单个实例预测掩码信息;通过计算与上述标注信息中单个实例包围框位置信息和单个实例掩码信息的损失函数,利用反向传播算法最小化损失函数更新第二深度神经网络的参数,实现对第二深度神经网络的训练,得到单个实例检测分割模型。

第三种步骤201的具体实施方式,第一数学对象图像还可以是单个实例掩码信息处理后的第一单个实例包围框图像,记为第二单个实例包围框图像,其标注信息是各行掩码信息;将第二单个实例包围框图像输入第三深度神经网络,例如,DBNet或PSENet等,得到第二单个实例包围框图像的各行预测掩码信息;通过计算与上述标注信息中各行掩码信息的损失函数,利用反向传播算法最小化损失函数更新第三深度神经网络的参数,实现对第三深度神经网络的训练,得到行检测分割模型。

第四种步骤201的具体实施方式,第一数学对象图像还可以是一个行掩码信息对应的行内容图像,记为第一行内容图像,其标注信息是行内容中各个字符信息;将第一行内容图像输入第四深度神经网络,例如,基于编码解码框架的字符识别网络,得到第一行内容图像的行内容中各个预测字符信息;通过计算与上述标注信息中行内容中各个字符信息的损失函数,利用反向传播算法最小化损失函数更新第四深度神经网络的参数,实现对第四深度神经网络的训练,得到行内容识别模型。

即,在本申请实施例一种可选的实施方式中,所述第一数学对象图像包括第一完整实例图像,所述标注信息包括完整实例包围框位置信息和实例类别标签,所述数学对象标注模型包括完整实例检测模型;和/或,所述第一数学对象图像包括第一完整实例包围框图像,所述标注信息包括单个实例包围框位置信息和单个实例掩码信息,所述数学对象标注模型包括单个实例检测分割模型,所述单个实例检测分割模型包括单个实例检测子模型和单个实例分割子模型;和/或,所述第一数学对象图像包括第二单个实例包围框图像,所述第二单个实例包围框图像是基于所述单个实例掩码信息处理后的第一单个实例包围框图像,所述标注信息包括各行掩码信息,所述数学对象标注模型包括行检测分割模型;和/或,所述第一数学对象图像包括所述行掩码信息对应的第一行内容图像,所述标注信息包括行内容中各个字符信息,所述数学对象标注模型包括行内容识别模型。其中,所述实例包括数学题干或数学作答。

步骤202:将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息。

在本申请实施例中,步骤201获得数学对象标注模型之后,由于该数学对象标注模型能够处理不具有标注信息的数学对象图像,自动得到数学对象图像的标注信息;因此,将不具有标注信息的数学对象图像记为第二数学对象图像,输入对应的数学对象标注模型,即可自动获得其标注信息作为初始标注信息。

其中,由于该数学对象标注模型的训练样本数量较小,导致该数学对象标注模型进行数学对象标注时不够准确,即,利用该数学对象标注模型获得的第二数学对象图像的初始标注信息不够准确。此时,为了有效提高标注信息的质量,可以基于该初始标注信息显示数学对象标注并提供交互接口,以便标注信息修正用户可以通过该交互接口编辑该初始标注信息的修正信息。

步骤203:根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息。

在本申请实施例中,基于上述说明,在用户通过该交互接口编辑完成该初始标注信息的修正信息后,可以在该初始标注信息的基础上,通过该初始标注信息的修正信息,完成对初始标注信息的修正,得到修正后的标注信息,记为第二数学对象图像的修正标注信息。

参见上述步骤201的具体实施方式,步骤202-步骤203的具体实施方式如下内容所示:

第一种步骤202-步骤203的具体实施方式,第一数学对象图像可以是一个不具有标注信息的完整实例图像,记为第二完整实例图像;将第二完整实例图像输入对应的数学对象标注模型,即,第一种步骤201的具体实施方式得到的完整实例检测模型;自动获得第二完整实例图像的初始标注信息,即,第二完整实例图像的完整实例包围框预测位置信息和实例类别预测标签。

在基于上述完整实例包围框预测位置信息和实例类别预测标签,显示完整实例预测包围框和实例类别预测标签后,标注信息修正用户选择需要修正的完整实例预测包围框和实例类别预测标签,通过交互接口进行修改编辑;例如,修改、删除完整实例预测包围框,新增完整实例包围框,修改、删除实例类别预测标签,新增实例类别标签中一种或多种;得到完整实例包围框预测位置信息和实例类别预测标签的修正信息,记为第一修正信息。利用上述第一修正信息调整上述完整实例包围框预测位置信息和实例类别预测标签,完成对初始标注信息的修正,得到修正后的标注信息,记为第二完整实例图像的完整实例包围框修正位置信息和实例类别修正标签。

作为一种示例,如图3所示的第二完整实例图像和第二完整实例图像的完整实例包围框修正位置信息和实例类别修正标签的示意图。其中,第二完整实例图像为完整数学作答图像,完整实例包围框修正位置信息为完整数学作答包围框修正位置信息,实例类别修正标签为数学作答。

因此,在本申请实施例一种可选的实施方式中,所述步骤202例如可以包括:步骤A:将第二完整实例图像输入所述完整实例检测模型,获得所述第二完整实例图像的完整实例包围框预测位置信息和实例类别预测标签。对应地,所述步骤203例如可以包括以下步骤:步骤B:获取所述完整实例包围框预测位置信息和所述实例类别预测标签的第一修正信息;所述第一修正信息包括所述完整实例包围框预测位置信息的修改信息、删除信息、新增信息,以及所述实例类别预测标签的修改信息、删除信息、新增信息中一个或多个。步骤C:利用所述第一修正信息调整所述完整实例包围框预测位置信息和所述实例类别预测标签,获得所述第二完整实例图像的完整实例包围框修正位置信息和实例类别修正标签。

第二种步骤202-步骤203的具体实施方式,第一数学对象图像还可以是一个基于上述第二完整实例图像和其完整实例包围框修正位置信息得到的完整实例包围框图像,记为第二完整实例包围框图像;将第二完整实例包围框图像输入对应的数学对象标注模型,即,第二种步骤201的具体实施方式得到的单个实例检测分割模型中单个实例检测子模型,自动获得第二完整实例包围框图像的初始标注信息,即,第二完整实例包围框图像的单个实例包围框预测位置信息。

在基于上述单个实例包围框预测位置信息,显示单个实例包围框预测包围框后,标注信息修正用户选择需要修正的单个实例包围框预测包围框,通过交互接口进行修改编辑;例如,修改、删除单个实例包围框预测包围框,新增单个实例包围框包围框中一种或多种;得到单个实例包围框预测位置信息的修正信息,记为第二修正信息。利用上述第二修正信息调整上述单个实例包围框预测位置信息,完成对初始标注信息的修正,得到修正后的标注信息,记为第二完整实例包围框图像的单个实例包围框修正位置信息。

作为一种示例,如图4所示的第二完整实例包围框图像和第二完整实例图像的单个实例包围框修正位置信息的示意图。其中,第二完整实例包围框图像为完整数学作答包围框图像,单个实例包围框修正位置信息为单个数学作答包围框修正位置信息。

因此,在本申请实施例一种可选的实施方式中,所述步骤202例如可以包括以下步骤:步骤D:基于所述完整实例包围框修正位置信息,获得所述第二完整实例图像中第二完整实例包围框图像。步骤E:将所述第二完整实例包围框图像输入所述单个实例检测分割模型中单个实例检测子模型,获得所述第二完整实例包围框图像的单个实例包围框预测位置信息。对应地,所述步骤203例如可以包括以下步骤:步骤F:获取所述单个实例包围框预测位置信息的第二修正信息;所述第二修正信息包括所述单个实例包围框预测位置信息的修改信息、删除信息、新增信息中一个或多个。步骤G:利用所述第二修正信息调整所述单个实例包围框预测位置信息,获得所述第二完整实例包围框图像的单个实例包围框修正位置信息。

第三种步骤202-步骤203的具体实施方式,第一数学对象图像还可以是一个与上述单个实例包围框修正位置信息对应的单个实例包围框图像,记为第三单个实例包围框图像;将第三单个实例包围框图像输入对应的数学对象标注模型,即,第二种步骤201的具体实施方式得到的单个实例检测分割模型中单个实例分割子模型,自动获得第三单个实例包围框图像的初始标注信息,即,第三单个实例包围框图像的单个实例预测掩码信息。

在基于上述单个实例预测掩码信息,显示单个实例预测掩码后,标注信息修正用户选择需要修正的单个实例预测掩码,通过交互接口进行修改编辑;由于第三单个实例包围框图像是与上述单个实例包围框修正位置信息对应的,是确定正确的,因此,针对单个实例预测掩码的修改编辑不存在新增、删除单个实例预测掩码,而是修改单个实例预测掩码;得到单个实例预测掩码信息的修正信息,记为第三修正信息。利用上述第三修正信息调整上述单个实例预测掩码信息,完成对初始标注信息的修正,得到修正后的标注信息,记为第三单个实例包围框图像的单个实例修正掩码信息。

作为一种示例,如图5所示的第三单个实例包围框图像和第三单个实例包围框图像的单个实例修正掩码信息的示意图。其中,第三单个实例包围框图像为单个数学作答包围框图像,单个实例修正掩码信息为单个数学作答修正掩码信息。

因此,在本申请实施例一种可选的实施方式中,所述步骤202例如可以包括以下步骤:步骤H:基于所述单个实例包围框修正位置信息,获得所述第二完整实例图像中所述单个实例包围框修正位置信息对应的第三单个实例包围框图像。步骤I:将所述第三单个实例包围框图像输入所述单个实例检测分割模型中单个实例分割子模型,获得所述第三单个实例包围框图像的单个实例预测掩码信息。对应地,所述步骤203例如可以包括以下步骤:步骤J:获取所述单个实例预测掩码信息的第三修正信息;所述第三修正信息具体为所述单个实例预测掩码信息的修改信息。步骤K:利用所述第三修正信息调整所述单个实例预测掩码信息,获得所述第三单个实例包围框图像的单个实例修正掩码信息。

第四种步骤202-步骤203的具体实施方式,第一数学对象图像还可以是一个通过上述单个实例修正掩码信息,处理上述第三单个实例包围框图像中非单个实例掩码部分,得到的单个实例包围框图像,记为第四单个实例包围框图像;将第四单个实例包围框图像输入对应的数学对象标注模型,即,第三种步骤201的具体实施方式得到的行检测分割模型,自动获得第四单个实例包围框图像的初始标注信息,即,第四单个实例包围框图像的各行预测掩码信息。

在基于上述各行预测掩码信息,显示各行预测掩码后,标注信息修正用户选择需要修正的行预测掩码,通过交互接口进行修改编辑;例如,修改、删除行预测掩码,新增行掩码中一种或多种;得到各行预测掩码信息的修正信息,记为第四修正信息。利用上述第四修正信息调整上述各行预测掩码信息,完成对初始标注信息的修正,得到修正后的标注信息,记为第四单个实例包围框图像的各行修正掩码信息。

作为一种示例,如图6所示的第四单个实例包围框图像和第四单个实例包围框图像的各行预测掩码信息的示意图。其中,第四单个实例包围框图像为基于单个数学作答掩码信息处理后的单个数学作答包围框图像,各行预测掩码信息为该单个数学作答中各行修正掩码信息。

因此,在本申请实施例一种可选的实施方式中,所述步骤202例如可以包括以下步骤:步骤L:基于所述单个实例修正掩码信息处理所述第三单个实例包围框图像,获得第四单个实例包围框图像。步骤M:将所述第四单个实例包围框图像输入所述行检测分割模型,获得所述第四单个实例包围框图像的各行预测掩码信息。对应地,所述步骤203例如可以包括以下步骤:步骤N:获取所述各行预测掩码信息的第四修正信息;所述第四修正信息包括所述各行预测掩码信息的修改信息、删除信息、新增信息中一个或多个。步骤O:利用所述第四修正信息调整所述各行预测掩码信息,获得所述第四单个实例包围框图像的各行修正掩码信息。

第五种步骤202-步骤203的具体实施方式,第一数学对象图像还可以是一个与上述行修正掩码信息对应的行内容图像,记为第二行内容图像;利用第二行内容图像对应的数学对象标注模型,即,第四种步骤201的具体实施方式得到的行内容识别模型,以及预先收集常用的数学相关的各个字符形成的预设字典,自动识别第二行内容图像,得到第二行内容图像的初始标注信息,即,第二行内容图像的行内容中各个预测字符信息。

在基于上述行内容中各个预测字符信息进行显示后,标注信息修正用户选择需要修正的预测字符信息,通过交互接口进行修改编辑;例如,修改、删除预测字符信息,新增预测字符信息中一种或多种;得到行内容中各个预测字符信息的修正信息,记为第五修正信息。利用上述第五修正信息调整上述行内容中各个预测字符信息,完成对初始标注信息的修正,得到修正后的标注信息,记为第二行内容图像的行内容中各个修正字符信息。

作为一种示例,如图7所示的第二行内容图像和第二行内容图像的行内容中各个修正字符信息的示意图。其中,第二行内容图像为单个数学作答中某行内容图像,行内容中各个修正字符信息为该行内容中各个修正字符信息。

因此,在本申请实施例一种可选的实施方式中,所述步骤202例如可以包括以下步骤:步骤P:针对每行修正掩码信息,获得第四单个实例包围框图像中所述行修正掩码信息对应的第二行内容图像。步骤Q:基于所述行内容识别模型和预设字典识别所述第二行内容图像,获得所述第二行内容图像的行内容中各个预测字符信息。对应地,步骤203例如可以包括以下步骤:步骤R:获取所述行内容中各个预测字符信息的第五修正信息;所述第五修正信息包括所述行内容中各个预测字符信息的修改信息、删除信息、新增信息中一个或多个。步骤S:利用所述第五修正信息调整所述行内容中各个预测字符信息,获得所述第二行内容图像的行内容中各个修正字符信息。

此外,在本申请实施例中,上述行内容识别模型除了识别获得第二行内容图像的行内容中各个预测字符信息之外,还可以计算行内容中各个预测字符信息的预测概率,用于表示预测字符信息的准确性;预测概率越大表示预测字符信息的准确性越大,预测概率越小表示预测字符信息的准确性越小。对于准确性越小的预测字符信息,在显示行内容中各个预测字符信息时需要将其突出显示,以便增加标注信息修正用户对其的注意力,信息修正用户对其进行修改编辑的概率较大。则需要预先设定一个概率值作为预设概率,例如,预设概率的取值为0.85,表示预测字符信息的准确性下限,当预测字符信息的预测概率小于该预设概率,表示该预测字符信息不正确,需要向标注信息修正用户突出显示该预测字符信息。因此,在本申请实施例一种可选的实施方式中,在步骤Q和步骤R之间,例如还可以包括以下步骤:

步骤T:计算所述行内容中各个预测字符信息的预测概率;

步骤U:若所述预测概率小于预设概率,向标注信息修正用户突出显示所述预测概率所对应的预测字符信息。

另外,在本申请实施例中,对于上述修正字符信息而言,有可能修正字符信息并不存在于预设字典的情况,此时,还需要从预设字典中确定与该修正字符信息相似的字符信息,例如,从预设字典中确定与该修正字符信息编辑距离较小的若干字符信息,作为修正字符信息的相似字符信息,并显示给标注信息修正用户,以便标注信息修正用户确认该修正字符信息是否正确;例如,该修正字符信息是否拼写正确。若错误,则可以通过显示的相似字符信息再次修正该修正字符信息,若正确,则需要在预设字典中增加该修正字符信息,以丰富预设字典中的字符信息。因此,在本申请实施例一种可选的实施方式中,例如还可以包括以下步骤:

步骤V:若所述预设字典不存在所述修正字符信息,向标注信息修正用户显示所述修正字符信息的相似字符信息;所述相似字符信息是基于所述修正字符信息在所述预设字典中确定的。

步骤W:若所述标注信息修正用户确定所述修正字符信息错误,基于所述相似字符信息修正所述修正字符信息。

步骤X:若所述标注信息修正用户确定所述修正字符信息正确,将所述修正字符信息增加至所述预设字典。

还需要说明的是,在本申请实施例中,步骤202获得的第二数学对象图像的初始标注信息可能为多个,前一个初始标注信息和后一个初始标注信息之间可能存在重合部分,还需要计算前一个初始标注信息和后一个初始标注信息之间的重合率;预先设定一个重合率值作为第一预设重合率,例如,第一预设重合率的取值为0.8,当上述重合率大于该第一预设重合率,表示前一个初始标注信息和后一个初始标注信息之间重合部分较大,若是前一个初始标注信息和后一个初始标注信息均保留执行后续操作,浪费较多系统资源,则需要将后一个初始标注信息过滤。因此,在本申请实施例一种可选的实施方式中,例如还可以包括步骤Y:当初始标注信息为多个时,若第M+1个初始标注信息与第M个初始标注信息的重合率大于第一预设重合率,过滤所述第M+1个初始标注信息,M为正整数。

同理,步骤203中初始标注信息的修正信息可能为多个,前一个修正信息和后一个修正信息之间也可能存在重合部分,还需要计算前一个修正信息和后一个修正信息之间的重合率;预先设定另一个重合率值作为第二预设重合率,例如,第二预设重合率的取值为0.9,当上述重合率大于该第二预设重合率,表示前一个修正信息和后一个修正信息之间重合部分较大,若是前一个修正信息和后一个修正信息均保留执行后续操作,也浪费较多系统资源,则需要将后一个修正信息过滤。因此,在本申请实施例一种可选的实施方式中,例如还可以包括步骤Z:当所述修正信息为多个时,若第N+1个修正信息与第N个修正信息的重合率大于第二预设重合率,过滤所述第N+1个修正信息,N为正整数。

当然,本申请实施例并不具体限定第一预设重合率和第二预设重合率之间的关系,第一预设重合率可以大于、等于或者小于第二预设重合率。

在本申请实施例中,基于上述说明,对于获得的第二数学对象图像的修正标注信息,还需要将其与第二数学对象图像通过结构化文件进行存储。因此,在本申请实施例一种可选的实施方式中,例如还可以包括步骤:利用结构化文件存储所述第二数学对象图像和所述修正标注信息。其中,结构化文件例如可以为XML文件或者JSON文件。

步骤204:基于所述第二数学对象图像和所述修正标注信息,对所述数学对象标注模型进行训练获得目标数学对象标注模型。

在本申请实施例中,步骤202-步骤203获得第二数学对象图像的修正标注信息后,第二数学对象图像和其修正标注信息形成高质量的第二训练样本,可以利用该第二训练样本继续训练步骤201获得的数学对象标注模型,使得该数学对象标注模型继续深度挖掘学习数学对象图像和其标注信息之间的关联,以提高该数学对象标注模型进行数学对象标注的准确性,完成该数学对象标注模型的优化,得到目标数学对象标注模型。

将目标数学对象标注模型作为新的数学对象模型循环执行步骤202-步骤204,数学对象标注和训练数学对象标注模型之间相互迭代,既能使得步骤202获得的第二数学对象图像的初始标注信息越来越准确,实现更加高效的自动数学对象标注,又能使得步骤204获得的目标数学对象标注模型更加准确。

通过本实施例提供的各种实施方式,利用第一数学对象图像和标注信息训练深度神经网络获得数学对象标注模型;该第一数学对象图像的数量小于预设数量;将第二数学对象图像输入对应的数学对象标注模型,获得第二数学对象图像的初始标注信息;根据初始标注信息和初始标注信息的修正信息,获得第二数学对象图像的修正标注信息;利用第二数学对象图像和修正标注信息,训练数学对象标注模型获得目标数学对象标注模型。由此可见,首先,利用少量的第一数学对象图像和标注信息得到数学对象标注模型,以数学对象标注模型自动标注第二数学对象图像得到初始标注信息,能够节省大量的人力,有效减少人工标注过程中存在的重复操作;然后,通过修正信息调整初始标注信息得到修正标注信息,能够有效提高标注信息的质量;最后,利用第二数学对象图像和修正标注信息优化数学对象标注模型得到目标数学对象标注模型,使得目标数学对象标注模型更加准确,尽量避免出现不可预测的问题。

在上述实施例的基础上,由于对于针对数学对象图像的数学对象标注而言,目标数学对象标注模型相较于数学对象标注模型更加准确。因此,在后续确定一个需要进行数学对象标注的数学对象图像为待标注数学对象图像后,可以利用目标数学对象标注模型完成对该待标注数学对象图像的数学对象标注,得到该待标注数学对象图像的标注信息。

参见图8,示出了本申请实施例中另一种数学对象标注的方法的流程示意图。在本实施例中,利用上述实施例所述的目标数学对象标注模型,所述方法例如可以包括以下步骤:

步骤801:确定待标注数学对象图像。

在本申请实施例中,待标注数学对象图像可以是待标注完整实例图像,也可以是待标注完整实例包围框图像,还可以是待标注单个实例包围框图像,另可以是待标注行内容图像。

步骤802:将所述待标注数学对象图像输入对应的目标数学对象标注模型,获得所述待标注数学对象图像的标注信息。

在本申请实施例中,在目标数学对象标注模型相较于数学对象标注模型更加准确的基础上,基于步骤801-步骤802得到的待标注数学对象图像的标注信息的准确率较高。

通过本实施例提供的各种实施方式,在获得上述目标数学对象标注模型的基础上,确定待标注数学对象图像;将待标注数学对象图像输入对应的目标数学对象标注模型,获得待标注数学对象图像的标注信息。由于上述目标数学对象标注模型是优化数学对象标注模型得到,相较于数学对象标注模型,在对数学对象图像进行标注时更加准确;该方式中利用上述目标数学对象标注模型处理待标注数学对象图像,即可获得准确率较高的待标注数学对象图像的标注信息。

参见图9,示出了本申请实施例中一种获得数学对象标注模型的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:

第一获得单元901,用于基于第一数学对象图像和标注信息,对深度神经网络进行训练获得数学对象标注模型;所述第一数学对象图像的数量小于预设数量;

第二获得单元902,用于将第二数学对象图像输入对应的数学对象标注模型,获得所述第二数学对象图像的初始标注信息;

第三获得单元903,用于根据所述初始标注信息和所述初始标注信息的修正信息,获得所述第二数学对象图像的修正标注信息;

第四获得单元904,用于基于所述第二数学对象图像和所述修正标注信息,对所述数学对象标注模型进行训练获得目标数学对象标注模型。

在本申请实施例一种可选的实施方式中,所述第一数学对象图像包括第一完整实例图像,所述标注信息包括完整实例包围框位置信息和实例类别标签,所述数学对象标注模型包括完整实例检测模型;和/或,

所述第一数学对象图像包括第一完整实例包围框图像,所述标注信息包括单个实例包围框位置信息和单个实例掩码信息,所述数学对象标注模型包括单个实例检测分割模型,所述单个实例检测分割模型包括单个实例检测子模型和单个实例分割子模型;和/或,

所述第一数学对象图像包括第二单个实例包围框图像,所述第二单个实例包围框图像是基于所述单个实例掩码信息处理后的第一单个实例包围框图像,所述标注信息包括各行掩码信息,所述数学对象标注模型包括行检测分割模型;和/或,

所述第一数学对象图像包括所述行掩码信息对应的第一行内容图像,所述标注信息包括行内容中各个字符信息,所述数学对象标注模型包括行内容识别模型;

其中,所述实例包括数学题干或数学作答。

在本申请实施例一种可选的实施方式中,所述第二获得单元902包括:

将第二完整实例图像输入所述完整实例检测模型,获得所述第二完整实例图像的完整实例包围框预测位置信息和实例类别预测标签;

对应地,所述第三获得单元903包括:

获取所述完整实例包围框预测位置信息和所述实例类别预测标签的第一修正信息;所述第一修正信息包括所述完整实例包围框预测位置信息的修改信息、删除信息、新增信息,以及所述实例类别预测标签的修改信息、删除信息、新增信息中一个或多个;

利用所述第一修正信息调整所述完整实例包围框预测位置信息和所述实例类别预测标签,获得所述第二完整实例图像的完整实例包围框修正位置信息和实例类别修正标签。

在本申请实施例一种可选的实施方式中,所述第二获得单元902包括:

基于所述完整实例包围框修正位置信息,获得所述第二完整实例图像中第二完整实例包围框图像;

将所述第二完整实例包围框图像输入所述单个实例检测分割模型中单个实例检测子模型,获得所述第二完整实例包围框图像的单个实例包围框预测位置信息;

对应地,所述第三获得单元903包括:

获取所述单个实例包围框预测位置信息的第二修正信息;所述第二修正信息包括所述单个实例包围框预测位置信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第二修正信息调整所述单个实例包围框预测位置信息,获得所述第二完整实例包围框图像的单个实例包围框修正位置信息。

在本申请实施例一种可选的实施方式中,所述第二获得单元902包括:

基于所述单个实例包围框修正位置信息,获得所述第二完整实例图像中所述单个实例包围框修正位置信息对应的第三单个实例包围框图像;

将所述第三单个实例包围框图像输入所述单个实例检测分割模型中单个实例分割子模型,获得所述第三单个实例包围框图像的单个实例预测掩码信息;

对应地,所述第三获得单元903包括:

获取所述单个实例预测掩码信息的第三修正信息;所述第三修正信息具体为所述单个实例预测掩码信息的修改信息;

利用所述第三修正信息调整所述单个实例预测掩码信息,获得所述第三单个实例包围框图像的单个实例修正掩码信息。

在本申请实施例一种可选的实施方式中,所述第二获得单元902包括:

基于所述单个实例修正掩码信息处理所述第三单个实例包围框图像,获得第四单个实例包围框图像;

将所述第四单个实例包围框图像输入所述行检测分割模型,获得所述第四单个实例包围框图像的各行预测掩码信息;

对应地,所述第三获得单元903包括:

获取所述各行预测掩码信息的第四修正信息;所述第四修正信息包括所述各行预测掩码信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第四修正信息调整所述各行预测掩码信息,获得所述第四单个实例包围框图像的各行修正掩码信息。

在本申请实施例一种可选的实施方式中,所述第二获得单元902包括:

针对每行修正掩码信息,获得第四单个实例包围框图像中所述行修正掩码信息对应的第二行内容图像;

基于所述行内容识别模型和预设字典识别所述第二行内容图像,获得所述第二行内容图像的行内容中各个预测字符信息;

对应地,所述第三获得单元903包括:

获取所述行内容中各个预测字符信息的第五修正信息;所述第五修正信息包括所述行内容中各个预测字符信息的修改信息、删除信息、新增信息中一个或多个;

利用所述第五修正信息调整所述行内容中各个预测字符信息,获得所述第二行内容图像的行内容中各个修正字符信息。

在本申请实施例一种可选的实施方式中,所述装置还包括:

计算单元,用于计算所述行内容中各个预测字符信息的预测概率;

第一显示单元,用于若所述预测概率小于预设概率,向标注信息修正用户突出显示所述预测概率所对应的预测字符信息。

在本申请实施例一种可选的实施方式中,所述装置还包括:

第二显示单元,用于若所述预设字典不存在所述修正字符信息,向标注信息修正用户显示所述修正字符信息的相似字符信息;所述相似字符信息是基于所述修正字符信息在所述预设字典中确定的;

修正单元,用于若所述标注信息修正用户确定所述修正字符信息错误,基于所述相似字符信息修正所述修正字符信息;

增加单元,用于若所述标注信息修正用户确定所述修正字符信息正确,将所述修正字符信息增加至所述预设字典。

在本申请实施例一种可选的实施方式中,所述装置还包括:

第一过滤单元,用于当初始标注信息为多个时,若第M+1个初始标注信息与第M个初始标注信息的重合率大于第一预设重合率,过滤所述第M+1个初始标注信息,M为正整数;和/或,

第二过滤单元,用于当所述修正信息为多个时,若第N+1个修正信息与第N个修正信息的重合率大于第二预设重合率,过滤所述第N+1个修正信息,N为正整数。

在本申请实施例一种可选的实施方式中,所述装置还包括:

存储单元,用于利用结构化文件存储所述第二数学对象图像和所述修正标注信息。

通过本实施例提供的各种实施方式,利用第一数学对象图像和标注信息训练深度神经网络获得数学对象标注模型;该第一数学对象图像的数量小于预设数量;将第二数学对象图像输入对应的数学对象标注模型,获得第二数学对象图像的初始标注信息;根据初始标注信息和初始标注信息的修正信息,获得第二数学对象图像的修正标注信息;利用第二数学对象图像和修正标注信息,训练数学对象标注模型获得目标数学对象标注模型。由此可见,首先,利用少量的第一数学对象图像和标注信息得到数学对象标注模型,以数学对象标注模型自动标注第二数学对象图像得到初始标注信息,能够节省大量的人力,有效减少人工标注过程中存在的重复操作;然后,通过修正信息调整初始标注信息得到修正标注信息,能够有效提高标注信息的质量;最后,利用第二数学对象图像和修正标注信息优化数学对象标注模型得到目标数学对象标注模型,使得目标数学对象标注模型更加准确,尽量避免出现不可预测的问题。

参见图10,示出了本申请实施例中一种数学对象标注的装置的结构示意图。在本实施例中,利用上述实施例所述的目标数学对象标注模型,所述装置例如具体可以包括:

确定单元1001,用于确定待标注数学对象图像;

第五获得单元1002,用于将所述待标注数学对象图像输入对应的目标数学对象标注模型,获得所述待标注数学对象图像的标注信息。

通过本实施例提供的各种实施方式,在获得上述目标数学对象标注模型的基础上,确定待标注数学对象图像;将待标注数学对象图像输入对应的目标数学对象标注模型,获得待标注数学对象图像的标注信息。由于上述目标数学对象标注模型是优化数学对象标注模型得到,相较于数学对象标注模型,在对数学对象图像进行标注时更加准确;该方式中利用上述目标数学对象标注模型处理待标注数学对象图像,即可获得准确率较高的待标注数学对象图像的标注信息。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号