首页> 中国专利> 相似度评估方法、答案搜索方法、装置、设备及介质

相似度评估方法、答案搜索方法、装置、设备及介质

摘要

本公开涉及一种相似度评估方法、答案搜索方法、装置、设备及介质,其中相似度评估方法包括:获取待评估相似度的目标字符串以及目标文本图像;将目标字符串和目标文本图像输入至预先训练得到的相似度评估模型;通过相似度评估模型分别提取目标字符串的字符特征信息以及目标文本图像的图像特征信息,并基于字符特征信息和图像特征信息评估目标字符串与目标文本图像的内容相似度;其中,字符特征信息包括字符特征间的位置关系和语义关系;图像特征信息包括图像特征间的位置关系和语义关系。上述方式综合提升了相似度评估准确性,有助于进一步提升答案搜索精度,可更好应用于拍照判题中。

著录项

  • 公开/公告号CN113111154A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 北京世纪好未来教育科技有限公司;

    申请/专利号CN202110655717.X

  • 发明设计人 李自荐;秦勇;

    申请日2021-06-11

  • 分类号G06F16/33(20190101);G06F16/583(20190101);G06K9/62(20060101);

  • 代理机构11710 北京开阳星知识产权代理有限公司;

  • 代理人王雪

  • 地址 100089 北京市海淀区中关村大街32号蓝天和盛大厦1702-03室

  • 入库时间 2023-06-19 11:49:09

说明书

技术领域

本公开涉及人工智能技术领域,尤其涉及相似度评估方法、答案搜索方法、装置、设备及介质。

背景技术

拍照判题是人工智能技术在教育领域的一项重要应用,可节约教师判题成本,提升判题效率。具体而言,用户针对题目进行作答后拍照,然后将拍照所得的作答图像上传至可拍照判题的应用程序,由应用程序对作答图像进行识别并评分。

然而,目前的拍照判题技术的应用场合非常受限,大多仅能处理诸如横式、竖式等逻辑可批改的小学数学口算题目,而无法处理常见的带有语义信息的题型,主要难点在于当前技术难以基于用户上传的带有语义信息的题型的图像而从题库中准确搜索出相应的正确答案,发明人经研究发现,突破该难点的关键瓶颈点在于相似度评估方式不佳,目前存在的文本图像之间的相似度评估方式以及字符串之间的相似度评估方式都存在准确度不高的问题,难以较好应用于针对语义信息的题型进行答案搜索的场合。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种相似度评估方法、答案搜索方法、装置、设备及介质。

根据本公开实施例的一方面,提供了一种相似度评估方法,所述方法包括:获取待评估相似度的目标字符串以及目标文本图像;将所述目标字符串和所述目标文本图像输入至预先训练得到的相似度评估模型;通过所述相似度评估模型分别提取所述目标字符串的字符特征信息以及所述目标文本图像的图像特征信息,并基于所述字符特征信息和所述图像特征信息评估所述目标字符串与所述目标文本图像的内容相似度;其中,所述字符特征信息包括字符特征间的位置关系和语义关系;所述图像特征信息包括图像特征间的位置关系和语义关系。

根据本公开实施例的另一方面,提供了一种答案搜索方法,包括:获取待搜索答案的目标问题相应的字符串;采用前述任一项所述的相似度评估方法分别计算所述字符串与题库中每个题目的扫描图像的内容相似度;其中,每个所述扫描图像都关联有相应答案;将内容相似度最高的扫描图像的相应答案作为针对所述目标问题搜索到的答案。

根据本公开实施例的另一方面,提供了一种相似度评估装置,包括:目标获取模块,用于获取待评估相似度的目标字符串以及目标文本图像;模型输入模块,用于将所述目标字符串和所述目标文本图像输入至预先训练得到的相似度评估模型;相似度评估模块,用于通过所述相似度评估模型分别提取所述目标字符串的字符特征信息以及所述目标文本图像的图像特征信息,并基于所述字符特征信息和所述图像特征信息评估所述目标字符串与所述目标文本图像的内容相似度;其中,所述字符特征信息包括字符特征间的位置关系和语义关系;所述图像特征信息包括图像特征间的位置关系和语义关系。

根据本公开实施例的另一方面,提供了一种答案搜索装置,包括:字符串获取模块,用于获取待搜索答案的目标问题相应的字符串;相似度计算模块,用于采用前述任一项所述的相似度评估方法分别计算所述字符串与题库中每个题目的扫描图像的内容相似度;其中,每个所述扫描图像都关联有相应答案;答案确定模块,用于将内容相似度最高的扫描图像的相应答案作为针对所述目标问题搜索到的答案。

根据本公开实施例的另一方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的相似度评估方法或答案搜索方法。

根据本公开实施例的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的相似度评估方法或答案搜索方法。

本公开实施例提供的上述相似度评估方法及装置,能够将待评估相似度的目标字符串以及目标文本图像输入至预先训练得到的相似度评估模型,通过相似度评估模型分别提取目标字符串的字符特征信息(包括字符特征间的时序关系、位置关系和语义关系中的多种)以及目标文本图像的图像特征信息(包括图像特征间的时序关系、位置关系和语义关系中的多种),并基于字符特征信息和图像特征信息评估目标字符串与目标文本图像的内容相似度。上述方式提出了字符串与文本图像之间的跨信息模态的相似度评估方法,通过字符串与文本图像之间基于各自的位置关系和语义关系进行比较,既改善了文本图像之间相似度评估方式因无法聚焦在字符层面上而存在的准确度不高问题,又改善了字符串之间的相似度评估方式因不如图像信息全面(诸如丢失了位置信息)而导致的准确度不高的问题,本公开实施例提出的上述字符串与文本图像之间的跨信息模态的相似度评估方法,综合提升了相似度评估准确性,有助于进一步提升答案搜索精度,从而更好应用于拍照判题中。

本公开实施例提供的上述答案搜索方法及装置,可以首先获取待搜索答案的目标问题相应的字符串,然后采用上述相似度评估方法分别计算字符串与题库中每个题目的扫描图像的内容相似度;其中,每个所述扫描图像都携带有相应答案;最后将内容相似度最高的扫描图像的相应答案作为针对所述目标问题搜索到的答案。这种答案搜索方式采用目标问题的字符串直接从题库中搜索内容相似度最高的扫描图像对应的答案,因为采用的是字符串与文本图像之间的跨信息模态的相似度评估方法,如上所述,综合提升了相似度评估准确性,进一步提升了答案搜索精度。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种相似度评估方法的流程示意图;

图2为本公开实施例提供的一种相似度评估模型的训练方法流程图;

图3为本公开实施例提供的一种相似度评估模型的结构示意图;

图4为本公开实施例提供的另一种相似度评估模型的结构示意图;

图5为本公开实施例提供的另一种相似度评估模型的结构示意图;

图6为本公开实施例提供的一种答案搜索方法的流程示意图;

图7为本公开实施例提供的一种相似度评估装置的结构示意图;

图8为本公开实施例提供的一种答案搜索装置的结构示意图;

图9为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

相关技术中的拍照判题仅可以处理一些数学算术等常规计算题型,难以处理诸如填空、问答等具有语义信息的题型,应用范围较为局限。因为这些强语义相关的题目,如果从人的角度来讲就是要理解题意,如果要采用计算机等电子设备来进行此类题目的批改,一种理论策略是令电子设备自动解题,即通过自然语言理解等技术综合应用,模拟人解决此类问题的过程进行解题,但是此类技术目前尚不成熟,无法投入产品使用,对于此,发明人提出另一种当前可行的策略是预先构建题库,题库中包含有大量题目及相应的标准答案,为了便于实现,可以在题库中加入大量题目的扫描图像,且扫描图像都关联有标准答案;然后令计算机等电子设备从题库中搜索与待批改图像中的题目一致的原题,基于原题对应的标准答案对待批改图像中的题目作答结果进行评分。

若要基于用户上传的待批改图像从题库中搜索相应的题目扫描图像,可以理解的是,待批改图像与题目扫描图像均为文本图像,基于相关技术而言,有两种方式:一种方式为采用图像之间的相似度评估方法,另一种是将文本图像均转换为字符串,然后采用字符串之间的相似度评估方法。发明人对此研究后,分别阐述如下:

(一)关于图像之间的相似度评估方法,目前有如下三种:1)使用经验公式评估两张图像相似度,具体而言,直接从像素值上通过经验公式计算来判断两张图像的相似性。但是,这种方式根本无法利用图像的语义(内容)信息。2)使用模式识别的方法评估两张图像相似度,需要使用人工经验设计的算子,如采用SIFT(尺度不变特征变换)、SURF(加速提取鲁棒性特征)分别提取两张图像的特征点,组成特征向量,然后采用诸如余弦距离、欧式距离或汉明距离等度量方式来计算两个特征向量向量之间的距离,最后根据预先设置的阈值,判断两张图像的相似度。但是,这种方式需要人为设置阈值,所以在一定程度上,评估结果的好坏跟人工经验息息相关,也存在一定的不确定性。3)采用深度学习方法评估两张图像相似度,需要预先对神经网络模型进行训练,通过反向传播算法来优化模型参数,最后通过训练好的神经网络模型分别提取两张图像的特征,基于两张图像的图像特征判断两张图像的相似度。这种方式虽然可以达到较好的效果,但需要获取及标注大量的图像训练数据,训练数据的数量和质量都直接制约了神经网络模型输出结果的准确率。而基于深度学习的方式构建的文本图像相似度判断模型在训练时需要构建正负样本,通过二分类方式判别是否相似,但是训练所需的样本数据难以收集,收集到的正负样本通常也不均衡,导致最终训练得到的模型效果较差,文本图像之间的相似度评估准确度不高。

另外,无论是上述何种方式,关于仅比较两张文本图像之间的相似度而言,都难以精确到字符语义层面上,诸如,两张包含字迹的文本图像看上去相似,但实质内容不同,尤其对于“人”和“入”、“木”和“术”等相似的字几乎无法通过直接比对图像之间的相似度而区分开,因此内容相似度的评估准确率不高,因此难以准确的从题库的扫描图像中筛选出与用户上传图像(待批改图像)匹配的题目及相应答案。

(二)关于字符串之间的相似度评估方法,主要是将两张文本图像都转换为字符串,然后比对字符串之间的相似度。但是,这种方式确会丢失掉图像本身的信息,诸如丢失掉文本之间的位置信息、关联信息等,仅是从二维层面上进行了相似度评估,同样会影响相似度评估精度,导致从题库中搜索答案的准确度不高。

基于以上论述,为改善以上问题至少之一,本公开实施例提出了一种相似度评估方法、答案搜索方法、装置、设备及介质,利用跨信息模态的相似度评估方法,可以将文字信息和图像信息结合在一起进行相似度评估,以此实现更为精准的文本图像搜索,可较好应用于诸如从题库中搜索答案、拍照判题等场景。为便于理解,详细阐述如下:

图1为本公开实施例提供的一种相似度评估方法的流程示意图,该方法可以由相似度评估装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法主要包括如下步骤S102至步骤S106:

步骤S102,获取待评估相似度的目标字符串以及目标文本图像。文本图像也即包含有文本的图像,诸如包含有题目的扫描图像等。

本公开实施例对目标字符串和目标文本图像的获取方式不进行限定,任何需要比对相似度的字符串以及文本图像均可,具体可根据应用场景而灵活设置。在诸如拍照判题场景中,可以从用户的上传文本图像(诸如用户拍摄的待批改试卷)中进行文本检测及文本识别,从而将提取出的字符串作为目标字符串;然后将题库中的题目扫描图像逐一抽取作为目标文本图像。

步骤S104,将目标字符串和目标文本图像输入至预先训练得到的相似度评估模型。该相似度评估模型是一种神经网络模型,通过训练可以较为准确的评估字符串与文本图像之间的内容相似度。

步骤S106,通过相似度评估模型分别提取目标字符串的字符特征信息以及目标文本图像的图像特征信息,并基于字符特征信息和图像特征信息评估目标字符串与目标文本图像的内容相似度。

其中,字符特征信息至少包括字符特征间的位置关系和语义关系,还可以包括时序关系、前后关联关系等。图像特征信息至少包括图像特征间的位置关系和语义关系,还可以包括时序关系、前后关联关系等。

上述相似度评估模型通过体现位置关系和语义关系的字符特征信息和图像特征信息可充分评估字符串与文本图像之间的内容相似度,既改善了文本图像之间相似度评估方式因无法聚焦在字符层面上而存在的准确度不高问题,又改善了字符串之间的相似度评估方式因不如图像信息全面(诸如丢失了位置信息)而导致的准确度不高的问题,本公开实施例提出的上述字符串与文本图像之间的跨信息模态的相似度评估方法,综合提升了相似度评估准确性,有助于进一步提升答案搜索精度,从而更好应用于拍照判题中。

在一些实施方式中,上述相似度评估模型可以按照以下步骤训练得到:

(1)获取多个训练样本组,每个训练样本组包括文本图像样本以及字符串样本,且训练样本组标注有文本图像样本与字符串样本之间的内容相似度。

(2)采用多个训练样本组对初始模型进行训练,将训练结束时所得的模型作为相似度评估模型。

可以理解的是,上述相似度评估模型所需的训练样本组由字符串样本和文本图像样本构建而成,相较于相关技术中用于评估文本图像之间的相似度的网络模型面临的难以获取大量训练样本、且二分类所需的正负样本不均衡等问题,本公开实施例的相似度评估模型更容易获得训练所需的字符串样本以及文本图像样本,主要原因在于字符串可轻易更改,因此能够非常容易的获取到大量字符串,并将相似度评估问题转换为回归问题,也即,可将原本相似度评估中涉及的二分类问题(评判相似或不相似)转换为函数问题(诸如,可通过预测0~1之间的数值来衡量相似度,越接近1越相似)。为便于理解,可参见图2所示的一种相似度评估模型的训练方法流程图,该方法侧重与描述训练样本组的获取过程,主要包括如下步骤S202至步骤S210:

步骤S202,获取文本图像样本,并提取文本图像样本的字符串,将提取到的字符串作为原始字符串。

步骤S204,采用增加字符、删减字符和修改字符中的一种或多种方式对原始字符串进行篡改,得到多个篡改字符串。在实际应用中,可以按照指定方式对原始字符串进行篡改,也可以对原始字符串进行增、删、改等随机篡改,得到多个(可根据实际需求而设定具体数量)篡改字符串。也即,一个原始字符串即可通过篡改形式衍生得到多个字符串。

步骤S206,分别计算每个篡改字符串和原始字符串之间的相似度,并将每个篡改字符串和原始字符串之间的相似度作为每个篡改字符串与文本图像样本之间的内容相似度。

在一些实施方式中,可以直接采用相关技术中的字符串相似度计算方法计算篡改字符串和原始字符串之间的相似度,还可以自行设置字符串相似度之间的计算规则。在本公开实施例给出了一种计算每个篡改字符串与原始字符串之间的相似度的具体实施方式,可以参照如下步骤1至步骤3实现:

步骤1,对于每个篡改字符串,计算该篡改字符串与原始字符串之间的编辑距离;编辑距离可以理解为将一个字符串转换为另一个字符串时所需要的最小编辑操作的次数。

步骤2,比较该篡改字符串的长度与原始字符串的长度,从中选取最大字符串长度。

步骤3,基于编辑距离与最大字符串长度,计算该篡改字符串与原始字符串之间的相似度。在一种具体的实施示例中,可以首先计算编辑距离与最大字符串长度之间的比值,然后令数值1减去比值,得到该篡改字符串与原始字符串之间的相似度,也即,篡改字符串与原始字符串之间的相似度=1-编辑距离/最大字符串长度。通过这种方式可以更为客观地衡量出字符串之间的相似度。

步骤S208,令原始字符串和每个篡改字符串分别作为字符串样本,通过文本图像样本和每个字符串样本分别组合得到多个训练样本组,并标注每个训练样本组中字符串样本与文本图像样本之间的内容相似度。

也即,对于每个文本图像样本而言,都对应有一个提取出的原始字符串,以及多个(假设N个)篡改字符串,则此时即可构成N+1个训练样本组,如果抽取M个文本图像样本,则可以轻松获得到M*(N+1)个训练样本组,解决了训练样本收集困难的问题。另外,将篡改字符串和原始字符串之间的相似度作为该篡改字符串与文本图像样本之间的内容相似度进行标注,直接将相似度评估问题转换为回归问题,避免了传统采用文本图像相似度评估方法的网络模型所需的训练样本中存在正负样本不均衡,导致训练结果不佳的问题。

步骤S210,采用多个训练样本组对初始模型进行训练,基于预设损失函数调整所述初始模型的参数,将训练结束时所得的模型作为相似度评估模型。在一些实施方式中,该预设损失函数包括均方误差损失函数。

本公开实施例还提供了相似度评估模型的结构示例,首先可参见图3所示的一种相似度评估模型的结构示意图,包括图像特征提取网络、字符特征提取网络、以及与图像特征提取网络和字符特征提取网络分别相连的相似度计算网络。

其中,图像特征提取网络的输入为目标文本图像,输出为图像特征信息;图像特征信息诸如可以包括图像特征间的位置关系、语义关系、时序关系、前后关联关系等信息。字符特征提取网络的输入为目标字符串,输出为字符特征信息;字符特征信息诸如可以包括字符特征间的位置关系、语义关系、时序关系、前后关联关系等信息。相似度计算网络的输入为图像特征信息和字符特征信息,输出为目标字符串与目标文本图像的内容相似度。

在图3的基础上,参见图4所示的另一种相似度评估模型的结构示意图,示意出了图像特征提取网络和字符特征提取网络的一种实现方式,如图4所示,图像特征提取网络包括特征提取单元和图像信息提取单元;其中,特征提取单元用于提取目标文本图像的图像特征向量;该图像特征向量包括深层特征和浅层特征,图像信息提取单元用于基于图像特征向量提取出图像特征信息。图像信息提取单元可基于深层特征和浅层特征进行分析,得到各图像特征之间的时序关系、位置关系、语义关系等。

字符特征提取网络包括编码单元和字符信息提取单元;其中,编码单元用于对目标字符串进行编码,以将目标字符串转换为字符特征向量;具体而言,可以将字符转换为数字向量,以便于后续网络处理。字符信息提取单元用于基于字符特征向量提取出字符特征信息,也即通过对字符特征向量进行分析,得到各字符特征之间的时序关系、位置关系、语义关系等。

在图4的基础上,参见图5所示的另一种相似度评估模型的结构示意图,示意出了特征提取单元包括残差网络;图像信息提取单元包括第一长短期记忆网络。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高识别准确率。此外,特征提取单元和图像信息提取单元之间还连接有第一维度转换单元,用于将残差网络的输出特征进行维度转换后,再输入给第一长短期记忆网络,从而便于第一长短期记忆网络更为方便的对特征提取单元提取出的特征进行处理。其中,长短期记忆网络(LSTM)是一种循环神经网络,可以充分解析出各特征之间的关系,诸如位置关系、时序关系、语义关系、关联关系等。

该残差网络诸如可以采用Resnet18实现,在一种具体的实施方式中,Resnet18网络由4个block块串联构建,每个block块包括若干层卷积操作,第一个block块输出的特征向量(特征映射)大小为原图的1/4,第二个为原图1/8,第三个为原图1/16,第四个为原图1/32,每个block块输出的特征向量数量均为128,然后由第一维度转换单元将这四组128通道的特征向量全部通过插值的方式缩放至原图大小1/32并串联叠加,得到一组512通道的特征向量,然后再将这组512维特征向量输入给第一长短期记忆网络,由第一长短期记忆网络对其进行处理,得到与输入大小相对应的32维向量,逐点拼接起来之后得到与输入大小一致(假设为n*m*32)的特征向量,该特征向量即能够充分体现出图像特征间的位置关系、语义关系、时序关系、前后关联关系等信息。应当理解的是,以上仅为一种简单的示例性说明,不应当被视为限制。

在图5中示意出编码单元包括Word2vec算法或glove算法;字符信息提取单元包括第二长短期记忆网络。此外,编码单元和字符信息提取单元之间还连接有第二维度转换单元,用于将编码单元的输出特征进行维度转换后,再输入给字符信息提取单元,以便字符信息提取单元能够更好的处理。具体实现时,编码单元通过Word2vec算法或glove算法对输入的字符串中的每个字词进行编码,将字符串转换为数字向量,第二维度转换单元可以将数字向量进行维度转换,得到一个N*M*L的特征向量,其中,N是指定的排列宽度大小,M是指定的排列高度,L是每个字词经过Word2vec算法或glove算法之后得到的编码向量长度。具体实现时,可以基于字词出现顺序(诸如从左到右或者从上往下)对数字向量进行排列处理,得到将N*M*L的特征向量。然后再将N*M*L的特征向量输入给字符信息提取单元,具体而言,字符信息提取单元可对N*M*L的特征向量逐点对应的L维向量进行处理,输出经过逐点拼接和重排列之后,得到一个与输入大小一致的N*M*32的特征向量,该特征向量即可充分体现出字符特征间的位置关系、语义关系、时序关系、前后关联关系等信息。

在图5中进一步示意出相似度计算网络包括依次连接的特征合并层、卷积层和全连接层,此时将图像特征提取网络输出的n*m*32特征向量与字符特征提取网络输出的N*M*32特征向量输入至特征合并层,特征合并层可以先利用插值的方式将n*m*32特征向量和N*M*32特征向量缩放至同样大小,然后进行串联拼接,得到64通道的特征向量,之后由卷积层对64通道的特征向量进行两次卷积运算,在卷积层后可以连接全连接层,具体而言,可以先后连接一个32个节点的全连接层以及一个1个节点的全连接层,最后的全连接层输出的结果即为输入字符串与图像之间的相似度。

应当理解的是,上述仅为一种相似度评估模型的示例说明,不应当被视为限制,在实际应用中,相似度评估模型可以增加更多的网络结构。

上述相似度评估模型可采用前述如图2所示的相似度评估模型的训练方法训练得到,在训练过程中,输入给相似度评估模型的是包括文本图像样本以及字符串样本的训练样本组,然后基于相似度评估模型的输出结果以及预设的损失函数反向调整相似度评估模型的网络参数,直至相似度评估模型可输出符合预期的结果为止,得到训练好的相似度评估模型。

在前述基础上,图6为本公开实施例提供的一种答案搜索方法的流程示意图,该方法可以由答案搜索装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图6所示,该方法主要包括如下步骤S602至步骤S606:

步骤S602,获取待搜索答案的目标问题相应的字符串。

步骤S604,采用上述相似度评估方法分别计算字符串与题库中每个题目的扫描图像的内容相似度;其中,每个扫描图像都携带有相应答案。其中,题库中包含有预先录入的大量题目的扫描图像。

步骤S606,将内容相似度最高的扫描图像的相应答案作为针对目标问题搜索到的答案,也即,得到了该目标问题的标准答案,以便应用该参考答案对用户针对该目标问题的作答内容进行评分。

上述答案搜索方法采用目标问题的字符串直接从题库中搜索内容相似度最高的扫描图像对应的答案,因为采用的是前述实施例提供的字符串与文本图像之间的跨信息模态的相似度评估方法,如上所述,综合提升了相似度评估准确性,进一步提升了答案搜索精度。

上述方法可以较好应用于拍照判题场景中,此时获取待搜索答案的目标问题相应的字符串的步骤,包括:获取用户上传的作答图像;对作答图像先后进行文本检测处理和文本识别处理,得到作答图像中的目标问题相应的字符串。用户的作答图像也即用户通过手机、平板电脑等设备对题目的作答卷(待批改试卷)进行拍摄后得到。在一些实施方式中,通过版面分析模型和文本行检测模型可以检测出作答图像中的目标问题所在位置,得到目标问题在作答图像中的坐标,然后根据该坐标对作答图像进行裁剪,得到目标问题的图像,将目标问题的图像传送给文本识别模型,即可得到目标问题相应的字符串。此外,还可以标记出目标题目相应的字符串在作答图像中的位置顺序。

进一步,上述方法还包括:获取作答图像中的目标问题对应的解答内容;比对解答内容和搜索到的答案,基于比对结果确定目标问题的用户解答得分。作答图像中包含有印刷体题目以及手写体答案(也即用户的解答内容),在一些实施方式中,电子设备可以采用文本检测技术分别检测出题目以及解答内容在作答图像中的位置,并且通过文本识别技术提取出题目相应的字符串以及解答内容相应的字符串。在实际应用中,获取目标问题对应的解答内容相应的字符串与获取目标问题相应的字符串可以同时进行,且获取方式相同,只需通过版面分析和/或字迹分析将印刷体的目标问题以及手写体的答案进行区分即可。

通过比对解答内容相应的字符串与搜索到的答案来计算解答内容与搜索到的答案(标准答案)之间的相似度,基于相似度进行评分,也即确定用户针对该目标问题的解答得分。

综上所述,本公开实施例提供的上述跨信息模态的相似度评估方法及答案搜索方法,通过字符串与文本图像之间基于各自的位置关系和语义关系进行比较,既改善了文本图像之间相似度评估方式因无法聚焦在字符层面上而存在的准确度不高问题,又改善了字符串之间的相似度评估方式因不如图像信息全面(诸如丢失了位置信息)而导致的准确度不高的问题,综合提升了相似度评估准确性,有助于进一步提升答案搜索精度,从而更好应用于拍照判题中。

而且,本公开实施例中的相似度评估模型所需的训练样本组由字符串样本和文本图像样本构建而成,相较于相关技术中用于评估文本图像之间的相似度的网络模型面临的难以获取大量训练样本、且二分类所需的正负样本不均衡等问题,本公开实施例的相似度评估模型更容易获得训练所需的字符串样本以及文本图像样本,而且可以将相似度评估问题转换为回归问题,避免了训练数据难收集、正负样本构建难且容易出现不均衡的问题,因而极大简化了模型训练方式,且通过训练样本的数量及质量保障,可进一步保障了训练所得模型的准确率和可靠性。

对应于前述相似度评估方法,本公开实施例提供了一种相似度评估装置,该装置可由软件和/或硬件实现,一般可集成在电子设备中,参见图7所示的一种相似度评估装置的结构示意图,主要包括如下模块:

目标获取模块702,用于获取待评估相似度的目标字符串以及目标文本图像;

模型输入模块704,用于将目标字符串和目标文本图像输入至预先训练得到的相似度评估模型;

相似度评估模块706,用于通过相似度评估模型分别提取目标字符串的字符特征信息以及目标文本图像的图像特征信息,并基于字符特征信息和图像特征信息评估目标字符串与目标文本图像的内容相似度;

其中,字符特征信息包括字符特征间的位置关系和语义关系;图像特征信息包括图像特征间的位置关系和语义关系。

上述相似度评估模型通过体现位置关系和语义关系的字符特征信息和图像特征信息可充分评估字符串与文本图像之间的内容相似度,既改善了文本图像之间相似度评估方式因无法聚焦在字符层面上而存在的准确度不高问题,又改善了字符串之间的相似度评估方式因不如图像信息全面(诸如丢失了位置信息)而导致的准确度不高的问题,本公开实施例提出的上述字符串与文本图像之间的跨信息模态的相似度评估装置,综合提升了相似度评估准确性,有助于进一步提升答案搜索精度,从而更好应用于拍照判题中。

在一些实施方式中,上述装置还包括模型训练模块,用于:获取多个训练样本组,每个所述训练样本组包括文本图像样本以及字符串样本,且所述训练样本组标注有所述文本图像样本与所述字符串样本之间的内容相似度;采用所述多个训练样本组对初始模型进行训练,将训练结束时所得的模型作为相似度评估模型。

在一些实施方式中,上述模型训练模型还用于:获取文本图像样本,并提取所述文本图像样本的字符串,将提取到的所述字符串作为原始字符串;采用增加字符、删减字符和修改字符中的一种或多种方式对所述原始字符串进行篡改,得到多个篡改字符串;分别计算每个所述篡改字符串和所述原始字符串之间的相似度,并将每个所述篡改字符串和所述原始字符串之间的相似度作为每个所述篡改字符串与所述文本图像样本之间的内容相似度;令所述原始字符串和每个所述篡改字符串分别作为字符串样本,通过所述文本图像样本和每个所述字符串样本分别组合得到多个训练样本组,并标注每个所述训练样本组中字符串样本与文本图像样本之间的内容相似度。

在一些实施方式中,上述模型训练模型还用于:对于每个所述篡改字符串,计算该篡改字符串与所述原始字符串之间的编辑距离;比较该篡改字符串的长度与所述原始字符串的长度,从中选取最大字符串长度;基于所述编辑距离与所述最大字符串长度,计算该篡改字符串与所述原始字符串之间的相似度。

在一些实施方式中,上述模型训练模型还用于:计算所述编辑距离与所述最大字符串长度之间的比值;令数值1减去所述比值,得到该篡改字符串与所述原始字符串之间的相似度。

在一些实施方式中,所述相似度评估模型包括图像特征提取网络、字符特征提取网络、以及与所述图像特征提取网络和所述字符特征提取网络分别相连的相似度计算网络;其中,所述图像特征提取网络的输入为所述目标文本图像,输出为图像特征信息;所述字符特征提取网络的输入为所述目标字符串,输出为字符特征信息;所述相似度计算网络的输入为所述图像特征信息和所述字符特征信息,输出为所述目标字符串与所述目标文本图像的内容相似度。

在一些实施方式中,所述图像特征提取网络包括特征提取单元和图像信息提取单元;其中,所述特征提取单元用于提取所述目标文本图像的图像特征向量;所述图像信息提取单元用于基于所述图像特征向量提取出图像特征信息。

在一些实施方式中,所述特征提取单元包括残差网络;所述图像信息提取单元包括第一长短期记忆网络。

在一些实施方式中,所述字符特征提取网络包括编码单元和字符信息提取单元;其中,所述编码单元用于对所述目标字符串进行编码,以将所述目标字符串转换为字符特征向量;所述字符信息提取单元用于基于所述字符特征向量提取出字符特征信息。

在一些实施方式中,所述编码单元包括Word2vec算法或glove算法;所述字符信息提取单元包括第二长短期记忆网络。

本公开实施例所提供的相似度评估装置可执行本发明任意实施例所提供的相似度评估方法,具备执行方法相应的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。

对应于前述答案搜索方法,本公开实施例提供了一种答案搜索装置,该装置可由软件和/或硬件实现,一般可集成在电子设备中,参见图8所示的一种答案搜索装置的结构示意图,主要包括如下模块:

字符串获取模块802,用于获取待搜索答案的目标问题相应的字符串;

相似度计算模块804,用于采用前述任一项的相似度评估方法分别计算字符串与题库中每个题目的扫描图像的内容相似度;其中,每个扫描图像都携带有相应答案;

答案确定模块806,用于将内容相似度最高的扫描图像的相应答案作为针对目标问题搜索到的答案。

上述答案搜索装置采用目标问题的字符串直接从题库中搜索内容相似度最高的扫描图像对应的答案,因为采用的是前述实施例提供的字符串与文本图像之间的跨信息模态的相似度评估方法,如上所述,综合提升了相似度评估准确性,进一步提升了答案搜索精度。

在一些实施方式中,字符串获取模块802还用于:获取用户上传的作答图像;对所述作答图像先后进行文本检测处理和文本识别处理,得到所述作答图像中的目标问题相应的字符串。

在一些实施方式中,上述装置还包括:

解答内容获取模块,用于获取所述作答图像中的目标问题对应的解答内容;

评分模块,用于比对所述解答内容和所述搜索到的答案,基于比对结果确定所述目标问题的用户解答得分。

本公开实施例所提供的答案搜索装置可执行本公开任意实施例所提供的答案搜索方法,具备执行方法相应的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。

本公开实施例还提供了一种电子设备,电子设备包括:处理器以及用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述任一项相似度评估方法,或者实现上述任一项答案搜索方法。

图9为本公开实施例提供的一种电子设备的结构示意图。如图9所示,电子设备900包括一个或多个处理器901和存储器902。

处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备900中的其他组件以执行期望的功能。

存储器902可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器901可以运行所述程序指令,以实现上文所述的本公开的实施例的相似度评估方法或答案搜索方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中,电子设备900还可以包括:输入装置903和输出装置904,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外,该输入装置903还可以包括例如键盘、鼠标等等。

该输出装置904可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图9中仅示出了该电子设备900中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备900还可以包括任何其他适当的组件。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的相似度评估方法或者答案搜索方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本公开实施例中的相似度评估方法或者答案搜索方法。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号