首页> 中国专利> 简答题评分预测

简答题评分预测

摘要

实施包括计算机实现的方法、计算机可读介质和/或用于简答题评分预测的系统。

著录项

  • 公开/公告号CN112740132A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 主动学习有限公司;

    申请/专利号CN201980062445.3

  • 申请日2019-08-09

  • 分类号G05B23/02(20060101);G06F40/20(20200101);G06F40/40(20200101);

  • 代理机构44202 广州三环专利商标代理有限公司;

  • 代理人熊永强

  • 地址 美国华盛顿州西雅图市

  • 入库时间 2023-06-19 10:46:31

说明书

本申请主张申请号为62/717,723的美国临时专利申请的优先权,该临时专利申请的名称为“简答题评分预测”,该临时专利申请提交于2018年8月10日,本申请要求该临时专利申请的全部优先权。

背景技术

有些类型的考题的评分已经可以自动化,例如多项选择题,数字型答案的题目,等等。然而,其他类型的试题,例如简答题,等等,采用自由文本的形式,评分可能会很耗时间。为简答题格式的试题提供自动评分或预测就非常必要。

此处提供的背景描述是为了一般地呈现本申请的研究范围。目前提及的发明人的工作,在某种程度上,是在这个背景状况下以及一些可能不属于本申请提交时的现有技术的内容前提下进行描述的,该工作内容并没有被现有技术明确或隐含披露。

发明内容

提供一些实施方案,这些实施方案通常与计算机测试有关,特别是与简答题评分预测的系统、方法和计算机可读介质有关。

一些实施方案可以包括计算机实现的方法。该方法可以包括接收对一测试例的简答题作答,以及确定对应该测试例的预评分作答的数量。该方法还可以包括,当所述预评分作答的数量落入一阈值时,将该简答题作答、一个或多个预评分作答及所述测试例应用于一相似度模型中,利用该相似度模型,确定该简答题作答与一个或多个预评分作答之间的相似度。

该方法可以进一步包括:将该简答题作答与该一个或多个预评分作答之间的该相似度和与该一个或多个预评分作答相对应的预定分数应用于一评分模型中,使用该评分模型,产生一与该简答题作答相对应的评分预测。在一些实施例中,确定该简答题作答与该一个或多个预评分作答之间的相似度包括:通过程式基于该简答题作答中的字符、单词、单词用法、词序或单词位置中的一个或多个来确定该相似度。

在一些实施例中,确定该简答题作答与该一个或多个预评分作答之间的相似度包括:确定一具有范围的数值,该范围表示该简答题作答与该一个或多个预评分作答之间的相似度等级。该方法还包括:显示一用户界面以呈现该评分预测。

该方法还可以进一步包括:将该评分预测存储于一数据库。该方法还可以包括:将该评分预测与该学生在一特定测试中的其他作答的评分合并,以生成该学生在该特定测试中的总得分。

该方法还可以进一步包括:向教师提供该评分预测建议,及提供一用户界面供教师选择接受或修改该评分预测。

该方法还可以进一步包括:训练该相似度模型。其中,该相似度模型的训练包括:生成一个或多个问题及答案元组作为训练样本,其中,每个该问题及答案元组均包括两个或更多的答案;将该一个或多个问题及答案元组应用于该相似度模型中,生成一相似度分数值,该相似度分数值代表该两个或更多的答案的相似度;基于该相似度分数值通过该评分模型预测得到一评分预测;及,基于该评分模型预测得到的该评分预测调整该相似度模型中的一个或多个参数。

在一些实施例中,训练该相似度模型还进一步包括:比较通过该相似度模型得到的该评分预测及与一训练样本对应的已知分数;其中,该相似度模型包括一神经网络,调整该相似度模型中的一个或多个参数包括:调整该神经网络的一层或多层的一个或多个权重,作为该相似度模型得到的该评分预测及与该训练样本对应的该已知分数的差异的反馈。在一些实施例中,当一个或多个该相似度模型预测的评分预测落入一个或多个对应的已知分数的阈值内时,相似度模型或评分模型的训练完成。

该方法还可以包括:提供该相似度模型的输入值,包括:基于该简答题作答及多个预评分作答中的一个的第一相似度函数值,基于该简答题作答、多个预评分作答及该测试例中的一个的第二相似度函数值,及基于该简答题作答及多个预评分作答中的一个的重叠函数值。该方法还可以进一步包括:提供该简答题作答、该一个或多个预评分作答及该一个或多个预评分作答的评分之间的相似点分布,并将该相似点分布作为该评分模型的输入值。

在一些实施例中,还可以包括:存储有上述指令的非瞬时计算机可读存储介质,当上述指令被一处理器执行时,使所述处理器运行一些操作。该操作可以包括:接收对一测试例的一简答题作答,以及确定对应该测试例的预评分作答的数量。该方法还可以包括:当该预评分作答的数量落入一阈值时,将该简答题作答、一个或多个预评分作答及所述测试例应用于一相似度模型中,利用该相似度模型,确定该简答题作答与一个或多个预评分作答之间的相似度。该方法还可以进一步包括:将该简答题作答与该一个或多个预评分作答之间的该相似度及与该一个或多个预评分作答相对应的预定分数应用于一评分模型中,使用该评分模型,产生一与该简答题作答相对应的评分预测。

在一些实施例中,确定该简答题作答与该一个或多个预评分作答之间的相似度包括:通过程式基于该简答题作答中的字符、单词、单词用法、词序或单词位置中的一个或多个来确定该相似度。在一些实施例中,确定该简答题作答与该一个或多个预评分作答之间的相似度包括:确定一具有范围的数值,该范围表示该简答题作答与该一个或多个预评分作答之间的相似度等级。

一些实施例还可以包括:一系统,包括一个或多个处理器及与所述第一个或多个处理器相匹配的存储器,该存储器存储有一些指令,当上述指令被执行时,使该一个或多个处理器运行一些操作。该操作可以包括:接收对一测试例的一简答题作答,以及确定该测试例的预评分作答的数量。该操作还可以包括:当该预评分作答的数量落入一阈值时,将该简答题作答、一个或多个预评分作答及所述测试例应用于一相似度模型中,利用该相似度模型,确定该简答题作答与一个或多个预评分作答之间的相似度。该操作还可以进一步包括:将该简答题作答与该一个或多个预评分作答之间的该相似度及与该一个或多个预评分作答相对应的预定分数应用于一评分模型中,使用该评分模型,生产一与该简答题作答相对应的评分预测。

该操作还可以进一步包括:将该评分预测与该学生在一特定测试中的其他作答的评分合并,以生成该学生在该特定测试中的总得分。该操作还可以进一步包括:向教师提供该评分预测建议,及提供一用户界面供教师选择接受或修改该评分预测。

该操作还可以进一步包括:提供该相似度模型的输入值,包括:基于该简答题作答及多个预评分作答中的一个的第一相似度函数值,基于该简答题作答、多个预评分作答及该测试例中的一个的第二相似度函数值,及基于该简答题作答及多个预评分作答中的一个的重叠函数值。该操作还可以进一步包括:提供该简答题作答、该一个或多个预评分作答及该一个或多个预评分作答的评分之间的相似点分布,并将该相似点分布作为该评分模型的输入值。

附图说明

图1是一些实施例中的一示例性的简答测试打分系统及网络环境的模块图。

图2是一些实施例中的具有示例输入和输出的简答题评分预测系统的示意图。

图3是一些实施例中的示例性的简答题评分预测方法的流程图。

图4是一些实施例中的示例性的训练一简答题评分预测模型的方法的流程图。

图5是用于本申请一个或多个实施例的示例性装置的模块图。

图6是一些实施例中的用于简答题评分预测的示例性用户界面的示意图。

图7是一些实施例中的具有示例输入和输出的简答题评分预测系统的示意图。

图8是一些实施例中的示例性的简答题评分预测方法的流程图。

具体实施方式

本申请的系统及方法可以克服一些常规的计算机测试系统及方法的一个或多个缺陷。例如,基于计算机学习模型的简答题评分预测可以减少人工评分的不一致性,还可以减少得到通过计算机系统提供的简答题作答评分的耗时。简答题作答可以包括,但不限于包括,少于20个字的作答、在5-10个字之间的作答、少于2段的自由格式的文本作答、少于20秒的口述作答,等等。

图1示出了示例环境100的框图,该示例环境100可以在本文所述的一些简答评分实施例中使用。在一些实施例中,环境100包括一个或多个测试服务器系统,例如,图1的示例中的测试服务器系统102。测试服务器系统102可以例如与网络130通信。测试服务器系统102可以包括服务器设备104和数据库106或其他存储设备。测试服务器系统102可以包括云计算和/或存储系统。环境100还可以包括一个或多个学生设备,例如学生设备120、122、124和126,它们可以经由网络130彼此和/或与测试服务器系统102通信。网络130可以是任何类型的,包括因特网、局域网(LAN)、无线网络、交换机或集线器连接等中的一个或多个的通信网络。在一些实施例中中,网络130可以包括设备之间的对等通信132,例如,使用对等无线协议。

为了便于说明,图1示出了用于测试服务器系统102、服务器设备104和数据库106的一个模块,并且示出了用于学生设备120、122、124和126的四个模块。代表服务器系统102、104和106的模块可以代表多个系统、服务器设备和网络数据库,并且能以与图示不同的配置来提供这些模块。例如,测试服务器系统102能够代表可由网络130与其他服务器系统通信的多个服务器系统。在一些实施例中,可以在与服务器设备104相分离的服务器系统模块中提供数据库106和/或其他存储设备,且,数据库106和/或其他存储设备可以通过网络130与服务器设备104和其他服务器系统进行通信。而且,学生设备的数量可以为任意。

每个学生设备均可以是任何类型的电子设备,例如台式计算机、膝上型计算机、便携式或移动设备、可穿戴设备等。一些学生设备还可以包含有类似于数据库106的本地数据库或其他存储器。在其他实施例中,环境100可以不设置所示的所有元器件和/或可以具有包括其他类型的元件的其他器件来代替本文描述的那些元件或除本文所述的元件之外的元件。

在各种实施例中,学生用户U1,U2,U3和U4可以包括在一教育环境中的一个或多个学生,并且可以与测试服务器系统102和/或相应的学生设备120、122、124彼此通信。在一些实施例中,用户U1,U2,U3和U4可以通过在各自的客户端设备和/或服务器系统102上运行的应用程序相互交互,和/或通过应用于服务器系统102上的网络服务相互交互,网络服务例如可以为聊天/消息收发服务、社交网络服务或其他类型的网络服务。例如,各个客户端设备120、122、124和126可以与一个或多个服务器系统(例如,服务器系统102)进行来回的数据通信。

在一些实施例中,该测试服务器系统102可以向学生设备提供数据,使得每个学生设备可以接收上载到服务器系统102和/或网络服务的传达的教育内容或共享的教育内容。在一些实施例中,学生可以通过音频或视频会议、音频、视频或文本聊天或其他通信模式或应用程序与讲师或彼此互动。在一些实施例中,网络服务可以包括使用户能够执行各种通信、接收各种形式的数据和/或执行教育功能的任何系统。例如,该网络服务可以允许学生参加考试,例如接收一个或多个问题,并提供一简答题作答,例如文本、语音形式等。

一用户界面可以在学生设备120、122、124和126上(或在测试服务器系统102上)显示课程资料,例如测试问题、课程的阅读材料以及其他资料,该其他资料例如为图像、图像合成、视频、数据和其他内容,该其他内容可以为通信、隐私设置、通知和其他数据。可以使用学生设备上的软件、服务器设备上的软件和/或在服务器设备104上执行的客户端软件和服务器软件的组合(例如,与测试服务器系统102通信的应用软件或客户端软件)来呈现这样的界面。在一些实施例中,该用户界面可以由学生设备或服务器设备的显示设备(例如显示屏,投影仪等)显示。在一些实施例中,服务器系统上运行的应用程序可以与学生设备进行通信以接收用户在客户端的输入,及在客户端设备上输出诸如可视数据、音频数据等的数据。

本文描述的特征的各种实现方式可以使用任何类型的教育系统和/或服务。例如,由学生和服务器设备访问的包括一个或多个所描述的特征的教育系统、社交网络服务、图像收集和共享服务、辅助消息服务或其他联网服务(例如,连接到互联网)。任何类型的电子设备都可以采用本文描述的特征。一些实施例可以在与计算机网络断开连接或间歇地连接的客户端(例如,学生端)或服务器设备上提供一个或多个本文描述的特征。在一些实施例中,包括显示设备或连接到显示设备的学生设备可以检查和显示存储在该学生设备本地的存储设备上的图像(例如,未通过通信网络连接),并且可以提供本文所述的可查看的特征和结果给用户。

图2是根据一些实施例的具有示例输入和输出的简答题评分预测系统的示意图。特别地,简答题评分预测系统202可以包括一个或多个模型,诸如模型A 208和模型B210。这些模型可以包括如下所述的神经网络。可以基于接收到的训练数据206来训练模型(208和210)。训练数据206可以包括一个或多个分配数据(例如,阅读材料和/或与该阅读材料有关的问题)、阅读材料(例如,在回答问题并为作答提供语境之前要阅读的材料,例如短文章或大段文本的特定部分)、问题(例如,教师分配的简答题例,可以嵌于阅读材料中或紧随其后)、作答(例如,学生以阅读材料作为依据或语境输出对问题的文字作答);或,正确的(或已知的)的评分数据(例如,教师基于评分范围(例如0到4)对答案的评分)。

为了预测例如从学生设备接收的短答案的成绩,可以使用两个不同的模型(例如,神经网络)。可以根据问题的历史作答是否可用以及是否满足阈值数量来决定使用哪种模型(例如,模型A 208或模型B 210)。该简答题评分系统基于历史作答的可用性确定用于给定测试例和简短答案的模型。

模型A(208)可以包括具有历史作答的模型。例如,如果待评分的作答是对某个问题的作答,该问题过去的回答和评分(例如,来自于同一位教师或其他教师教过的其他课程或以前的课程)是可用的,则该模型架构可以是例如孪生神经网络。在该模型中,可以有两个并行分支,一个分支用于该待评分的作答,一个分支用于一不同的作答,该两个并行分支具有共享学习参数的相同的层。每个分支中的层可以包括:

1.嵌入层–学习嵌入(例如,在训练过程中学习嵌入,并将其存储以供以后在预测时使用)或学习多维数字表现,以用于作答文本的多个特征(例如单词的小写字母形式、形状、前缀和后缀)。使用单词的部分特征,例如其形状、后缀和前缀,以使得系统202学习关于单词的更多一般概念,并且使得模型在评分生成期间更好地概括在训练阶段可能从未提供过的单词。然后可以将不同单词特征的嵌入进行组合以为每个单词创建一个嵌入。

2.池化层–该层将针对不同单词的嵌入组合成一个作答的概念。在池化层中,注意力机制学习在池化期间分配给一作答的每个单词的权重。当计算两个作答之间的关于评分接近程度的相似度时,这样做可以更好地掌握作答中的哪些单词权重更高。

3.相似度计算层–该层计算来自两个分支的作答的嵌入向量之间的余弦相似度,并将它们组合成一个相似度分数。

4.评分预测层–该层将该相似度等量为评分尺(例如,等量为0-4的评分尺)。

如果要被评分的作答是针对过去已确定的评分不超过一阈值数(例如,1、3、5、10等)的问题,则系统可以采用模型B 210,模型B210包括两部分的架构。第一部分学习阅读材料和问题中的句子的嵌入,并使用这些学习到嵌入来识别阅读材料中最有可能包含问题答案的句子。因为对于推理性的问题而言,答案很可能不包含在单个句子中,所以该模型可以从阅读材料中基于已学习的相似度阈值选择多个句子。

模型B 210可以包括与前述提到的模型A的层相似的层,并且可以使用所选句子的学习嵌入作为汇聚层的输入,以获取阅读材料的单个问题相关的表示。此架构的不同分支可以学习要评分的作答的嵌入,然后系统可以确定作答与问题相关的阅读材料嵌入的相似程度,并根据该相似度评分来分配评分。

图3是一些实施例中的用于预测评分的等级的示例方法300(例如,计算机实现的方法)的流程图。

在一些实施例中,方法300可以例如在图1所示的服务器系统102上实施。在其他实施例中,方法300的部分或全部可以在一个或多个如图1所示的学生设备120、122、124或126上,一个或多个服务器设备上,和/或同时在一个或多个服务器设备和一个或多个客户端设备上实施。在所述的实施例中,该实施系统包括一个或多个数字硬件处理器或处理电路(“处理器”)以及一个或多个存储设备(例如,数据库106或其他存储器)。在一些实施例中,一个或多个服务器和/或客户端的不同部件可以执行方法300的不同模块或其他部分。

在一些实施例中,方法300或部分该方法可以由一设备自动启动。例如,该方法(或其部分)可以基于一个或多个特定事件或条件的发生而被周期性地执行或被执行。例如,该事件或条件可以包括设备(例如学生设备)接收到的、上传到的或以其他方式访问的简答题作答,自方法300的前一次执行以来的过去的一预定时间段,和/或可以在实现方法300的设备的设置中指定的一个或多个其他事件或条件。在某些实施例中,该条件可以由用户在存储的用户的习惯偏好中预先指定(经用户同意允许设备或方法访问)。在一些实施例中,设备(服务器或客户端)可以通过访问接收简答题作答的一个或多个应用来执行方法300。在另一实施例中,学生设备可以接收电子的简答题作答并可以执行方法300。另外,或可选地,客户端设备可以通过网络向服务器发送一个或多个简答题作答,并且服务器可以使用方法300处理接收到的消息。

本处理方法自步骤302开始,在此步骤接收到简答题作答。除了作答之外,还可以接收与该作答相关的问题和阅读材料。本处理方法接下来到步骤304。

在步骤304中,确定是否已经接收到与该简答题作答相对应的问题的阈值数量的预评分作答。例如,可能存在一个阈值数,该阈值数用于确定在预测简答题作答的评分时使用哪种模型。如果存在对该问题的阈值数量的预评分作答,则至步骤306,否则至步骤312。

在步骤306中,识别对该问题的预评分作答。例如,这些可以从存储了待评分的问题的正确答案的数据库中获得,并且可以在数据库内识别对应特定问题的正确答案(例如,通过问题文本、问题编号等)。本处理方法接下来到步骤308。

在步骤308中,确定该简答题作答与所识别的正确短答案中的一个或多个之间的相似度。相似度可以表示一简答题作答与历史作答(或问题或阅读材料)匹配的程度。该相似度可以基于该简答题作答中的单词使用、单词顺序或单词配置等通过程式决定。相似度可以包括一具有范围的数值,该范围表示该简答题作答与一个或多个识别出的正确短答案的相似程度。本处理方法接下来到步骤310。

在步骤310中,基于在308确定的相似度生成评分预测。例如,可以基于相似度提供评分预测(例如,90-100%的相似度可以收到为A的评分预测;80-89%的相似度可以收到为B的评分预测,依此类推)。步骤308和310的相似度和评分预测可以通过使用实际答案训练的模型(例如,模型A 208)来执行。评分预测的流程在步骤310处结束。

在步骤312中,识别可能包含正确答案的课程材料的一个或多个部分(例如,问题,阅读材料等)。本处理方法接下来到步骤314。

在步骤314中,确定该简答题作答与一个或多个识别出的部分之间的相似度。可以基于该简答题作答与一个或多个该部分之间的单词使用、单词顺序、单词配置等通过程式确定该相似度。相似度可以包括一具有范围的数值,该范围表示该简答题作答与一个或多个识别出的正确的短答案之间的相似程度。本处理方法接下来到步骤316。

在步骤316中,基于步骤314确定的相似度来生成评分预测。例如,例如,可以基于相似度提供评分预测(例如,90-100%的相似度可以收到为A的评分预测;80-89%的相似度可以收到为B的评分预测,依此类推)。步骤314和316的相似度和评分预测可以通过使用课程材料(例如阅读材料,问题等)训练的模型(例如,模型B 210)执行。评分预测的流程在步骤316处结束。步骤302至316中的一项或多项可以全部或部分重复。

在确定评分之后,可以例如经由学生设备(例如,设备120-126中的任何一个)上的用户界面向提供该简答题作答的学生呈现评分。该评分也可以与学生的标识符一起存储在例如数据库中。此外,该评分可以与该学生在特定测试期间提供的其他作答的评分相结合,以为该学生提供例如该特定测试的总得分。在一些实施例中,可以向教师提供该方法判定的评分建议,并允许教师接受或修改该方法判定的评分。

图4是一些实施例中的训练模型以预测简答题评分的示例方法400(例如,计算机实现的方法)的流程图。该模型可以离线训练,训练后的模型可以包含一用于生成评分预测的代表例。

在一些实施例中,方法400可以在如图1所示的服务器系统102上实现。在其他实施例中,方法400中的部分或全部可以在一个或多个如图1所示的学生设备120、122、124或126上,一个或多个服务器设备,和/或同时在一个或多个服务器设备及一个或多个客户端设备上实施。在所述的实施例中,该实施系统包括一个或多个数字硬件处理器或处理电路(“处理器”)以及一个或多个存储设备(例如,数据库106或其他存储器)。在一些实施例中,一个或多个服务器和/或客户端的不同部件可以执行方法400的不同模块或其他部分。

本方法开始于步骤402,在此步骤生成短答案样本和分配信息。样本可以包括用于评分的应答(例如,线上训练中的)、一个或多个历史正确答案、问题、与该问题相关联的阅读材料、和/或一个或多个历史正确答案的评分。可以从教师在平台上为学生先前的应答评分中获得训练样本。例如,当系统识别出已知问题时,系统可以找到并使用其他学生对该问题的已评分的作答。

可以使用执行图3和图4的任务的该架构(例如,如图1和图2所示)来建立两个模型(例如,神经网络模型),一个用于问题的历史作答可用的场景,一个用于问题的历史作答不可用的场景。在历史数据上训练该模型,以便于调整模型的参数,进而确定文本在预估短答案评分的任务中是相似还是不相似。本处理方法接下来到步骤404。

在步骤404中,将训练样本提供给一个或多个模型。例如,模型训练样本可以被提供为元组,例如问题和答案元组,其中,每个元组包括问题和简答题作答。在一些实施例中,样本可以包括对模型A的两个或多个作答,也可以包括对模型B的作答、问题和相应的阅读材料。在一些实施例中,可以在监督学习模式下将评分已知的作答用于对模型的训练。本处理方法接下来到步骤406。

在步骤406中,为所述样本生成相似度分数。可以通过程式基于两个或更多个简答题作答之间(例如,在对待评分的简答题作答与一个或多个历史简答题作答之间)的单词使用、单词顺序、单词设置等确定该相似度分数。该相似度分数可以包括一代表该简答题作答与一个或多个识别出的正确短答案之间的相似程度的范围。本处理方法接下来到步骤408。

在步骤408中,预测评分基于该相似度分数确定。本处理方法接下来到步骤410。当应用模型A时,评分预测可以包括将作答与历史正确答案进行比较。与历史正确答案相似的租到应具有较高的评分。当应用模型B时,同时与阅读材料和问题相似的作答也应具有较高的评分。

在步骤410中,进行模型评分评估。基于使用历史作答的训练,系统可以评估出模型的执行情况(例如,预测评分与真实评分的接近程度)。

例如,可以在已知的“问题-答案-评分”元组上训练模型。然后,可以将来自训练数据的问题和答案对提供给模型,并将模型生成的评分与该问题和答案对的已知评分进行比较。可以使用生成的评分与已知评分之间的差异作为反馈来调整神经网络的一层或多层中的神经网络节点的权重。当模型产生的评分(或多个评分)落入训练数据中的相应已知评分(或多个已知评分)的阈值之内时,可以认为该模型已经训练完成。本处理方法接下来到步骤412。

在步骤412中,基于步骤410中的评估来调整模型的数值参数(例如权重)。可以基于新批次的随机样本继续并且包括步骤402至412中的一个或多个并可反复以进行本处理方法,直到该模型产生的预测已不再提升。在训练过程中,将针对历史作答生成预测,其中,教师为该历史作答所做的真实评分是已知的。可以在训练数据中保留一组作答,对一个(或多个)模型进行一次迭代训练,然后可以使用模型(或多个模型)的新状态来预测所保留的一组作答的评分。然后可以将预测评分与真实评分进行比较,以确定模型性能的综合得分(例如,平均绝对误差、均方根误差等)。在训练的多次迭代之后,如果此综合得分停止提升(例如,误差不再降低或降低的程度小于阈值),则可以认为模型学习已达到终止的条件,可以停止训练。

可以在各种问题、作答和课程的阅读材料上训练该模型,以学习到一语言模型。该语言模型可能适用于用英语(不同的语言将需要不同的模型)撰写的问题、答案或文本。可以针对各种主题(例如英语、历史等)的问题的作答来训练模型,从而使该模型可以将与训练数据相对应的主题处理的更好。

图5是可用于实现本文描述的一个或多个特征的示例设备500的模块示意图。在一个实施例中,设备500可以用于实现计算机设备,例如服务器设备(例如,图1的服务器设备104),和/或学生设备,并且执行本文描述的合适的方法实现。设备500可以是任何合适的计算机系统、服务器或其他电子或硬件设备。例如,设备500可以是大型计算机、台式计算机、工作站、便携式计算机或电子设备(便携式设备、移动设备、手机、智能手机、平板电脑、电视、电视机顶盒、个人数字助理(PDA)、媒体播放器、游戏设备、可穿戴设备等)。在一些实施例中,设备500包括处理器502、存储器504和I/O接口506。

处理器502可以是一个或多个处理器和/或处理电路,用于执行程序代码并控制设备500的基本操作。“处理器”包括任何合适的处理数据、信号或其他信息的硬件和/或软件系统、装置或部件。处理器可以包括具有通用中央处理单元(CPU)、多个处理单元、用于实现功能的专用电路的系统或其他系统。处理过程不必限于特定的地理位置或具有时间限制。例如,处理器可以以“实时”、“离线”、“批处理模式”等方式执行其功能。部分处理过程可以在不同时间、不同位置通过不同(或相同)的处理系统执行。计算机可以是与存储器通信的任何处理器。

存储器504通常被提供在设备500中以供处理器502访问,并且可以是任何合适的处理器可读存储介质,例如,随机存取存储器(RAM)、只读存储器(ROM)、电可擦除读取存储器(EEPROM)、闪存等等,只要适合于存储由处理器执行的指令即可,并且存储器504与处理器502分开放置和/或与之集成。存储器504可以存储由处理器502在服务器设备500上运行的软件,包括操作系统508、一个或多个应用程序510,例如,替代接口呈现应用程序512、其他应用程序514和应用程序数据520。在一些实施例中,应用程序510可以包括能够使处理器502执行本文所描述的功能的指令,例如,图3、图4和图8的部分或全部方法。

例如,应用程序510可以包括简答题评分预测应用程序512,如本文所述,其可以提供简答题评分预测。其他应用程序514(或引擎)也可以或可选地包含在应用程序510中,例如电子邮件应用程序、SMS和其他电话通信应用程序、Web浏览器应用程序、媒体显示应用程序、通信应用程序、Web托管引擎或应用程序、社交网络引擎或应用程序等。可选地,存储器504中的任何软件可以存储在任何其他合适的存储位置或计算机可读介质上。另外,存储器504(和/或其他连接的存储设备)可以存储应用数据,例如问题(或提示操作)、先前的简答题作答、课程材料、先前作答的评分以及具有本文所述特征的其他指令和数据。存储器504和任何其他类型的存储器(磁盘、光盘、磁带或其他有形介质)可以被认为是“存储器”或“存储设备”。

例如,应用数据520可以包括问题与答案522及课程资料524(例如,阅读资料等)。

I/O接口506可以提供使设备500与其他系统和设备连接的功能。例如,网络通信设备、存储设备(例如,存储器和/或数据库106)和输入/输出设备可以经由I/O接口506进行通信。在一些实施例中,I/O接口可以连接至接口设备,接口设备包括输入设备(键盘、定点设备、触摸屏、麦克风、相机、扫描仪等)和/或输出设备(显示设备、扬声器设备、打印机、电机、触觉输出设备等)。音频输入/输出设备530是可一种示例性输入和输出设备,可以如本文所述用于接收音频输入并提供音频输出(例如,语音接口输出)。音频输入/输出设备530可以经由本地连接(例如,有线总线、无线接口)和/或经由网络连接而连接到设备500,并且可以是如下所述的实施例中的任何合适的设备。

为了便于说明,图5示出了各处理器502、存储器504、I/O接口506模块以及软件模块508和510。这些模块可以表示一个或多个处理器或处理电路、操作系统、内存、I/O接口、应用程序和/或软件模块。在其他实施例中,设备500可以不具有所示的所有部件和/或可以具有包括其他类型的元件的其他部件,以代替或补充本文所示的那些元件。尽管服务器系统102被描述为执行如本文的一些实施例中所描述的操作,但是服务器系统102或类似系统的任何合适的部件或部件的组合,或者与系统相关联的任何合适的一个或多个处理器均可以执行所描述的操作。

客户端设备还可以执行本文描述的特征和/或与本文描述的特征一起使用,例如,图1所示的客户端设备120-126。一示例性客户端设备可以是包括与设备500相似的部件的计算机设备,例如,处理器502、存储器504和I/O接口506。适用于客户端设备的操作系统、软件和应用程序可以由存储器提供并由处理器使用,例如图像管理软件、客户端组通信应用程序软件等。客户端设备的I/O接口可以连接到网络通信设备,也可以连接到输入和输出设备,例如,用于捕获声音的麦克风、用于捕获图像或视频的照相机、用于输出声音的音频扬声器设备、用于输出图像或视频的显示设备、或其他输出设备。音频输入/输出设备530例如可以连接至设备500(或包括在设备500中)以接收音频输入(例如语音命令)并提供音频输出(例如语音接口),并且可以包括诸如麦克风、扬声器、耳机等的合适的设备。在一些实施例中,可以提供音频输出设备,例如声音,来输出或合成语音文本。

图6是一些实施例中的用于短答案评分的示例用户界面600的示意图。界面600可以包括问题部分602、作答部分604、预测评分部分606以及一个或多个评分预测的评分内容参考608。用户界面600可以由学生来操作,其中,部件602、604和606可以显示在该用户界面600。界面600还可以被讲师操作以查看预测的评分进而用于系统的评估,也可以用于供教师复查或供系统的训练。在讲师的实施例中,界面600可以包括部件602、604、606和608。

在学生的实施例中,可以在部件602中向学生显示问题。学生可以在部件604中输入简答题作答。系统可以生成如本文所述的预测评分,并且可以在部件606中该显示预测成绩。

在讲师的实施例中,用户界面600可通过在602中显示问题、在604中显示学生的作答以及在606中显示预测评分供讲师来复查预测评分。内容参考608可以被显示给指导者,以给指导者关于成绩预测系统如何工作的想法。

在图6所示的实施例中,“林肯总统决定废除奴隶制”的简答题作答与等级评分的评分内容参考610相似。因此,预测该简答题作答的评分为5。其他作答也可以得到5的评分,例如“内战是对林肯总统寻求废除奴隶制的回应。”

图7是一些实施例中的具有示例性输入和输出的简答题评分预测系统的示意图。该系统包括相似度模型702和评分模型704。

在操作中,将向该相似度模型702提供输入。该输入可包括问题706(或提示)、新作答708和一个或多个现有作答710。该相似度模型包括机器学习模型(例如,神经网络)被训练以确定新作答和一个或多个现有作答710之间的相似度。问题706还可以用作确定如下所述的作答相似度的因素。

构造和训练相似度模型以确定两个作答的文本之间的相似度,以使得具有相似文本的对相同问题的作答可以获得相似的评分。相似度模型可以使用包括自然语言处理(NLP)的技术来对语言进行建模。可以通过使用语言模型训练该相似度模型来构建该相似度模型,该语言模型包括根据历史作答训练的词汇的数字代表。例如,单词可以在模型中表示为数字代表向量。

然后,语言模型可以用于创建问题(或提示)与待比较的两个作答之间的相似度的数字代表向量。例如,可以由模型基于以下确定相似度:

相似度=作答1矢量*作答2矢量–([[问题矢量*作答1矢量]–[问题矢量*作答2矢量])

在一些实施例中,相似度模型702可以提供以如下方式表示的功能:

F(S(R1,R2),|S(Q,R1)-S(Q,R2)|,overlap(R1,R2))

其中,R1和R2代表相似度待评估两个作答。Q代表问题,S代表相似度函数,重叠代表重叠函数,F代表结合相似度和其他特征的函数。

可以将来自相似度模型702的输出提供给评分模型704。评分模型704可以包括能够利用历史作答的现有评分的整体决策树机器学习模型。

在操作中,评分可以包括找到该问题的现有评分作答。使用如上所述的相似度模型来确定已评分的作答和新作答之间的相似度,从而得到一组信息,该信息包括现有作答,该作答的评分以及该现有作答与新作答之间的相似度度量值。

已知评分和相似度可以被分到每个评分组的相似度分布中,其中具有相同评分的作答被分在一起,并且每个组中的作答的相似度值与该作答相关联。可以将每个评分组的相似度分布作为输入712提供给评分模型704。然后评分模型可以产生预测的或指定的评分714。

图8是一些实施例中的用于预测简答题作答的评分的示例方法800(例如,计算机实现的方法)的流程图。

在一些实施例中,方法800可以在如图1所示的服务器系统102上实施。在其他实施例中,方法800中的不服或全部可以在如图1所示的一个或多个学生设备120、122,124或126上、一个或多个服务器设备上、和/或同时在一个或多个服务器设备和一个或多个客户端设备上实施。在所述实施例中,实施系统包括一个或多个数字硬件处理器或处理电路(“处理器”)以及一个或多个存储设备(例如,数据库106或其他存储器)。在一些实施例中,一个或多个服务器和/或客户端的不同部件可以执行方法800的不同模块或其他部分。

在一些实施例中,方法800的全部或部分可以由设备自动启动。例如,该方法(或其部分)可以基于一个或多个特定事件或条件的发生而被周期性地执行或执行。例如,该事件或条件可以包括设备(例如学生设备)接收到的、上传到的或以其他方式访问的简答题作答,自方法800的前一次执行以来的过去的一预定时间段,和/或可以在实现方法800的设备的设置中指定的一个或多个其他事件或条件。在某些实施例中,该条件可以由用户在存储的用户的习惯偏好中预先指定(经用户同意允许设备或方法访问)。在一些实施例中,设备(服务器或客户端)可以通过访问接收简答题作答的一个或多个应用来执行方法800。在另一实施例中,学生设备可以接收电子的简答题作答并可以执行方法800。另外,或可选地,客户端设备可以通过网络向服务器发送一个或多个简答题作答,并且服务器可以使用方法800处理接收到的消息。

本处理方法自步骤802开始,在此步骤接收到简答题作答。除了作答之外,还可以接收与该作答相关的问题和阅读材料。本处理方法接下来到步骤804。

在步骤804中,确定是否已经接收到与该简答题作答相对应的问题的阈值数量的预评分作答。例如,可能存在一个阈值数,该阈值数用于确定在预测简答题作答的评分时是否可以使用该相似度模型及评分模型(例如702和704)。如果存在对该问题的阈值数量的预评分作答,则至步骤806,否则至步骤814。

在步骤806中,识别对该问题的预评分作答。例如,这些可以从存储了待评分的问题的正确答案的数据库中获得,并且可以在数据库内识别对应特定问题的正确答案(例如,通过问题文本、问题编号等)。本处理方法接下来到步骤808。

在步骤808中,确定该简答题作答与所识别的已知答案中的一个或多个之间的相似度。相似度可以表示一简答题作答与历史作答(或问题或阅读材料)匹配的程度。可以基于该简答题作答中的单词使用、单词顺序或单词配置等,使用例如702的相似度模型,通过程式决定该相似度。相似度可以包括一数值,该数值的范围表示该简答题作答与一个或多个识别出的正确短答案的相似程度。本处理方法接下来到步骤810。

在步骤810中,将在步骤808中确定的相似度及现有作答的评分提供给评分模型(例如,704)。本处理方法接下来到步骤812。

在步骤812中,由评分模型生成预测或指定的评分,并将其作为输出提供。步骤808和812的相似度和评分预测可以通过使用实际答案训练的模型(例如,模型702和704)来执行。评分预测的流程在步骤810处结束。

在步骤814中,由于缺少足够的现有作答(例如,没有足够的现有作答能使相似度确定或评分预测在统计上准确),不执行自动评分。本处理方法接下来到步骤816。

在步骤816中,可选地存储问题和作答以训练相似度或评分模型。同样,一旦手动确定了答案的评分,该评分即可选地与问题和作答相关联以进行训练。

应当理解,可以全部或部分重复步骤802至816中的一个或多个。

在确定该评分预测之后,可以例如经由学生设备(例如,设备120至126中的任何一个)上的用户界面,向提供该简答题作答的学生呈现该评分。该评分也可以与学生的标识符一起存储在例如数据库中。此外,该评分可以与例如学生在特定测试期间提供的其他作答的评分相结合,例如,向该学生提供该特定测试的总得分。在一些实施例中,可以向教师提供所该评分预测建议,并允许教师接受或修改该评分预测。

本文描述的一个或多个方法(例如方法300、400或800)可以由能够在计算机上执行的计算机程序指令或代码来实现。例如,该代码可以由一个或多个数字处理器(例如,微处理器或其他处理电路)实现,并且可以存储在包括非临时性计算机可读介质(例如,存储介质),例如磁、光、电磁,或包括半导体存储介质,含半导体或固态存储器、磁带、可移动计算机软盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、硬磁盘、光盘、固态存储器等,的计算机程序产品上。该程序指令还可以包含在电子信号中,并以电子信号的形式提供,例如,以从服务器(例如,分布式系统和/或云计算系统)交付的软件以服务(SaaS)的形式提供。可替代地,可以以硬件(逻辑门等)或以硬件和软件的组合来实现一种或多种方法。示例硬件可以是可编程处理器(例如,现场可编程门阵列(FPGA)、复杂可编程逻辑设备)、通用处理器、图形处理器、专用集成电路(ASIC)等。可以将一种或多种方法作为在系统上运行的应用程序的一部分或组成部件,或作为与其他应用程序和操作系统一起运行的应用程序或软件来执行。

本文描述的一种或多种方法可以为能够在任何类型的计算设备上运行的独立程序,或,在网络浏览器上运行的程序,或,在移动计算设备(例如,手机、智能手机、平板电脑、可穿戴设备(手表、臂章、珠宝、头饰、护目镜、眼镜等)、膝上型计算机等)上运行的移动应用程序(“app”)。在一实施例中,可以使用客户端/服务器架构,例如,移动计算设备(作为客户端设备),将用户输入数据发送到服务器设备,并从服务器接收用于输出(例如,用于显示)的最终输出数据。在另一实施例中,可以在移动计算设备上的移动应用程序(和/或其他应用程序)内执行所有计算。在另一实施例中,可以在移动计算设备和一个或多个服务器设备之间分配这些计算。

可以使用机器学习技术来执行简答题评分预测。例如,可以使用LSTM模型来学习简答题作答评分和/或测试问题或材料;可以使用针对对象识别而训练的机器学习模型来解析图像/视频内容;可以使用针对那些类型的对象专门训练的模型等来识别交互式对象。例如,测试评分应用程序可以实现机器学习,例如可以实现自动测试评分的深度学习模型。可以使用综合数据,例如由计算机自动生成的数据,而不使用用户信息,来训练机器学习模型。在一些实施例中,可以例如基于样本数据来训练机器学习模型,针对该机器学习模型已经明确地从用户获得了利用用户数据进行训练的许可。例如,样本数据可能包括简答题作答。基于样本数据,机器学习模型可以预测评分。

在一些实施例中,机器学习应用程序可以包括使得一个或多个处理器能够执行如本文描述的功能的指令,例如,图3、图4和/或图8的方法中的部分或全部。

在各种实施例中,执行本文所述功能的机器学习应用程序可以利用贝叶斯分类器、支持向量机、神经网络或其他学习技术。在一些实施例中,机器学习应用程序可以包括训练的模型、推理引擎和数据。在一些实施例中,数据可以包括训练数据,例如,用于生成训练模型的数据。例如,训练数据可以包括任何类型的数据,例如测试问题、答案、真实评分等。可以从任何来源获得训练数据,例如,专门标记用于训练的数据存储库、已获得许可可以用做及其训练数据的数据,等。在一些实施例中,在一个或多个用户允许使用他们各自的用户数据来训练机器学习模型,例如,训练模型,训练数据可以包括此类用户数据。在一些实施例中,在用户允许使用他们各自的用户数据,数据可以包括允许的数据,例如测试问题/提示、简答题作答、作答的真实评分(例如,来自讲师)以及文档(例如,课程资料等)。

在一些实施例中,训练数据可以包括出于训练目的而生成的合成数据,此类数据并非基于用户的输入或正在语境中进行训练的活动,例如,从先前的测试和/或短答案中产生的数据。例如,在这些实施例中,训练后的模型可以例如在不同的设备上生成,并且被提供为机器学习应用程序的一部分。在各种实施例中,训练后的模型可以被提供为包括模型结构或形式以及相关联的权重的数据文件。推理引擎可以读取训练模型的数据文件,并根据训练模型中指定的模型结构或形式来实现具有节点连接性、层和权重的神经网络。

机器学习应用程序还可以包括训练后的模型。在一些实施例中,训练后的模型可以包括一种或多种模型形式或结构。例如,模型形式或结构可以包括任何类型的神经网络,例如线性网络、实现多个层的深层神经网络(例如,输入层和输出层之间的“隐藏层”,每个层均为一线性网络)。模型形式或结构可以指定各种节点之间的连接以及指定节点在层中的组织。例如,第一层(例如,输入层)的节点可以接收数据作为输入数据或应用程序数据。当训练的模型用于对简答题作答进行评分时,这样的数据例如可以包括每个节点的简答题作答的一个或多个单词。例如,输入层获取问题和答案,这些问题和答案被馈送到第二层并在该层中进行转换,然后被馈送到下一层,等等。接下来的中间层(例如池化层)可以按照模型形式或结构中指定的连接性接收的前一层节点的输入输出。这些层也可以称为隐藏层。最后一层(例如,输出层),例如,相似度计算或评分预测层,产生机器学习应用程序的输出,例如,预测评分。例如,输出可以是短答案的预测评分。在一些实施例中,模型形式或结构还指定每层中节点的数量和/或类型。

在不同的实施例中,训练后的模型可以包括多个节点,每个节点按照模型结构或形式排列成层。在一些实施例中中,节点可以为不具有存储器的计算节点,例如,被配置为处理一个输入单元以产生一个输出单元。由节点执行的计算可以包括例如将多个节点输入中的每一个乘以权重,获得加权和,以及用偏置或截距值来调整该加权和以产生节点输出。在一些实施例中,该计算可以包括将阶跃/激活函数应用于调整后的加权和。在一些实施例中,阶跃/激活函数可以是非线性函数。在各种实施例中,计算可以包括诸如矩阵乘法的运算。在一些实施例中中,多个节点进行的计算可以并行执行,例如,使用多核处理器的多个处理器核,使用GPU的各个处理单元或专用神经电路。在一些实施方案中,节点可包含存储器,例如,在处理接下来的输入时可以存储和使用一个或一个以上的先前输入。例如,包含内存的节点可能包括long-short memory(LSTM)节点。LSTM节点可以使用内存来维护“状态”,该状态允许节点充当有限状态机(FSM)。具有这样节点的模型在处理顺序数据时可能很有用,例如,句子或段落中的单词,视频、演讲或其他音频中的帧等。

在一些实施例中,训练后的模型可以包括各个节点的嵌入或权重。例如,可以将模型启动为排布成由模型形式或结构指定的层的多个节点。在初始化时,可以将各自的权重应用于按模型形式相连的每对节点之间的连接,例如,神经网络的连续层中的节点。例如,各个权重可以被随机分配,或者被初始化为默认值。然后可以例如使用数据来训练模型以产生结果。

例如,训练可以包括应用监督式学习技术。在监督式学习中,训练数据可以包括多个测试问题、简答题应答、应答评分、课程材料等。基于模型输出与预期输出的比较,权重值会自动调整,例如,当提供相似的输入时,以增加模型产生预期输出的可能性的方式。

在一些实施例中,训练可以包括应用无监督式学习技术。在无监督式学习中,可以仅提供输入数据,并且可以训练模型以区分数据,例如以将输入数据聚集为多个组,其中每个组包括一定程度上相似的输入数据。

机器学习应用程序还可以包括推理引擎。推理引擎用于将训练后的模型应用于数据(例如应用程序数据)以提供推理。在一些实施例中,推理引擎可以包括要由处理器执行的软件代码。在一些实施例中,推理引擎可以指定使处理器能够应用训练后的模型的电路配置(例如,用于可编程处理器,用于现场可编程门阵列(FPGA)等)。在一些实施例中,推理引擎可以包括软件指令、硬件指令或组合。在一些实施例中,推理引擎可以提供能够由操作系统和/或其他应用程序使用的应用程序编程接口(API),以调用推理引擎,例如,将经训练的模型应用于应用程序数据以生成推理。

机器学习应用程序可以提供若干技术优势。例如,被训练用于确定简答题作答与先前的已评分的作答的相似度的模型可以产生比输入的短答案(例如,几千字节)小得多的相似值(例如,几个字节)。在一些实施例中中,这样的表示可能有助于降低处理成本(例如,计算成本、存储器使用等)以生成输出(例如,评分)。在一些实施例中,可以将这样的表示作为输入提供给不同的机器学习应用程序,该机器学习应用程序从推理引擎的输出中产生输出。

在一些实施例中,机器学习应用程序可以以离线的方式实施。在这些实施例中,训练后的模型可以在第一阶段中生成,并作为该机器学习应用程序的一部分提供。在一些实施例中,机器学习应用程序可以以在线方式来实施。例如,在这样的实现中,调用机器学习应用程序的一应用程序(例如,操作系统和/或一个或多个其他应用程序)可以利用机器学习应用程序产生的推断(例如,将推断提供给用户),并且可以生成系统日志(例如,如果用户允许,则表示用户根据推断采取的行动;或者,如果用作进一步处理的输入,则表示该进一步处理的结果)。系统日志可以定期产生,例如每小时、每月、每季度等,并且可以在用户许可下用于更新训练后的模型,例如更新训练后的模型的嵌入。

存储器中的任何软件均能可选地存储在任何其他合适的存储位置或计算机可读介质上。另外,存储器(和/或其他连接的存储设备)可以存储一个或多个消息、一个或多个分类法、电子百科全书、词典、叙词表、知识库、消息数据、语法、用户偏好和/或在本文所述的特征中使用的其他指令和数据。内存和任何其他类型的存储(磁盘、光盘、磁带或其他有形介质)都可以视为“存储”或“存储设备”。

I/O接口可以提供将服务器设备与其他系统和设备连接的功能。接口的设备可以作为设备的一部分,也可以单独使用并与设备通信。例如,网络通信设备、存储设备(例如,存储器和/或数据库106)以及输入/输出设备,可以经由I/O接口进行通信。在一些实施例中,I/O接口可以连接到接口设备,例如输入设备(键盘、指示设备、触摸屏、麦克风、相机、扫描仪、传感器等)和/或输出设备(显示设备、扬声器设备、打印机、马达等)。

一些示例性的可以连接到I/O接口的接口设备可以包括一个或多个显示设备,其可以用于显示内容,例如本文所述的图像、视频和/或输出应用程序的用户界面。显示设备可以通过本地连接(例如,显示总线)和/或通过网络连接连接到设备,并且可以是任何合适的显示设备。显示设备可以包括任何合适的显示设备,例如LCD、LED或等离子显示屏,或,CRT、电视、监视器、触摸屏、3-D显示屏或其他视觉显示设备。例如,显示设备可以是在移动设备上提供的平面显示屏、在护目镜或头戴式耳机设备中提供的多个显示屏或计算机设备的监视器屏幕。

I/O接口可以与其他输入和输出设备连接。一些示例中包括一个或多个可以捕获图像的相机。在一些实施例中,可以为用于捕获声音(例如,作为捕获的图像、语音命令等的一部分)的麦克风、用于输出声音的音频扬声器设备或其他输入和输出设备。

尽管已经对特定实施例进行了描述,但是这些特定实施例仅是说明性的,而不是限制性的。这些实施例中示出的概念可以应用于其他实施例和实现方式。

需要注意到是,如本领域技术人员所知,本申请中描述的功能块、操作、特征、方法、设备和系统可以为一体或被划分为系统、设备和功能块的不同组合。可以使用任何适当的编程语言和编程技术来实现特定实施例的流程。可以采用不同的例如过程的或面向对象的编程技术来实现。该流程可以在单个处理设备或多个处理器上执行。尽管可以以特定顺序呈现这些步骤、操作或计算,但是,在不同的特定实施例中该顺序可以改变。在一些实施例中,在本说明书中顺序列出的多个步骤或操作可以同时执行。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号