首页> 中国专利> 题目生成方法、装置、设备及存储介质

题目生成方法、装置、设备及存储介质

摘要

本公开提供了一种题目生成方法、装置、设备及存储介质,方法包括:获取目标词汇;根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合;利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合;利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。本公开所提供的题目生成方法,可以根据给定的目标词汇,生成满足质量要求的题目。

著录项

  • 公开/公告号CN113254591A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 北京世纪好未来教育科技有限公司;

    申请/专利号CN202110667905.4

  • 发明设计人 岳祥;刘天乔;方强;康昱;丁文彪;

    申请日2021-06-16

  • 分类号G06F16/33(20190101);G06Q50/20(20120101);

  • 代理机构31327 上海知锦知识产权代理事务所(特殊普通合伙);

  • 代理人李丽

  • 地址 100144 北京市海淀区中关村大街32号蓝天和盛大厦1702-03室

  • 入库时间 2023-06-19 12:13:22

说明书

技术领域

本公开实施例涉及计算机领域,尤其涉及一种题目生成方法、装置、设备及存储介质。

背景技术

学生通过做题进行练习是学习中必要的一环,通过做题可以巩固学生所学到的知识,并且了解学习过程中的薄弱环节,因此,需要按照目标生成题目,以满足对学生练习和测试的目的。

现有技术中,大多是通过对给定段落文字的解析,得到相应的题目,而对于给定目标词汇,课本所包含的题目和老师以人工出题方式获得的题目数量有限,如果能以智能生成的方法,通过给定的目标词汇得到对目标词汇进行练习或考察的目标题干集合,这样题目的获取方式简单,不必依赖于大段的文本,并且还利用质量评估模型对生成的题干进行质量评估,保证所得到的各个目标题干均为满足质量要求的题干,因此提高了所得到目标题干的质量。

因此,如何根据给定的目标词汇,生成满足质量要求的题目,成为亟待解决的技术问题。

发明内容

本公开实施例解决的技术问题是提供一种题目生成方法、装置、设备及存储介质,可以根据给定的目标词汇,生成满足质量要求的题目。

为解决上述问题,本公开实施例提供一种题目生成方法,包括:

获取目标词汇;

根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合;

利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合;

利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。

为解决上述问题,本公开实施例还提供一种题目生成装置,包括:

目标词汇获取单元,适于获取目标词汇;

第一题干集合获取单元,适于根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合;

第二题干集合获取单元,适于利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合;

目标题干集合获取单元,适于利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。

为解决上述问题,本公开实施例还提供一种存储介质,所述计算机可读存储介质存储有计算机可执行指令,其特征在于,当该指令被处理器执行时,可以实现如前述任一项所述的题目生成方法。

为解决上述问题,本公开实施例还提供一种电子设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述任一项所述的题目生成方法。

与现有技术相比,本公开的技术方案具有以下优点:

本公开实施例所提供的一种题目生成方法,在自动生成题目时,首先获取目标词汇,然后根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合;再利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合;最后利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。可以看出,本公开实施例所提供的题目生成方法,通过给定的目标词汇得到包含目标词汇的目标题干集合,题目的获取方式简单,不必依赖于大段的文本,并且还利用质量评估模型对生成的题干进行质量评估,保证所得到的各个目标题干均为满足质量要求的题干,因此提高了所得到目标题干的质量。

可选方案中,本公开实施例所提供的题目生成方法,所述根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合的方法包括以下至少一种:利用预先训练好的语句生成模型,根据所述目标词汇生成包含所述目标词汇的题干,得到包含所述目标词汇的第一生成题干集合;根据所述目标词汇,在预先建立的语句数据库中进行查找,得到包含所述目标词汇的第一查找题干集合,这样,根据目标词汇,可以利用预先训练好的语句生成模型、或者利用预先建立的语句数据库获得第一题干集合,通过多样性的题干获取方法,保证了所获得的第一题干集合中题干的多样性,进而保证了所获得题目的多样性。

附图说明

图1是本公开实施例所提供的题目生成方法一流程示意图;

图2是本公开实施例所提供的题目生成方法的语句生成模型的训练步骤示意图;

图3是本公开实施例所提供的题目生成方法的质量评估模型的训练步骤示意图;

图4是本公开实施例所提供的题目生成装置的一框图;

图5是本公开实施例提供设备的一种可选硬件设备架构。

具体实施方式

现有技术中,需要通过对给定段落文字的解析,得到相应的题目,或者根据给定目标词汇,以人工出题方式获得的题目,所得的题目数量有限。

为了根据给定的目标词汇,生成满足质量要求的题目,本公开实施例提供了一种题目生成方法、装置、设备及存储介质,其中,题目生成方法包括:

获取目标词汇;

根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合;

利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合;

利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。

可以看出,本公开实施例所提供的一种题目生成方法,在自动生成题目时,首先获取目标词汇,然后根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合;再利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合;最后利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。

这样,本公开实施例所提供的题目生成方法,通过给定的目标词汇得到包含目标词汇的目标题干集合,题目的获取方式简单,不必依赖于大段的文本,并且还利用质量评估模型对生成的题干进行质量评估,保证所得到的各个目标题干均为满足质量要求的题干,因此提高了所得到目标题干的质量,进而保证了所获得题目的高质量,最终生成的题干也可以作为填空题、单选题、多选题题干的多种用途,实现了生成题干用途的多样性。

下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

请参考图1,图1是本公开实施例所提供的题目生成方法的一流程示意图。

如图中所示,本公开实施例所提供的题目生成方法包括以下步骤:

步骤S10:获取目标词汇。

容易理解的是,为了实现基于目标词汇生成题目,首先需要获取目标词汇,从而所生成的题目是与目标词汇相关联的。

具体地,获取目标词汇的方式可以有多种,比如:可以直接通过输入目标词汇的方式通过电子设备获取,也可以通过对句子的提取,获取到目标词汇。

例如:为了生成对于“宽阔”这个目标词汇进行考核的题目,可以首先直接获取“宽阔”这个词汇,也可以通过对包含“宽阔”这个词汇的句子进行词汇提取,得到目标词汇。

步骤S11:根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合。

在获取了目标词汇的基础上,进一步根据目标词汇自动获取题干,容易理解的是,所获取的题干的数量为多个,从而形成第一题干集合。

例如:根据目标词汇“宽阔”,自动生成如下题干:

这条宽阔的马路畅通无阻,四通八达。

汽车在宽阔的高速公路上飞驰。

宽阔的操场平整、洁净,四周高大的树木挺拔、茂盛。

这张照片的背景是宽阔的大海。

宽阔的大草原一眼望不到边儿。

我家门前有一条宽阔的街道。

……

在一种具体实施方式中,为了保证所得到的第一题干集合中的题干的种类的多样性,可以通过语句生成模型,生成题干,得到第一题干集合,本公开实施例所提供的题目生成方法,可以包括:

利用预先训练好的语句生成模型,根据所述目标词汇生成包含所述目标词汇的题干,得到包含所述目标词汇的第一生成题干集合。

即将目标词汇输入至已经训练好的语句生成模型,语句生成模型即可输出包含目标词汇的第一生成题干集合。

语句生成模型可以是GPT2模型,也可以是T5模型等语句生成模型,或者其他能够根据目标词汇生成题干的语句生成模型。

容易理解的是,在此实施例中,第一生成题干集合即为通过模型生成方式得到的第一题干集合,如果仅采用模型生成题干的方式获取题干,那么第一生成题干集合即为第一题干集合,如果还采用其他方式获取题干,那么第一生成题干集合和通过其他方式得到的题干的整体即为本文所述的第一题干集合。

容易理解的是,具体输入时,既可以仅输入目标词汇,还可以输入其他的信息比如:所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号等等,这与语句生成模型训练过程中的输入信息相匹配,并且输入的信息越多,所生成的各个第一生成题干的限制条件也就越多,当然所得到的第一生成题干的准确性也就越高,更能够满足要求。

为了同时兼顾第一生成题干准确性和多样性的要求,在具体使用过程中,可以通过更改所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号等信息的方式,生成目标词汇位置不同、句子长度不同、最后标点符号不同的各种第一生成题干。

下面,以GPT2模型为例,继续结合前述案例,说明根据给定的目标词汇“宽阔”生成题干的过程:

1)仅输入目标词汇的情况:

输入所述目标词汇到已训练完成的语句生成模型,得到第一生成题干集合:

输入:目标词汇[SEP][SOS]

输入:宽阔 [SEP][SOS]

[SEP]:表示分割的意思,用来分割输入的不同的片段;

[SOS]:表示start of sequence,表示题干的开始标记。

GPT2模型接受[SOS]后,开始输出题干,当输出目标词汇中“宽”,下一个字符是目标词汇中的“阔”,然后,GPT2模型会按照预先训练好的结果,根据语句数据库中“阔”字后面出现概率最高的字,输出下一个字,比如为:“的”,再根据语句数据库中“的”字后面出现概率最高的字,输出下一个字,比如为“河”,依次类推,逐字生成题干,最后,GPT2模型输出的结果为,举例:

宽阔的河面像一面大镜子,倒映照着江岸的美景。[EOS]

这条宽阔的马路畅通无阻,四通八达。[EOS]

汽车在宽阔的高速公路上飞驰。[EOS]

等等。

[EOS]:表示end of sequence,表示题干的结束,去掉[EOS]后,就是当前模型输出的题干了。

可以看出,只输入所述目标词汇到已训练完成的语句生成模型,得到第一生成题干集合,因为在这种方法中,只输入了目标词汇,对其它的形式未做任何限制,所以,通过这种方法可以得到陈述句、疑问句、感叹句等等各种句式、以及各种句子长度的题干,因此,可以得到形式多样的题干,进而保证了所生成题目的多样性。

2)输入所述目标词汇,以及所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号三项中至少一项到已训练完成的语句生成模型,得到第一生成题干集合。

输入:词的开始位置[SEP]句子长度[SEP]最后的标点符号[SEP]输入词语[SEP][SOS]来生成题干,比如:

具体输入:0 [SEP] 22 [SEP] 。 [SEP] 宽阔 [SEP] [SOS]

0:表示目标词汇的开始位置;

[SEP]:表示分割的意思,用来分割输入的不同的片段;

22:表示题干的长度为22个字符,每一个字或者标点符号算做一个字符;

。:表示题干的最后的标点符号为句号;

宽阔:表示目标词汇;

[SOS]:表示start of sequence,表示题干的开始标记。

GPT2模型接受[SOS]后,开始输出题干,因为输入时以“0”为开头,所以,第一个字符是目标词汇中“宽”,第二个字符是目标词汇中的“阔”,然后,GPT2模型会按照预先训练好的结果,根据语句数据库中“阔”字后面出现概率最高的字,输出下一个字,比如为:“的”,再根据语句数据库中“的”字后面出现概率最高的字,输出下一个字,比如为“河”,依次类推,逐字生成题干,直到达到预设的题干长度“22”个字符,并且最后的标点符号为“。”,最后,GPT2模型输出的结果为,举例:

宽阔的河面像一面大镜子,倒映照着江岸的美景。[EOS]

[EOS]:表示end of sequence,表示题干的结束,去掉[EOS]后,就是当前模型输出的题干了。

即,在此情况下,语句生成模型所生成的为宽阔在最前面,句子长度为22字符,结尾标点符号为句号的第一题干,然后,可以通过更改生成要求,再次生成其他的第一题干。

这样,输入所述目标词汇,以及所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号三项中至少一项到已训练完成的语句生成模型,得到第一生成题干集合,在这种方法中,根据预设的条件,对语句生成模型的输入数据做了形式上的限制,这样可以保证只利用目标词汇生成题干简单化的同时,得到满足预设条件的题干,进而保证可以获得满足预设条件的题目,当然,所输入的预设条件越多,在进行模型训练时,也更简单。

3)在另一种具体实施方式中,还可以同时结合前述的两种方式,获取第一生成题干集合。

这样,本公开实施例所提供的题目生成方法,既可以得到形式多样的题干,进而保证了所得到题目的多样性,也可以保证只利用目标词汇生成题干简单化的同时,得到满足预设条件的题干,进而保证可以获得满足预设条件的题目。

另外,在一种具体实施方式中,为了提高题干生成质量,本公开实施例所提供的题目生成方法的语句生成模型可以通过以下方式训练,请参考图2,图2为本公开实施例所提供的题目生成方法的语句生成模型的训练步骤示意图。

如图中所示,语句生成模型可以通过以下步骤训练,包括:

步骤S20:获取句子生成训练数据集,所述句子生成训练数据集包括训练目标词汇和包含所述训练目标词汇的基准句,所述基准句满足预定质量要求。

为了训练语句生成模型,需要获取句子生成数据集,句子生成数据集包括了训练目标词汇和包含所述训练目标词汇的基准句,所述基准句满足预定的质量要求,从而可以利用这些满足质量阈值要求的基准句作为标准来生成训练语句,提高语句生成模型的训练效果。

在具体的训练过程中,除了输入训练目标词汇之外,还可以输入所述训练词汇的开始位置、待生成训练语句的长度和待生成训练语句的最后标点符号三项中至少一项,根据所述基准句,通过语句生成模型来生成训练语句。

步骤S21:通过所述语句生成模型,根据所述训练目标词汇和所述基准句,生成训练语句。

利用语句生成模型,根据训练目标词汇,按照基准句的模式,能够使模型学习到目标词汇在基准句中的特点,从而生成训练语句,此时生成的训练语句可能并不完善,需要按照预定的质量阈值来判断所述训练语句的质量。

步骤S22:判断训练语句的质量是否满足预定的质量阈值,如果“是”执行步骤S24;如果“否”执行步骤S23。

利用预定的质量阈值来判断上述训练语句的质量,如果训练语句的质量不满足预定的质量阈值,则执行步骤S23,直至训练语句的质量满足预定的质量阈值执行步骤S24,所述质量阈值包括:语句内容适合、语句指代明确、语句常识正确、语句思想正确、语句优美等等。

步骤S23:调整所述语句生产模型的参数。

按照质量阈值,根据满足预定质量要求的基准句,来调整语句生成模型的参数,使得语句生成模型按照新的模型参数来生成新的训练语句,使得新的训练语句更加完善。

步骤S24:得到训练完成的语句生成模型。

通过上述步骤的训练,得到训练完成的语句生成模型。

可见,在语句生成模型的训练过程中,利用基准句,和训练目标词汇,能够使模型学习到训练目标词汇在基准句中的特点,从而生成具有基准句特点的训练语句,由于语句生成模型在训练过程中,对生成的训练语句有严格的质量要求,通过对训练语句质量的把握,调整语句生成模型的参数,来保证语句生成模型的质量,所以通过所述训练完成的语句生成模型生成的题干可以满足本公开对于题干的高质量的要求,进而也保证了所生成题目的高质量。

因此,利用预先训练好的语句生成模型,可以很方便地得到满足质量要求的题干,并且,题干生成的过程中,语句生成模型会根据目标词汇之后,每个字出现的概率的高低,按照一定的方式自动输出目标词汇后面的句子,从而保证了题干生成的灵活多样性,因此,利用语句生成模型生成题干,一方面可以保证生成题干的高质量,另一方面可以保证题干生成的多样性。

在另一种具体实施方式中,为了获取第一题干集合,还可以根据所述目标词汇,在预先建立的语句数据库中进行查找,得到包含所述目标词汇的第一查找题干集合。

容易理解的是,在此实施例中,第一查找题干集合即为通过查找的方式得到的第一题干集合,如果仅采用查找的方式获取题干,那么第一查找题干集合即为第一题干集合,如果还采用其他方式获取题干,那么第一查找题干集合和通过其他方式得到的题干的整体即为本文所述的第一题干集合。

具体过程为:根据所述目标词汇,遍历预先建立好的语句数据库,查找语句数据库中每一个包含目标词汇的句子,输出查找结果,得到包含目标词汇的题干。

在一种具体实施方式中,为了保证所得到的语句数据库中的各个语句的质量,语句数据库可以通过以下方式建立:

第一、整合外部语句库,外部语句库的语句包括:百科知识、新闻素材、学生读物等材料中的语句,但并不是所有的百科知识、新闻素材、学生读物等材料中的语句都适合作为语句数据库中的语句,所以,获得了百科知识、新闻素材、学生读物等材料中的语句之后,需要先利用预先训练好的分类模型对语句进行标注,将适合作为题干的语句标注为:Y,不适合作为题干的语句标注为:N,将适合学生的语句标注为:Y,不适合学生的语句标注为:N,例如:

经过标注后,保留同时适合学生并且适合做题干的语句,作为整合完成的外部语句库。

第二、利用预先训练完成的质量评估模型,对整合完成的外部语句库中的语句再一次进行质量评估、分类筛选,按照预设的质量要求,保留满足质量阈值的语句,具体地质量阈值可以为:语句内容适合、语句指代明确、语句常识正确、语句思想正确、语句优美等等,将所保留的语句收集整合,作为语句数据库,并且根据需要,按照上述过程实时更新该语句数据库,使该语句数据库保持语句丰富并且高质量的状态。

可见,在语句数据库建立的过程中,首先,收集整合了外部语句库,并对外部语句库利用预先训练好的分类模型对语料进行标注,保证了整合完成的外部语句库中的语句都是高质量的语句;第二,在上述基础上,利用预先训练完成的质量评估模型,对整合完成的外部语句库中的语句再一次进行质量评估、分类筛选,在保证语句数据库中的语句丰富多样的基础上,再一次完成质量提升,并且,根据需要,按照上述过程实时更新该语句数据库,使该语句数据库保持语句丰富多样并且高质量的状态。

可见,由于语句数据库始终保持语句丰富多样并且高质量的状态,使得根据目标词汇遍历该语句数据库,获得的包含目标词汇的题干也始终保持丰富多样并且高质量的状态,进而,保证了所生成的题目的丰富多样并且高质量的状态。

在一种具体实施方式中,为了得到高质量的题干,本申请还提供了一种质量评估模型的训练方法,质量评估模型可以采用Bert模型或其它模型来实现,请参考图3,图3是本公开实施例所提供的题目生成方法的质量评估模型的训练步骤示意图。

如图中所示,本公开所提供的质量评估模型的训练方法包括:

步骤S30:获取句子评估训练数据集,所述句子评估训练数据集包括训练目标词汇和包含所述训练目标词汇的基准句,所述基准句满足预定质量要求。

为了训练质量评估模型,需要获取句子评估训练数据集,句子评估训练数据集包括了训练目标词汇和包含所述训练目标词汇的基准句,所述基准句满足预定的质量要求,所述基准句满足预定的质量要求指的是所述基准句满足预定的质量阈值的要求,可以利用这些满足质量阈值要求的基准句作为标准来生成训练语句。

步骤S31:通过所述质量评估模型,根据所述训练目标词汇和所述基准句,生成训练语句。

利用质量评估模型,根据训练目标词汇,按照基准句的模式,能够使模型学习到目标词汇在基准句中的特点,从而生成训练语句,此时生成的训练语句可能并不完善,需要按照预定的质量阈值来判断所述训练语句的质量。

步骤S32:判断训练句的质量是否满足预定的质量阈值,如果“是”,执行步骤S34,如果“否”,执行步骤S33。

利用预定的质量阈值来判断上述训练语句的质量,如果训练语句的质量不满足预定的质量阈值,则执行步骤S33,直至训练语句的质量满足预定的质量阈值执行步骤S34,所述质量阈值包括:语句内容适合、语句指代明确、语句常识正确、语句思想正确、语句优美等等。

步骤S33:调整所述质量评估模型的参数。

按照质量阈值,根据满足预定质量要求的基准句,来调整语句生成模型的参数,使得语句生成模型按照新的模型参数来生成新的训练语句,使得新的训练语句更加完善。

步骤S34:得到训练完成的质量评估模型。

通过上述步骤的训练,得到训练完成的质量评估模型。

可见,在质量评估模型的训练过程中,利用基准句,和训练目标词汇,能够使模型学习到训练目标词汇在基准句中的特点,从而生成具有基准句特点的训练语句,由于质量评估模型在训练过程中,对生成的训练语句有严格的质量要求,通过对训练语句质量的把握,调整质量评估模型的参数,来保证质量评估模型的质量,所以通过训练完成的质量评估模型评估过的题干可以满足本公开对于题干的高质量的要求,进而也保证了所生成题目的高质量。

在另一种具体实施方式中,可以既利用预先训练好的语句生成模型,根据所述目标词汇生成包含所述目标词汇的题干,得到包含所述目标词汇的第一生成题干集合,再根据所述目标词汇,在预先建立的语句数据库中进行查找,得到包含所述目标词汇的第一查找题干集合,这样,所述第一题干集合包括所述第一生成题干集合和所述第一查找题干集合。

这样得到的第一题干集合不仅包括通过语句生成模型生成的题干,而且包括在预先建立的语句数据库中进行查找得到的题干,两部分结合,使第一题干集合中的题干在满足质量要求的前提下,更加丰富多样,进而,保证了所生成的题目的高质量和丰富多样性。

可见,通过上述具体的实施例,第一:语句生成模型是预先训练好的模型,符合预先设定好的质量要求,并且,题干生成的过程中,语句生成模型会根据目标词汇之后,每个字出现的概率的高低,按照一定的方式自动输出目标词汇后面的句子,从而保证了题干生成的灵活多样性,因此,利用语句生成模型生成题干,一方面可以保证生成题干的高质量,另一方面可以保证题干生成的多样性,进而保证了所获得题目的高质量和多样性;第二:由于语句数据库始终保持语句丰富多样并且高质量的状态,使得根据目标词汇遍历该语句数据库,获得的包含目标词汇的题干也始终保持丰富多样并且高质量的状态,进而,保证了所生成的题目的丰富多样并且高质量的状态。

步骤S12:利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合。

得到第一题干集合后,进一步利用质量评估模型对第一题干集合中的各个题干进行质量评估,筛选出满足预定质量要求的题干,从而得到第二题干集合,从而可以保证最终用于生成题目的题干是满足质量要求的。

具体地,质量评估模型可以为通过前述训练方法得到的质量评估模型。

在一种具体实施方式中,质量评估模型可以为分类模型,例如:可以用1来标识句子可以用作题干,用0来标识句子不能用作题干,注释部分可以标明不能用作题干的原因,例如:

在一种具体实施方式中,分类模型可以采用Bert分类模型实现,例如:

Bert分类模型输出为:[CLS]宽阔的……[SEP] [PAD]

[CLS]:表示classification 分类的意思;

[SEP]:是分割标记;

[PAD]:用于将短句子填充到和长句子一样长。

Bert分类模型会对每一个输出token用一个向量表示,这里第一个输出token指的是[CLS],用[CLS]对应的向量,来表示对句子的分类,例如:用[CLS]对应的向量1来表示可以用作题干,用[CLS]对应的向量0来表示不能用作题干。

由于质量评估模型是按照预先设定的质量要求训练好的模型,所以,可以将所述第一题干集合中的各个题干再一次进行质量评估,得到满足质量要求的、高质量的第二题干集合。

步骤S13:利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。

利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合,容易理解的是,目标题干集合中的各个题干是用于对目标词汇的掌握情况进行考察的,此时得到的目标题干集合,可以作为填空题、单项选择题、多项选择题题干的多种用途,实现了题干用途的多样性。

综上所述,可以看出,本公开实施例所提供的题目生成方法,通过给定的目标词汇得到包含目标词汇的目标题干集合,题目的获取方式简单,不必依赖于大段的文本,并且还利用质量评估模型对生成的题干进行质量评估,保证所得到的各个目标题干均为满足质量要求的题干,因此提高了所得到目标题干的质量,进而保证了所获得题目的高质量,最终生成的题干也可以作为填空题、单选题、多选题题干的多种用途,实现了生成题干用途的多样性。

在另一种具体实施方式中,为了生成选择题,还需要生成选项,为了保证所生成的选项的质量,以及所生成的选项能够实现对于目标词汇的考察,请继续参考图1,本公开实施例所提供的题目生成方法,还可以包括:

步骤S14:根据所述目标词汇,获取与所述目标词汇语义相关的各个选项词汇。

只根据目标词汇,就可以获得与目标词汇语义相关的各个选项词汇,使得获得选项词汇的方式变得更为简单,并且,因为题干是根据目标词汇生成的,所以,根据目标词汇获得的选项词汇与题干的相关性、契合度也更好。

在一种具体实施方式中,获取与所述目标词汇语义相关的各个选项词汇的步骤包括:

根据所述目标词汇在预先构建的词语知识库中查找与所述目标词汇语义相关的各个词汇,得到各个所述选项词汇,其中,所述语义相关包括语义相同、语义相近或语义相反。

在一种具体实施方式中,为了保证所得到的词语知识库中的各个词语的质量,词语知识库可以通过以下方式建立:

整合公开的词语资源,这些公开的词语资源包括:学生课本上的词语资源、字典上的词语资源、新闻词语资源、百科常识词语资源、学生读物上的词语资源等等,但并不是所有公开的词语资源都适合作为词语知识库中的词语,所以,获得了公开的词语资源之后,需要先利用预先训练好的分类模型对词语进行标注,将适合作为题目选项的词语标注为:Y,不适合作为题目选项的标注为:N,将适合学生的词语标注为:Y,不适合学生的词语标注为:N,保留高质量的、符合作为题目选项要求的词语资源,构成词语知识库,并且,根据需要,按照上述过程实时更新该词语知识库,使该词语知识库保持词语丰富并且高质量的状态,例如:

可见,在构建词语知识库的过程中,首先从多种渠道获取了公开的词语资源,保证了词语知识库中词语的多样性,然后根据训练好的分类模型对所获得的公开的词语进行分类标注,得到满足题目选项要求的词语资源,进而保证了所获得题目选项的高质量,并且,根据需要,按照上述过程实时更新该词语知识库,使该词语知识库保持词语丰富并且高质量的状态,进而保持了所生成题目选项的多样性和高质量。

在建立好词语知识库的基础上,输入目标词汇,可以返回与目标词汇语义相关的词汇,语义相关的词汇包括:语义相同词汇、语义相近词汇或语义相反词汇。

通过预先建立的词语知识库,根据目标词汇,可以保证获得与目标词汇语义相关的高质量的选项词汇,从而保证了题目选项的高质量和多样性。

步骤S15:随机选取至少一个所述选项词汇,结合所述目标词汇,得到各个题目选项组合。

根据预定的选项数目,结合目标词汇,可以得到预定数目的选项组合,并且,由于所获得选项的多样性,可以通过所获得的不同选项词汇与目标词汇的组合,可以得到多样的题目选项组合方式,保证了题目选项组合的多样性。

容易理解的是,每个题目选项组合中包括至少两个题目选项,其中一个为目标词汇,另外一个或者多个来自于选项词汇。

步骤S16:对从所述目标题干集合中的随机选取的目标题干和从各个所述题目选项组合中随机选取的题目选项组合进行结合,得到包括各个第一目标题目的第一目标题目集合。

由于目标题干集合中包含多种目标题干,同时,题目选项组合也包括多种题目选项组合,通过对目标题干集合中的题干和题目选项组合中的题目选项组合的随机选取,可以得到多种多样的题目集合,从而保证了第一目标题目集合中题目的多样性,也可以满足所得到题目数量要求。

这样,通过对所述目标题干集合中的随机选取的目标题干和从各个所述题目选项组合中随机选取的题目选项组合进行结合,可以得到单项选择题或多项选择题,通过对目标题干集合中的题干和题目选项组合中的题目选项组合的随机选取,可以得到多种多样的题目集合,从而保证了第一目标题目集合中题目的多样性,也可以满足所得到题目数量要求。

然而,由于选项词汇包含与所述目标词汇语义相关的词汇,即目标词汇的近义词、同义词或者反义词,这就存在出现所形成的题目选项组合中各个题目选项多个正确的可能,为了保证题目选项组合中的正确题目选项的数量满足要求,在另一种具体实施方式中,请继续参考图1,本公开实施例所提供的题目生成方法,还可以包括:

步骤S17:利用选项筛选模型筛选所述第一目标题目集合,当所述第一目标题目的题目选项组合中包含大于预定数量的正确题目选项时,去除所述第一目标题目的所述题目选项组合及所述目标题干,得到第二目标题目集合。

选项筛选模型可以筛选题目选项中各个选项,去除多余的正确选项,使正确选项的数量满足题目所需的数量要求。

在一种具体实施方式中,如果所述第一目标题目集合为单选题题目集合时,有可能出现题目选项组合中的正确选项大于1个的情况,在这种情况下,利用训练完成的选项筛选模型筛选所述第一目标题目集合,去除第一目标题目的所述题目选项组合及所述目标题干,得到第二目标题目集合,例如:

例1、题干:因为他(),所以大家都很喜欢他。

选项 A:天资聪颖;B:聪明伶俐

例2、题干:一路上,我们(),有说有笑。

选项A:欢声笑语;B:兴高采烈

在上述例子中,两个选项对于题干来说都是正确选项,但如果所述题目为单项选择题时,这样的题目是不正确的题目,这个时候,可以执行步骤S17,去除正确选项大于1个的题目,得到第二目标题目集合。

在另一种具体实施方式中,如果所述第一目标题目集合为多选题题目集合时,预定的题目选项组合中的正确选项可以包括大于1个的情况,可以利用选项筛选模型进行筛选,去除不符合要求的第一目标题目的所述题目选项组合及所述目标题干,得到所需的第二目标题目集合,例如:题目为多项选择题,题目正确选项可以是2个或2个以上:

例1、题干:因为他(),所以大家都很喜欢他。

选项 A:天资聪颖;B:聪明伶俐

例2、题干:一路上,我们(),有说有笑。

选项A:欢声笑语;B:垂头丧气

在上述例子中,例2中只有一个选项是正确选项,不满足题目要求,可以执行步骤S17,利用选项筛选模型去除这些不满足题目要求的题目,得到第二目标题目集合。

这样,利用本公开提供的题目生成方法,在保证只根据目标词汇,就可以简单的获取题目的同时,还可以自动生成多样化、高质量的填空题、多项选择题,也可以自动生成多样化、高质量的单项选择题。

下面对本公开实施例提供的题目生成装置进行介绍,下文描述的题目生成装置可以认为是,电子设备(如:PC)为分别实现本公开实施例提供的题目生成方法所需设置的功能模块架构。下文描述的题目生成装置的内容,可分别与上文描述的题目生成方法的内容相互对应参照。

图4是本公开实施例所提供的题目生成装置的一框图,该题目生成装置即可应用于客户端,也可应用于服务器端,参考图4,该题目生成装置可以包括:

目标词汇获取单元40,适于获取目标词汇。

第一题干集合获取单元41,适于根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合。

第二题干集合获取单元42,适于利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合。

目标题干集合获取单元43,适于利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。

可以看出,本公开实施例所提供的一种题目生成装置,在自动生成题目时,首先目标词汇获取单元40获取目标词汇,然后第一题干集合获取单元41根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合;第二题干集合获取单元42再利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合;最后目标题干集合获取单元43利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。

这样,本公开实施例所提供的题目生成装置,通过给定的目标词汇得到包含目标词汇的目标题干集合,题目的获取方式简单,不必依赖于大段的文本,并且还利用质量评估模型对生成的题干进行质量评估,保证所得到的各个目标题干均为满足质量要求的题干,因此提高了所得到目标题干的质量,进而保证了所获得题目的高质量,最终生成的题干也可以作为填空题、单选题、多选题题干的多种用途,实现了生成题干用途的多样性。

为了进行题目生成,目标词汇获取单元40:首先获取目标词汇:

容易理解的是,为了实现基于目标词汇生成题目,首先需要获取目标词汇,从而所生成的题目是与目标词汇相关联的。

具体地,获取目标词汇的方式可以有多种,比如:可以直接通过输入目标词汇的方式通过电子设备获取,也可以通过对句子的提取,获取到目标词汇。

例如:为了生成对于“宽阔”这个目标词汇进行考核的题目,可以首先直接获取“宽阔”这个词汇,也可以通过对包含“宽阔”这个词汇的句子进行词汇提取,得到目标词汇。

第一题干集合获取单元41:根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合:

在获取了目标词汇的基础上,进一步根据目标词汇自动获取题干,容易理解的是,所获取的题干的数量为多个,从而形成第一题干集合。

在一种具体实施方式中,为了保证所得到的第一题干集合中的题干的种类的多样性,可以通过语句生成模型,生成题干,得到第一题干集合,本公开实施例所提供的题目生成装置,可以包括:

第一生成题干集合获取单元48:

利用预先训练好的语句生成模型,根据所述目标词汇生成包含所述目标词汇的题干,得到包含所述目标词汇的第一生成题干集合,获取方法包括以下至少一种:

输入所述目标词汇到已训练完成的语句生成模型,得到第一生成题干集合;

输入所述目标词汇,以及所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号三项中至少一项到已训练完成的语句生成模型,得到第一生成题干集合;

即将目标词汇输入至已经训练好的语句生成模型,语句生成模型即可输出包含目标词汇的第一生成题干集合。

语句生成模型可以是GPT2模型,也可以是T5模型等语句生成模型,或者其他能够根据目标词汇生成题干的语句生成模型。

容易理解的是,在此实施例中,第一生成题干集合即为通过模型生成方式得到的第一题干集合,如果仅采用模型生成题干的方式获取题干,那么第一生成题干集合即为第一题干集合,如果还采用其他方式获取题干,那么第一生成题干集合和通过其他方式得到的题干的整体即为本文所述的第一题干集合。

容易理解的是,具体输入时,既可以仅输入目标词汇,还可以输入其他的信息比如:所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号等等,这与语句生成模型训练过程中的输入信息相匹配,并且输入的信息越多,所生成的各个第一生成题干的限制条件也就越多,当然所得到的第一生成题干的准确性也就越高,更能够满足要求。

为了同时兼顾第一生成题干准确性和多样性的要求,在具体使用过程中,可以通过更改所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号等信息的方式,生成目标词汇位置不同、句子长度不同、最后标点符号不同的各种第一生成题干。

可以看出,只输入所述目标词汇到已训练完成的语句生成模型,得到第一生成题干集合;因为在这种方法中,只输入了目标词汇,对其它的形式未做任何限制,所以,通过这种方法可以得到陈述句、疑问句、感叹句等等各种句式、以及各种句子长度的题干,因此,可以得到形式多样的题干,进而保证了所生成题目的多样性。

2)输入所述目标词汇,以及所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号三项中至少一项到已训练完成的语句生成模型,得到第一生成题干集合。

输入:词的开始位置[SEP]句子长度[SEP]最后的标点符号[SEP]输入词语[SEP][SOS]来生成题干,比如:

具体输入:0 [SEP] 22 [SEP] 。 [SEP] 宽阔 [SEP] [SOS]

0:表示目标词汇的开始位置;

[SEP]:表示分割的意思,用来分割输入的不同的片段;

22:表示题干的长度为22个字符,每一个字或者标点符号算做一个字符;

。:表示题干的最后的标点符号为句号;

宽阔:表示目标词汇;

[SOS]:表示start of sequence,表示题干的开始标记。

GPT2模型接受[SOS]后,开始输出题干,因为输入时以“0”为开头,所以,第一个字符是目标词汇中“宽”,第二个字符是目标词汇中的“阔”,然后,GPT2模型会按照预先训练好的结果,根据语句数据库中“阔”字后面出现概率最高的字,输出下一个字,比如为:“的”,再根据语句数据库中“的”字后面出现概率最高的字,输出下一个字,比如为“河”,依次类推,逐字生成题干,直到达到预设的题干长度“22”个字符,并且最后的标点符号为“。”,最后,GPT2模型输出的结果为,举例:

宽阔的河面像一面大镜子,倒映照着江岸的美景。[EOS]

[EOS]:表示end of sequence,表示题干的结束,去掉[EOS]后,就是当前模型输出的题干了。

即,在此情况下,语句生成模型所生成的为宽阔在最前面,句子长度为22字符,结尾标点符号为句号的第一题干,然后,可以通过更改生成要求,再次生成其他的第一题干。

这样,输入所述目标词汇,以及所述目标词汇的开始位置、待生成的所述第一生成题干集合的句子长度和待生成的所述第一生成题干集合的最后标点符号三项中至少一项到已训练完成的语句生成模型,得到第一生成题干集合,在这种方法中,根据预设的条件,对语句生成模型的输入数据做了形式上的限制,这样可以保证只利用目标词汇生成题干简单化的同时,得到满足预设条件的题干,进而保证可以获得满足预设条件的题目,当然,所输入的预设条件越多,在进行模型训练时,也更简单。

3)在另一种具体实施方式中,还可以同时结合前述的两种方式,获取第一生成题干集合。

这样,本公开实施例所提供的题目生成方法,既可以得到形式多样的题干,进而保证了所得到题目的多样性,也可以保证只利用目标词汇生成题干简单化的同时,得到满足预设条件的题干,进而保证可以获得满足预设条件的题目。

另外,在一种具体实施方式中,为了提高题干生成质量,本公开提供了:

语句生成模型训练单元,本公开实施例所提供的题目生成方法的语句生成模型可以通过以下方式训练,训练步骤包括:

1)、获取句子生成训练数据集,所述句子生成训练数据集包括训练目标词汇和包含所述训练目标词汇的基准句,所述基准句满足预定质量要求。

为了训练语句生成模型,需要获取句子生成数据集,句子生成数据集包括了训练目标词汇和包含所述训练目标词汇的基准句,所述基准句满足预定的质量要求,从而可以利用这些满足质量阈值要求的基准句作为标准来生成训练语句,提高语句生成模型的训练效果。

在具体的训练过程中,除了输入训练目标词汇之外,还可以输入所述训练词汇的开始位置、待生成训练语句的长度和待生成训练语句的最后标点符号三项中至少一项,根据所述基准句,通过语句生成模型来生成训练语句。

2)、通过所述语句生成模型,根据所述训练目标词汇和所述基准句,生成训练语句。

利用语句生成模型,根据训练目标词汇,按照基准句的模式,能够使模型学习到目标词汇在基准句中的特点,从而生成训练语句,此时生成的训练语句可能并不完善,需要按照预定的质量阈值来判断所述训练语句的质量。

3)、判断训练语句的质量是否满足预定的质量阈值,如果“是”执行步骤5);如果“否”执行步骤4)。

利用预定的质量阈值来判断上述训练语句的质量,如果训练语句的质量不满足预定的质量阈值,则执行步骤4),直至训练语句的质量满足预定的质量阈值执行步骤5),所述质量阈值包括:语句内容适合、语句指代明确、语句常识正确、语句思想正确、语句优美等等。

4)、调整所述语句生产模型的参数。

按照质量阈值,根据满足预定质量要求的基准句,来调整语句生成模型的参数,使得语句生成模型按照新的模型参数来生成新的训练语句,使得新的训练语句更加完善。

5)、得到训练完成的语句生成模型。

通过上述步骤的训练,得到训练完成的语句生成模型。

可见,在语句生成模型的训练过程中,利用基准句,和训练目标词汇,能够使模型学习到训练目标词汇在基准句中的特点,从而生成具有基准句特点的训练语句,由于语句生成模型在训练过程中,对生成的训练语句有严格的质量要求,通过对训练语句质量的把握,调整语句生成模型的参数,来保证语句生成模型的质量,所以通过所述训练完成的语句生成模型生成的题干可以满足本公开对于题干的高质量的要求,进而也保证了所生成题目的高质量。

因此,利用预先训练好的语句生成模型,可以很方便地得到满足质量要求的题干,并且,题干生成的过程中,语句生成模型会根据目标词汇之后,每个字出现的概率的高低,按照一定的方式自动输出目标词汇后面的句子,从而保证了题干生成的灵活多样性,因此,利用语句生成模型生成题干,一方面可以保证生成题干的高质量,另一方面可以保证题干生成的多样性。

在另一种具体实施方式中,为了获取第一题干集合,本公开还提供了:

第一查找题干集合获取单元49,根据所述目标词汇,在预先建立的语句数据库中进行查找,得到包含所述目标词汇的第一查找题干集合。

容易理解的是,在此实施例中,第一查找题干集合即为通过查找的方式得到的第一题干集合,如果仅采用查找的方式获取题干,那么第一查找题干集合即为第一题干集合,如果还采用其他方式获取题干,那么第一查找题干集合和通过其他方式得到的题干的整体即为本文所述的第一题干集合。

具体过程为:根据所述目标词汇,遍历预先建立好的语句数据库,查找语句数据库中每一个包含目标词汇的句子,输出查找结果,得到包含目标词汇的题干。

在一种具体实施方式中,为了保证所得到的语句数据库中的各个语句的质量,语句数据库可以通过以下方式建立:

第一、整合外部语句库,外部语句库的语句包括:百科知识、新闻素材、学生读物等材料中的语句,但并不是所有的百科知识、新闻素材、学生读物等材料中的语句都适合作为语句数据库中的语句,所以,获得了百科知识、新闻素材、学生读物等材料中的语句之后,需要先利用预先训练好的分类模型对语句进行标注,将适合作为题干的语句标注为:Y,不适合作为题干的语句标注为:N,将适合学生的语句标注为:Y,不适合学生的语句标注为:N,经过标注后,保留同时适合学生并且适合做题干的语句,作为整合完成的外部语句库。

第二、利用预先训练完成的质量评估模型,对整合完成的外部语句库中的语句再一次进行质量评估、分类筛选,按照预设的质量要求,保留满足质量阈值的语句,具体地质量阈值可以为:语句内容适合、语句指代明确、语句常识正确、语句思想正确、语句优美等等,将所保留的语句收集整合,作为语句数据库,并且根据需要,按照上述过程实时更新该语句数据库,使该语句数据库保持语句丰富并且高质量的状态。

可见,在语句数据库建立的过程中,首先,收集整合了外部语句库,并对外部语句库利用预先训练好的分类模型对语料进行标注,保证了整合完成的外部语句库中的语句都是高质量的语句;第二,在上述基础上,利用预先训练完成的质量评估模型,对整合完成的外部语句库中的语句再一次进行质量评估、分类筛选,在保证语句数据库中的语句丰富多样的基础上,再一次完成质量提升,并且,根据需要,按照上述过程实时更新该语句数据库,使该语句数据库保持语句丰富多样并且高质量的状态。

可见,由于语句数据库始终保持语句丰富多样并且高质量的状态,使得根据目标词汇遍历该语句数据库,获得的包含目标词汇的题干也始终保持丰富多样并且高质量的状态,进而,保证了所生成的题目的丰富多样并且高质量的状态。

在一种具体实施方式中,为了得到高质量的题干,本申请还提供了:

质量评估模型训练单元,实施例所提供的题目生成方法的质量评估模型的训练步骤包括:

1)、获取句子评估训练数据集,所述句子评估训练数据集包括训练目标词汇和包含所述训练目标词汇的基准句,所述基准句满足预定质量要求。

为了训练质量评估模型,需要获取句子评估训练数据集,句子评估训练数据集包括了训练目标词汇和包含所述训练目标词汇的基准句,所述基准句满足预定的质量要求,所述基准句满足预定的质量要求指的是所述基准句满足预定的质量阈值的要求,可以利用这些满足质量阈值要求的基准句作为标准来生成训练语句。

2)、通过所述质量评估模型,根据所述训练目标词汇和所述基准句,生成训练语句。

利用质量评估模型,根据训练目标词汇,按照基准句的模式,能够使模型学习到目标词汇在基准句中的特点,从而生成训练语句,此时生成的训练语句可能并不完善,需要按照预定的质量阈值来判断所述训练语句的质量。

3)、判断训练句的质量是否满足预定的质量阈值,如果“是”,执行步骤5),如果“否”,执行步骤4)。

利用预定的质量阈值来判断上述训练语句的质量,如果训练语句的质量不满足预定的质量阈值,则执行步骤4),直至训练语句的质量满足预定的质量阈值执行步骤5),所述质量阈值包括:语句内容适合、语句指代明确、语句常识正确、语句思想正确、语句优美等等。

4)、调整所述质量评估模型的参数。

按照质量阈值,根据满足预定质量要求的基准句,来调整语句生成模型的参数,使得语句生成模型按照新的模型参数来生成新的训练语句,使得新的训练语句更加完善。

5)、步骤得到训练完成的质量评估模型。

通过上述步骤的训练,得到训练完成的质量评估模型。

可见,在质量评估模型的训练过程中,利用基准句,和训练目标词汇,能够使模型学习到训练目标词汇在基准句中的特点,从而生成具有基准句特点的训练语句,由于质量评估模型在训练过程中,对生成的训练语句有严格的质量要求,通过对训练语句质量的把握,调整质量评估模型的参数,来保证质量评估模型的质量,所以通过训练完成的质量评估模型评估过的题干可以满足本公开对于题干的高质量的要求,进而也保证了所生成题目的高质量。

在另一种具体实施方式中,可以既利用预先训练好的语句生成模型,根据所述目标词汇生成包含所述目标词汇的题干,得到包含所述目标词汇的第一生成题干集合,再根据所述目标词汇,在预先建立的语句数据库中进行查找,得到包含所述目标词汇的第一查找题干集合,这样,所述第一题干集合包括所述第一生成题干集合和所述第一查找题干集合。

这样得到的第一题干集合不仅包括通过语句生成模型生成的题干,而且包括在预先建立的语句数据库中进行查找得到的题干,两部分结合,使第一题干集合中的题干在满足质量要求的前提下,更加丰富多样,进而,保证了所生成的题目的高质量和丰富多样性。

可见,通过上述具体的实施例,第一:语句生成模型是预先训练好的模型,符合预先设定好的质量要求,并且,题干生成的过程中,语句生成模型会根据目标词汇之后,每个字出现的概率的高低,按照一定的方式自动输出目标词汇后面的句子,从而保证了题干生成的灵活多样性,因此,利用语句生成模型生成题干,一方面可以保证生成题干的高质量,另一方面可以保证题干生成的多样性,进而保证了所获得题目的高质量和多样性;第二:由于语句数据库始终保持语句丰富多样并且高质量的状态,使得根据目标词汇遍历该语句数据库,获得的包含目标词汇的题干也始终保持丰富多样并且高质量的状态,进而,保证了所生成的题目的丰富多样并且高质量的状态。

在另一种具体实施方式中,请继续参考图4,本公开实施例所提供的题目生成装置,还可以包括:

第二题干集合获取单元42:利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合。

得到第一题干集合后,进一步利用质量评估模型对第一题干集合中的各个题干进行质量评估,筛选出满足预定质量要求的题干,从而得到第二题干集合,从而可以保证最终用于生成题目的题干是满足质量要求的。

具体地,质量评估模型可以为通过前述训练方法得到的质量评估模型。

在一种具体实施方式中,质量评估模型可以为分类模型,例如:可以用1来标识句子可以用作题干,用0来标识句子不能用作题干,注释部分可以标明不能用作题干的原因。

在一种具体实施方式中,分类模型可以采用Bert分类模型实现,例如:

Bert分类模型输出为:[CLS]宽阔的……[SEP] [PAD]

[CLS]:表示classification 分类的意思;

[SEP]:是分割标记;

[PAD]:用于将短句子填充到和长句子一样长。

Bert分类模型会对每一个输出token用一个向量表示,这里第一个输出token指的是[CLS],用[CLS]对应的向量,来表示对句子的分类,例如:用[CLS]对应的向量1来表示可以用作题干,用[CLS]对应的向量0来表示不能用作题干。

由于质量评估模型是按照预先设定的质量要求训练好的模型,所以,可以将所述第一题干集合中的各个题干再一次进行质量评估,得到满足质量要求的、高质量的第二题干集合。

目标题干集合获取单元43:利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。

利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合,容易理解的是,目标题干集合中的各个题干是用于对目标词汇的掌握情况进行考察的,此时得到的目标题干集合,可以作为填空题、单项选择题、多项选择题题干的多种用途,实现了题干用途的多样性。

综上所述,可以看出,本公开实施例所提供的题目生成方法,通过给定的目标词汇得到包含目标词汇的目标题干集合,题目的获取方式简单,不必依赖于大段的文本,并且还利用质量评估模型对生成的题干进行质量评估,保证所得到的各个目标题干均为满足质量要求的题干,因此提高了所得到目标题干的质量,进而保证了所获得题目的高质量,最终生成的题干也可以作为填空题、单选题、多选题题干的多种用途,实现了生成题干用途的多样性。

在另一种具体实施方式中,为了生成选择题,还需要生成选项,为了保证所生成的选项的质量,以及所生成的选项能够实现对于目标词汇的考察,请继续参考图4,本公开实施例所提供的题目生成装置,还可以包括:

选项词汇获取单元44:根据所述目标词汇,获取与所述目标词汇语义相关的各个选项词汇。

只根据目标词汇,就可以获得与目标词汇语义相关的各个选项词汇,使得获得选项词汇的方式变得更为简单,并且,因为题干是根据目标词汇生成的,所以,根据目标词汇获得的选项词汇与题干的相关性、契合度也更好。

在一种具体实施方式中,本公开还提供了:

相关词汇获取单元:根据所述目标词汇在预先构建的词语知识库中查找与所述目标词汇语义相关的各个词汇,得到各个所述选项词汇,其中,所述语义相关包括语义相同、语义相近或语义相反。

在一种具体实施方式中,为了保证所得到的词语知识库中的各个词语的质量,词语知识库可以通过以下方式建立:

整合公开的词语资源,这些公开的词语资源包括:学生课本上的词语资源、字典上的词语资源、新闻词语资源、百科常识词语资源、学生读物上的词语资源等等,但并不是所有公开的词语资源都适合作为词语知识库中的词语,所以,获得了公开的词语资源之后,需要先利用预先训练好的分类模型对词语进行标注,将适合作为题目选项的词语标注为:Y,不适合作为题目选项的标注为:N,将适合学生的词语标注为:Y,不适合学生的词语标注为:N,保留高质量的、符合作为题目选项要求的词语资源,构成词语知识库,并且,根据需要,按照上述过程实时更新该词语知识库,使该词语知识库保持词语丰富并且高质量的状态。

可见,在构建词语知识库的过程中,首先从多种渠道获取了公开的词语资源,保证了词语知识库中词语的多样性,然后根据训练好的分类模型对所获得的公开的词语进行分类标注,得到满足题目选项要求的词语资源,进而保证了所获得题目选项的高质量,并且,根据需要,按照上述过程实时更新该词语知识库,使该词语知识库保持词语丰富并且高质量的状态,进而保持了所生成题目选项的多样性和高质量。

在建立好词语知识库的基础上,输入目标词汇,可以返回与目标词汇语义相关的词汇,语义相关的词汇包括:语义相同词汇、语义相近词汇或语义相反词汇。

通过预先建立的词语知识库,根据目标词汇,可以保证获得与目标词汇语义相关的高质量的选项词汇,从而保证了题目选项的高质量和多样性。

题目选项组合获取单元45:随机选取至少一个所述选项词汇,结合所述目标词汇,得到各个题目选项组合。

根据预定的选项数目,结合目标词汇,可以得到预定数目的选项组合,并且,由于所获得选项的多样性,可以通过所获得的不同选项词汇与目标词汇的组合,可以得到多样的题目选项组合方式,保证了题目选项组合的多样性。

容易理解的是,每个题目选项组合中包括至少两个题目选项,其中一个为目标词汇,另外一个或者多个来自于选项词汇。

第一目标题目集合生成单元46:对从所述目标题干集合中的随机选取的目标题干和从各个所述题目选项组合中随机选取的题目选项组合进行结合,得到包括各个第一目标题目的第一目标题目集合。

由于目标题干集合中包含多种目标题干,同时,题目选项组合也包括多种题目选项组合,通过对目标题干集合中的题干和题目选项组合中的题目选项组合的随机选取,可以得到多种多样的题目集合,从而保证了第一目标题目集合中题目的多样性,也可以满足所得到题目数量要求。

这样,通过对所述目标题干集合中的随机选取的目标题干和从各个所述题目选项组合中随机选取的题目选项组合进行结合,可以得到单项选择题或多项选择题,通过对目标题干集合中的题干和题目选项组合中的题目选项组合的随机选取,可以得到多种多样的题目集合,从而保证了第一目标题目集合中题目的多样性,也可以满足所得到题目数量要求。

然而,由于选项词汇包含与所述目标词汇语义相关的词汇,即目标词汇的近义词、同义词或者反义词,这就存在出现所形成的题目选项组合中各个题目选项多个正确的可能,为了保证题目选项组合中的正确题目选项的数量满足要求,在另一种具体实施方式中,请继续参考图4,本公开实施例所提供的题目生成装置,还可以包括:

第二目标题目集合生成单元47:利用选项筛选模型筛选所述第一目标题目集合,当所述第一目标题目的题目选项组合中包含大于预定数量的正确题目选项时,去除所述第一目标题目的所述题目选项组合及所述目标题干,得到第二目标题目集合。

选项筛选模型可以筛选题目选项中各个选项,去除多余的正确选项,使正确选项的数量满足题目所需的数量要求。

在一种具体实施方式中,如果所述第一目标题目集合为单选题题目集合时,有可能出现题目选项组合中的正确选项大于1个的情况,在这种情况下,利用训练完成的选项筛选模型筛选所述第一目标题目集合,去除第一目标题目的所述题目选项组合及所述目标题干,得到第二目标题目集合,例如:

例1、题干:因为他(),所以大家都很喜欢他。

选项 A:天资聪颖;B:聪明伶俐

例2、题干:一路上,我们(),有说有笑。

选项A:欢声笑语;B:兴高采烈

在上述例子中,两个选项对于题干来说都是正确选项,但如果所述题目为单项选择题时,这样的题目是不正确的题目,这个时候,可以执行步骤S17,去除正确选项大于1个的题目,得到第二目标题目集合。

在另一种具体实施方式中,如果所述第一目标题目集合为多选题题目集合时,预定的题目选项组合中的正确选项可以包括大于1个的情况,可以利用选项筛选模型进行筛选,去除不符合要求的第一目标题目的所述题目选项组合及所述目标题干,得到所需的第二目标题目集合,例如:题目为多项选择题,题目正确选项可以是2个或2个以上:

例1、题干:因为他(),所以大家都很喜欢他。

选项 A:天资聪颖;B:聪明伶俐

例2、题干:一路上,我们(),有说有笑。

选项A:欢声笑语;B:垂头丧气

在上述例子中,例2中只有一个选项是正确选项,不满足题目要求,可以执行步骤S17,利用选项筛选模型去除这些不满足题目要求的题目,得到第二目标题目集合。

这样,利用本公开提供的题目生成方法,在保证只根据目标词汇,就可以简单的获取题目的同时,还可以自动生成多样化、高质量的填空题、多项选择题,也可以自动生成多样化、高质量的单项选择题。

当然,本公开实施例还提供一种电子设备,本公开实施例提供的设备可以通过程序形式装载上述所述的程序模块架构,以实现本公开实施例提供的题目生成方法;该硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或者服务器设备。

可选的,图5示出了本公开实施例提供的设备一种可选硬件设备架构,可以包括:至少一个存储器3和至少一个处理器1;所述存储器存储有程序,所述处理器调用所述程序,以执行前述的题目生成方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设备;处理器1和存储器3也可以位于不同的电子设备。

作为本公开实施例公开内容的一种可选实现,存储器3可以存储程序,处理器1可调用所述程序,以执行本公开上述实施例提供的题目生成方法。

本公开实施例中,电子设备可以是能够进行情感识别的平板电脑、笔记本电脑等设备。

在本公开实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;显然,图5所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;

可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;

处理器1可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

需要说明的是,上述的设备还可以包括与本公开实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本公开实施例公开内容可能并不是必需,本公开实施例对此不进行逐一介绍。

本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上所述题目生成方法。

本公开实施例所提供的存储介质所存储的计算机可执行指令,在题目生成时,首先获取目标词汇,然后根据所述目标词汇,获取包含所述目标词汇的题干集合,得到第一题干集合;再利用质量评估模型,对所述第一题干集合中的各个题干进行质量评估,获取满足预定质量要求的第二题干集合;最后利用空白标识替换所述第二题干集合中各个题干中的所述目标词汇,得到目标题干集合。可以看出,本公开实施例所提供的题目生成方法,通过给定的目标词汇得到包含目标词汇的目标题干集合,题目的获取方式简单,不必依赖于大段的文本,并且还利用质量评估模型对生成的题干进行质量评估,保证所得到的各个目标题干均为满足质量要求的题干,因此提高了所得到目标题干的质量,进而保证了所获得题目的高质量,最终生成的题干也可以作为填空题、单选题、多选题题干的多种用途,实现了生成题干用途的多样性。

上述本公开的实施方式是本公开的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本公开的实施方式可通过组合部分元件和/或特征来构造。本公开的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本公开的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。

本公开的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本公开示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中,本公开的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本公开。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其他实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本公开实施例披露如上,但本公开并非限定于此。任何本领域技术人员,在不脱离本公开的精神和范围内,均可作各种变动与修改,因此本公开的保护范围应当以权利要求所限定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号