首页> 中国专利> 智能面试的追问题目生成方法、装置和电子设备

智能面试的追问题目生成方法、装置和电子设备

摘要

本发明公开了智能面试的追问题目生成方法、装置和电子设备,涉及商业面试信息数据处理技术领域。所述方法包括:解析候选人的答案,从答案中识别出多个语义实体;对多个语义实体进行关系抽取,得到实体关系信息;获取题目对应的标准答案,基于标准答案和实体关系信息确定候选人的作答结果信息;基于作答结果信息确定追问策略,并根据追问策略在题目对应的知识图谱中确定追问知识点,生成追问知识点对应的追问题目。本发明能够进行有针对性的追问,使得追问题目帮助面试官挖掘候选人的知识深度及广度,并最终确定岗位匹配度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-07-25

    授权

    发明专利权授予

  • 2023-03-28

    实质审查的生效 IPC(主分类):G06F40/284 专利申请号:2022115489725 申请日:20221205

    实质审查的生效

  • 2023-03-10

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及商业面试信息的数据处理技术领域,尤其涉及一种智能面试的追问题目生成方法、装置和电子设备。

背景技术

当前市场上智能面试通常会预设每道源题目的若干个追问维度,并使用模型来判定需要追问的目标维度,并将该目标维度下的追问题目推荐给面试官。

发明人在实现本发明的过程中发现,采用当前方案在面试过程中只能按照特定的制式进行单向发问,缺乏对候选人回答内容的有效理解并进行有针对性的追问,追问题目无法帮助面试官挖掘候选人的知识深度及广度,并最终确定候选人与岗位的匹配度。

发明内容

为了解决上述技术问题或者至少部分的解决上述技术问题,本发明实施例提供了一种智能面试的追问题目生成方法、装置和电子设备,以知识图谱形式建立了知识点与知识点的联系,每个追问可以基于候选人的作答情况确定追问方向,针对子知识点、同级知识点、未提及知识点等进行有针对性的追问,使得追问题目能够帮助面试官挖掘候选人的知识深度及广度,并最终确定候选人与岗位的匹配度。

本发明实施例提供了一种智能面试的追问题目生成方法,包括:

解析候选人针对题目进行作答的答案,从所述作答的答案中识别出多个语义实体;对所述多个语义实体之间的属性关系进行抽取,得到所述多个语义实体之间的实体关系信息;获取所述题目对应的标准答案,基于所述标准答案和所述实体关系信息确定所述候选人的作答结果信息;其中,所述作答结果信息用于表征所述候选人对所述题目涉及的若干知识点的掌握情况;基于所述作答结果信息确定至少一个追问策略,并根据所述追问策略在所述题目对应的知识图谱中确定追问知识点,生成所述追问知识点对应的追问题目。

本发明实施例还提供了一种智能面试的追问题目生成装置,包括:

识别模块,用于解析候选人针对题目进行作答的答案,从所述答案中识别出多个语义实体;抽取模块,用于对所述多个语义实体之间的属性关系进行抽取,得到多个语义实体的实体关系信息;确定模块,用于获取所述题目对应的标准答案,基于所述标准答案和所述实体关系信息确定所述候选人的作答结果信息;其中,所述作答结果信息用于表征所述候选人对所述题目涉及的若干知识点的掌握情况;生成模块,用于基于所述作答结果信息确定至少一个追问策略,并根据所述追问策略在所述题目对应的知识图谱中确定追问知识点,生成所述追问知识点对应的追问题目。

本发明实施例还提供了一种电子设备,所述电子设备包括:

一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的追问题目生成方法。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的追问题目生成方法。

本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的追问题目生成方法。

本发明实施例提供的技术方案与现有技术相比具有如下优点:

(1)以知识图谱形式建立了知识点与知识点的联系,每个追问可以基于候选人的作答情况确定追问方向,针对子知识点、同级知识点、未提及知识点等进行有针对性的追问,使得追问题目能够帮助面试官挖掘候选人的知识深度及广度,并最终确定候选人与岗位的匹配度。

(2)针对每道题目涉及到的知识点,利用这些知识点的先验知识添增强语义实体识别的效果,能够有效适应各种情况的标准答案核心词。

附图说明

结合附图并参考以下具体实施方式,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。

图1为本发明实施例中的一种智能面试的追问题目生成方法的流程图;

图2为本发明实施例中的一种利用先验知识对基于词典+规则方式进行语义实体识别的增强方法的流程图;

图3为本发明实施例中的一种利用先验知识对基于机器学习/深度学习方式进行语义实体识别的增强方法的流程图;

图4本发明实施例中的一种智能面试的追问题目生成装置的结构示意图;

图5本发明实施例中的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细的描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整的理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。

应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分的基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

当前市场上智能面试主要存在的问题是面试过程中过于机械,在面试过程中只能按照预设的考核维度进行单向追问,忽略了知识体系本身是树状或网状的结构,知识点和知识点的联系会有一定程度上的缺失,因此缺乏对候选人回答内容的有效理解并进行有针对性的追问。因此,本发明实施例公开了基于知识图谱的追问方法,以知识图谱形式建立了知识点与知识点的联系,每道题目可以针对一个或多个知识点进行询问,每个追问可以针对子知识点、同级知识点、未提及知识点等进行展开提问,能够挖掘候选人的知识深度及广度。

参考图1所示,本发明实施例提供了一种智能面试的追问题目生成方法的流程图。

步骤S110,解析候选人针对题目进行作答的答案,从所述作答的答案中识别出多个语义实体。

对候选人答案进行语义实体识别,识别出任何需要使用到的语义实体。语义实体是文档/文件/语句中描述现实世界的确切对象的名词的词语组合,例如人名、机构名、地名以及其他所有以名称为标识的实体,更广泛的实体还包括数字、日期、货币、地址等等,在不同的领域的实体类型会有较大的区别,比如在医学领域重要的实体类型通常包括基因名称、蛋白质名称、蛋白质结构属性名称、化合物名称、药物名称和疾病名称等等。

语义实体识别可以基于词典+双向最大匹配规则来实现,也可以基于任何一种序列标注算法来实现,包括但不限于基于循环神经网络(如RNN、LSTM),基于预训练模型(BERT)。

举例来说,候选人答案是“事务隔离级别有已提交读和可重复读,已提交读级别能够解决脏读的问题,可重复读级别能够解决幻读和不可重复读的问题”,从中提取出如下语义实体:“事务隔离级别、已提交读级别、可重复读级别、脏读、不可重复读、幻读”。

步骤S120,对所述多个语义实体进行属性关系抽取,得到所述多个语义实体的实体关系信息。

结合语义实体识别结果,将任意两个语义实体组成语义实体对,并对每个语义实体对进行关系判定。关系判定可以使用任何一种文本分类算法来实现,包括但不限于基于传统机器学习(如LR、SVM),基于卷积神经网络(如TextCNN),基于循环神经网络(如RNN、LSTM),基于预训练模型(如BERT)。

接续步骤S110中的例子,对上述识别到的语义实体提炼出以下关系:“已提交读级别属于事务隔离级别”,“可重复读级别属于事务隔离级别”,“已提交读级别可解决幻读”,“可重复读级别可解决幻读”,“可重复读级别可解决不可重复读”。

步骤S130,获取所述题目对应的标准答案,基于所述标准答案和所述实体关系信息确定所述候选人的作答结果信息。

其中,所述作答结果信息用于表征所述候选人对所述题目涉及的若干知识点的掌握情况。

标准答案中包括全部的语义实体关系,一般来说,题目会涉及若干知识点,一个或多个语义实体关系答案对应一个知识点,主要判断抽取的语义实体关系和标准答案中的语义实体关系是否一致,对于一致部分对应的知识点说明候选人掌握良好,对于不一致部分对应的知识点说明候选人掌握错误,对于缺失部分对应的知识点说明候选人掌握缺失。

延续上面的例子,标准答案包括:“未提交读级别属于事务隔离级别”,“已提交读级别属于事务隔离级别”,“可重复读级别属于事务隔离级别”,“串行化级别属于事务隔离级别”,“已提交读级别可解决脏读”,“可重复读级别可解决脏读”,“可重复读级别可解决不可重复读”,“串行化级别可解脏读”,“串行化级别可解决不可重复读”,“串行化级别可解决幻读”。将该标准答案与步骤S120中的语义实体关系比对可发现,一致的有4条(“已提交读级别属于事务隔离级别”、“可重复读级别属于事务隔离级别”、“可重复读级别可解决脏读”、“可重复读级别可解决脏读”)、不一致的有1条(“已提交读级别可解决幻读”)、未提及的有5条(“未提交读级别属于事务隔离级别”、“串行化级别属于事务隔离级别”、“串行化级别可解脏读”、“串行化级别可解决不可重复读”、“串行化级别可解决幻读”)。说明候选人在事务隔离级别的“未提交读级别”方向的知识点掌握有错误和缺失,在事务隔离级别的“串行化级别”方向的知识点掌握有缺失。

可选的,所述实体关系信息包括多个属性的实体关系信息,所述属性基于所述题目确定。一般来说,语义实体关系可以按照属性进行分类,属性根据题目对应的答案确定。接续上例,题目标准答案中涉及事务隔离级别包括的几种级别,以及每个级别可解决的问题,因此可以确定属性包括“属于关系”和“解决关系”两个关系属性。确定了属性后,对语义实体关系按照上述属性进行分类。

进一步的,本步骤可以根据如下方式确定作答结果信息:

从所述标准答案中梳理得到各所述属性的语义实体关系答案;针对每个所述属性,将该属性的所述实体关系信息与所述语义实体关系答案进行匹配,得到该属性下所述候选人的作答结果信息。

接续上例,标准答案包括:“属于关系”的语义实体关系答案4组:“未提交读级别属于事务隔离级别”,“已提交读级别属于事务隔离级别”,“可重复读级别属于事务隔离级别”,“串行化级别属于事务隔离级别”;“解决关系”的语义实体关系答案6组:“已提交读级别可解决脏读”,“可重复读级别可解决脏读”,“可重复读级别可解决不可重复读”,“串行化级别可解脏读”,“串行化级别可解决不可重复读”,“串行化级别可解决幻读”。实体关系信息中包括:“属于关系”的语义实体关系答案2组:“已提交读级别属于事务隔离级别”,“可重复读级别属于事务隔离级别”;“解决关系”的语义实体关系答案3组:“已提交读级别可解决幻读”,“可重复读级别可解决幻读”,“可重复读级别可解决不可重复读”。

对两者进行对比得到,得到每个属性下所述候选人的作答结果信息。即“属于关系”有缺失知识点“未提交读级别”和“串行化级别”,“解决关系”有缺失知识点“串行化级别可解决的问题”,“解决关系”有错误知识点“已提交读级别可解决问题”。

步骤S140,基于所述作答结果信息确定至少一个追问策略,并根据所述追问策略在所述题目对应的知识图谱中确定追问知识点,生成所述追问知识点对应的追问题目。

在本方案中提供多种追问策略可供选择,每种追问策略都会同时考虑候选人作答答案与标准答案所涉及知识点的知识一致性及关联知识点的发散扩展。其中,所述追问策略包括同级知识点追问策略(即广度优先,从候选人掌握缺失的知识点中寻找与其关联的同级知识点)、子知识点追问策略(即深度优先,从候选人掌握良好的知识点中,寻找与其关联的子知识点)、错误知识点追问策略(即错误澄清,针对候选人掌握错误的知识点进行重申追问)。

具体的,预先可以建立候选人作答结果信息与追问策略的对应关系:知识点掌握良好对应子知识点追问策略、知识点掌握缺失对应同级知识点追问策略、知识点掌握缺失错误对应错误知识点追问策略。

进一步的,在本方案中预先建立了知识点间的树型知识图谱,知识图谱中包括各知识点间的层级关系以及每个知识点对应的推荐题目。首先可以在知识图谱中定位该题目对应的知识点,在确定了追问策略后,可以根据该追问策略在知识图谱中查找对应的追问知识点,并从该追问知识点对应的推荐题目中选择追问题目。

进一步的,由于步骤S140与步骤S130是解耦的,因此追问策略可以根据实际的业务场景进行灵活调整。追问知识点的确定可以通过如下方式实现:

根据各所述属性下的作答结果信息,确定各所述属性对应的追问策略;针对每个所述属性,根据该属性对应的追问策略在所述题目对应的知识图谱中确定追问知识点;基于各所述追问知识点在题库中确定追问题目。

延续上例,候选人的“未提交读级别”和“串行化级别”知识点掌握缺失,则触发“未提交读级别”和“串行化级别”的同级知识点追问策略,寻找与其关联的同级知识点。比如候选人未回答“串行化级别属于事务隔离级别”,可触发追问题目“有了解过串行化吗?串行化是指的什么?”。

候选人的“已提交读级别可解决的问题”知识点掌握良好,则触发“可重复读级别可解决的问题”的子知识点追问策略。比如候选人回答了“已提交读级别可解决脏读”,可触发追问题目“已提交读级别是如何实现的”或者“脏读是指的什么?”。

候选人的“可重复读级别可解决的问题”知识点掌握错误,则触发“可重复读级别可解决的问题”的错误知识点追问策略。比如候选人回答错误“可重复读级别可解决幻读”,可触发追问“可重复读级别可以解决哪些问题?”。

本发明实施例提供的技术方案以知识图谱形式建立了知识点与知识点的联系,每个追问可以基于候选人的作答情况确定追问方向,针对子知识点、同级知识点、未提及知识点等进行有针对性的追问,使得追问题目能够帮助面试官挖掘候选人的知识深度及广度,并最终确定候选人与岗位的匹配度。

题库中的每道题目都是有标准答案或者考察点的信息,这些信息可以统称为先验知识。发明人在实现本发明的过程中发现,针对每道题目涉及到的知识点,可以将这些知识点的先验知识添加至语义实体识别步骤中,对候选人的作答答案进行预处理(文本纠错、文本补充、文本相似词替换),从而增强语义实体识别的准确率。

作为本发明实施例可选的实施方式,在执行步骤S110之前,所述方法还包括:

对所述题目所涉及的知识点进行提取,得到先验知识信息;所述先验知识信息包括标准答案中的语义实体、共用前缀、共用后缀、多义词含义。

举例来说,题目“汽车底盘由哪几个系统组成”的标准答案是“传动系、制动系、行驶系、转向系”,标准答案中的四个语义实体都拥有共用后缀“系”,候选人在作答此道题目时往往会忽略这种共同的后缀信息,比如直接回答“传动、制动、行驶、转向”,此时就可以利用先验知识直接定位语义实体提及“传动”可以等同于语义实体“传动系”;

举例来说,题目“蔷薇科都有哪些植物”其标准答案是“苹果、月季、玫瑰”,其中的“苹果”是个多义词,既指一种植物有指一种手机型号,在本题目中“苹果”的含义就是植物而不是手机型号。候选人在作答此道题目时若出现语义实体提及“苹果”,此时就可以利用先验知识直接定位语义实体提及“苹果”至植物中的语义实体“苹果”。

作为本发明实施例的一些可选实施方式,传统的语义实体识别主要有两类方式:即词典+规则方式和机器学习/深度学习方式。对题目解析得到的先验知识可以对这两类方式都起到增强语义实体识别的准确率的效果。图2示出了先验知识对词典+规则方式的增强方法,图3示出了先验知识对机器学习/深度学习方式的增强方法。

如图2所示,语义实体识别的方法包括:

步骤S210,基于所述先验知识信息确定所述标准答案中的核心词,并对各所述核心词进行最细粒度的分词,得到每个所述核心词包括的多个第一分词,并计算各所述第一分词的权重。

具体的,核心词即根据先验知识信息中的语义实体确定。对于每个核心词,使用最细粒度分词规则进行分词,并计算每个第一分词的权重。举例来说,以“汽车底盘由哪几个系统组成”为例,其标准答案是“传动系、制动系、行驶系、转向系”,包括“传动系”、“制动系”、“行驶系”、“转向系”四个核心词,以“制动系”为例,进行最细粒度分词会得到“制动”、“系”两个第一分词,并计算每个第一分词的权重。权重的计算采用如下公式,

其中FreqD是第一分词在所有文档中的出现频次,FreqQ是第一分词在本标准答案的出现频次,BonusPref ix是第一分词在本标准答案中至少作为两个核心词的前缀出现过的奖励参数,BonusSuff ix是第一分词在本标准答案中至少作为两个核心词的后缀出现过的奖励参数,奖励参数是一个预设的大于1的常值。以上参数都可以通过先验知识获取。

步骤S220,对所述答案进行分词,得到多个第二分词;所述第二分词的长度阈值基于所述第一分词的长度确定。

使用N-Gram模型对作答的答案进行分词,得到候选人作答的答案中的第二分词组合,其中每个第二分词的长度取值范围(即N的数值)下限是所有第一分词的最小长度-2,上限是所有第一分词的最大长度+2。举例来说,第一分词的最长分词是“制动”,最短分词是“系”,因此N的上限取值2+2=4,N的下限取值1-2=-1,因此该实例的N取有意义的值为1至4。

举例说明,若候选人的作答的答案是“传动自动行驶”,会计算出以下N-Gram组合:传、动、自、动、行、驶、传动、动自、自动、动行、行驶、传动自、动自动、自动行、动行驶、传动自动、动自动行、自动行驶。

步骤S230,根据所述核心词中的每个第一分词的权重,对所述核心词中的第一分词进行排序,并按照权重依次计算所述核心词中的每个第一分词与各所述第二分词的相似度,筛选出相似度高于第一预设相似度阈值的候选第二分词,输出若干第一匹配结果,该第一匹配结果中包括所述第一分词、所述候选第二分词、所述第一分词和所述候选第二分词的相似度、相似度类型、以及所述候选第二分词在作答的答案中的位置。

对于每个核心词,对核心词的多个第一分词按照步骤S210计算得到的权重进行排序,接续上例,对于核心词“制动系”,第一分词“制动”的权重是0.9,第一分词“系”的权重是0.1,则核心词“制动系”的第一分词排序后即为“制动”、“系”。

进一步的,按权重顺序依次计算各第一分词和候选人作答的答案的每个第二分词的相似度,并以相似度阈值筛选出符合条件的第二分词。优选的,相似度包括编辑距离相似度、语义相似度和发音相似度,其中,编辑距离是描述一个字符串转化成另一个字串最少的操作次数,操作包括插入、删除、替换;语义相似度是以词嵌入为基础的向量相似度计算;发音相似度是以声母、韵母、声调多方面判断两个汉字的相似程度。

更优选的,当计算排序在首位的第一分词时,是与候选人答案的所有第二分词进行对比;当计算排序在第二位的第一分词时,是与候选人答案已匹配第一分词的目标第二分词的临近第二分词进行对比;以此类推。举例来说,“制动系”会首先使用排序在首位的第一分词“制动”与候选人作答的答案“传动自动行驶”的每个第二分词进行对比,其中“制动”与“自动”的发音相似度0.99高于阈值;接着使用排序在第二位的第一分词“系”与候选人答案中的目标第二分词“自动”临近的第二分词(即“行”、“行驶”、“驶”)进行对比,各相似度都低于阈值。从而通过比较阈值,筛选出针对第一分词“制动”的候选第二分词“自动”,可以记为:(“制动”,“自动”,[3,4],0.99,发音相似),其中[3,4]表示“自动”是“传动自动行驶”的第3、4个字符位置;针对第一分词“系”无候选第二分词,可以记为(“系”,“”,[],0,无)。因为第一分词“系”无候选第二分词,所以候选第二分词“自动”则独自构成了作答的答案中与所述核心词“制动系”对应的匹配结果。

进一步的,本步骤中的匹配结果的五个字段可以概括为:标准答案的核心词汇分词、候选人作答的答案中的N-Gram分词、候选人作答的答案中的N-Gram分词所在原文中的位置、标准答案的核心词汇分词与候选人作答的答案中的N-Gram分词的相似度、相似度的类型(包括发音相似、编辑距离相似、语义相似、分词缺失等等)。

步骤S240,将所述若干第一匹配结果合并为第二匹配结果,基于所述核心词中的每个第一分词的权重、每个第一分词与对应的候选第二分词的相似度,计算所述核心词和所述第二匹配结果之间的加权相似度,筛选出加权相似度高于第二预设相似度阈值的第二匹配结果。

举例而言,将步骤S230中的匹配结果(“制动”,“自动”,[3,4],0.99,发音相似)、(“系”,“”,[],0,无)进行合并,得到与核心词对应的匹配结果。针对每个核心词,将所述核心词包括的各第一分词的权重与该第一分词对应的候选第二分词的相似度相乘后求和,得到各所述核心词与匹配结果的加权相似度。即:核心词“制动系”的第一分词“制动”的权重是0.9、对应的候选第二分词“自动”的相似度是0.99,第一分词“系”的权重是0.1、无对应的候选第二分词,那么最终核心词“制动系”与匹配结果的加权相似度分值是0.9*0.99+0.1*0=0.891。假设值高于预设阈值0.85,因此选用该匹配结果,合并成(“制动系”,“自动”,[3,4],0.891,[发音相似])。

步骤S250,基于筛选出的第二匹配结果,确定作答的答案中的多个语义实体。

在上述步骤S210-步骤S250的基础上,更进一步的,若所述作答的答案中的相同位置上的候选第二分词出现在多个第二匹配结果中,则出现匹配冲突;基于冲突匹配算法,优化所述核心词和所述第二匹配结果之间的加权相似度,直至所述作答的答案中的相同位置上的候选第二分词只出现在一个第二匹配结果中,将加权相似度最高的预设数量的第二匹配结果作为最终的匹配结果;基于筛选出的最终的匹配结果,确定作答的答案中的多个语义实体。

在本步骤中,冲突是指作答的答案中同个位置上的字符出现在多个第二分词里面。举例而言,标准答案是“底盘系统”,而候选人答案是“底盘细分为悬架系统,转向系统”,步骤S240会输出三个匹配结果:(“底盘系统”,“底盘”,[1,2],0.9,[分词缺失]),(“底盘系统”,“底盘细”,[1,2,3],0.88,[编辑距离相似,发音相似]),(“底盘系统”,“底盘细分”,[1,2,3,4],0.85,[编辑距离相似,发音相似]),这三个匹配结果都是试图匹配标准答案中的“底盘系统”,且存在位置冲突,比如第一个匹配结果的位置列表[1,2]和第二个匹配结果的位置列表[1,2,3]存在相同元素[1,2]。本步骤就是要从N个匹配结果中,挑选出最合适的M个匹配结果,需满足以下条件:1、M个匹配结果两两之间不存在匹配冲突;2、M个匹配结果的平均相似度分值最高。优选的,通过匹配冲突算法采用分治+动态规划的思想进行最优值求解。

如图3所示,语义实体识别的方法包括:

步骤S310,基于所述先验知识信息、第一分词和第二分词的相似度,对所述作答的答案进行文本修正,得到修正后的作答答案;其中,所述文本修正包括文本相似发音的纠错、文本前后缀的扩展和文本相似词的替换。

本步骤中,所述修正包括对所述作答的答案的文本相似发音的纠错、文本前后缀的扩展和文本相似词的替换。具体的:

举例说明,若标准答案是“制动系”,候选人作答答案是“传动自动行驶”,步骤S240会输出匹配结果(“制动系”,“自动”,[3,4],0.891,[发音相似]),该匹配结果是从以下2个子匹配结果合并而来:(“制动”,“自动”,[3,4],0.99,发音相似)、(“系”,“”,[],0,无),会根据(“制动”,“自动”,[3,4],0.99,发音相似),将候选作答答案“传动自动行驶”纠正成“传动制动行驶”。

举例说明,若标准答案是“销毁前、销毁后”,候选人作答的答案是“销毁前后”,步骤S240会输出匹配结果(“销毁前”,“销毁前”,[1,2,3],1.0,[编辑距离相似])、(“销毁后”,“销毁后”,[1,2,4],0.9,[编辑距离相似]),可以看到两个匹配共用了“销毁”,因此会将候选人答案“销毁前后”扩展成“销毁前、销毁后”。

举例说明,对候选人作答答案的文本进行相似词替换,相似词作为一类先验知识,由专家在录入题目时提供,如候选人作答答案是“无名管道”,会替换成“匿名管道”。

步骤S320,将所述修正后的作答答案以字符的形式输入至深度学习模型,并将所述最终的匹配结果以词汇的形式输入至所述深度学习模型,输出识别到的作答的答案中的多个语义实体。

具体的,深度学习模型以FLAT算法模型为例进行说明。若标准答案是“制动系”、“行驶系”,候选人作答的答案是“自动行驶”,假设冲突匹配优化后共有两项匹配结果(“制动系”,“自动”,[1,2],0.891,[发音相似]),(“行驶系”,“行驶”,[3,4],0.9,[]),经相似发音纠错后将候选人作答的答案修正变成“制动行驶”。输入FLAT算法模型的数据包括两部分:第一部分是字符级别的信息,即包括以下四个字符(“制”,1,1),(“动”,2,2),(“行”,3,3),(“驶”,4,4),其中三个字段的含义分别是(字符,字符在原文的开始位置,字符在原文的结束位置)。第二部分是匹配结果的词汇级别的信息,即包括以下两个词汇(“制动”,1,2),(行驶,3,4),其中三个字段的含义分别是(词,词在原文的开始位置,词在原文的结束位置)。FLAT算法模型的输出结果是对第一部分字符级别的信息的序列标注,如增加了第四个字段,(“制”,1,1,“B-LOC”),(“动”,2,2,“E-LOC”),(“行”,3,3,“B-LOC”),(“驶”,4,4,“E-LOC”),其中“B-LOC”标识一个实体的开始,“E-LOC”代表一个实体的结果,因此最后的结果是输出两个实体“制动”和“行驶”。

在一个实施例中,参考图4所示,提供了一种追问题目生成装置的结构示意图。该装置可用于执行图1-图3任一所示的追问题目生成方法,该装置包括:识别模块410、抽取模块420、确定模块430和僧成模块440;其中,

识别模块410,用于解析候选人针对题目进行作答的答案,从所述答案中识别出多个语义实体;

抽取模块420,用于对所述多个语义实体进行关系抽取,得到所述多个语义实体的实体关系信息;

确定模块430,用于获取所述题目对应的标准答案,基于所述标准答案和所述实体关系信息确定所述候选人的作答结果信息;其中,所述作答结果信息用于表征所述候选人对所述题目涉及的若干知识点的掌握情况;

生成模块440,用于基于所述作答结果信息确定至少一个追问策略,并根据所述追问策略在所述题目对应的知识图谱中确定追问知识点,生成所述追问知识点对应的追问题目;其中,所述追问策略包括同级知识点追问策略、子知识点追问策略、错误知识点追问策略。

可选的,所述装置还包括提取模块,用于对所述题目所涉及的知识点进行提取,得到先验知识信息;所述先验知识信息包括答案中的语义实体、共用前缀、共用后缀、多义词含义。

可选的,识别模块410进一步用于,基于先验知识信息确定标准答案中的核心词,对所述核心词进行最细粒度分词,得到多个第一分词,并计算每个第一分词的权重;对作答的答案进行分词,得到多个第二分词,所述第二分词的长度基于所述第一分词的长度确定;根据所述核心词中的每个第一分词的权重,对所述核心词中的第一分词进行排序,并按照权重依次计算所述核心词中的每个第一分词与各所述第二分词的相似度,筛选出相似度高于第一预设相似度阈值的候选第二分词,输出若干第一匹配结果,该第一匹配结果中包括所述第一分词、所述候选第二分词、所述第一分词和所述候选第二分词的相似度、相似度类型、以及所述候选第二分词在作答的答案中的位置;将所述若干第一匹配结果合并为第二匹配结果,基于所述核心词中的每个第一分词的权重、每个第一分词与对应的候选第二分词的相似度,计算所述核心词和所述第二匹配结果之间的加权相似度,筛选出加权相似度高于第二预设相似度阈值的第二匹配结果;基于筛选出的第二匹配结果,确定作答的答案中的多个语义实体。

可选的,识别模块410进一步用于,若所述作答的答案中的相同位置上的候选第二分词出现在多个第二匹配结果中,则出现匹配冲突;基于冲突匹配算法,优化所述核心词和所述第二匹配结果之间的加权相似度,直至所述作答的答案中的相同位置上的候选第二分词只出现在一个第二匹配结果中,将加权相似度最高的预设数量的第二匹配结果作为最终的匹配结果;基于筛选出的最终的匹配结果,确定作答的答案中的多个语义实体。

可选的,识别模块410进一步用于,基于所述先验知识信息、第一分词和第二分词的相似度,对所述作答的答案进行文本修正,得到修正后的作答答案;其中,所述文本修正包括文本相似发音的纠错、文本前后缀的扩展和文本相似词的替换。将所述修正后的作答答案以字符的形式输入至深度学习模型,并将所述最终的匹配结果以词汇的形式输入至所述深度学习模型,输出识别到的作答的答案中的多个语义实体。

可选的,生成模块440进一步用于若所述作答结果信息表征知识点掌握良好,则触发子知识点追问策略,在所述题目对应的知识图谱中优先确定追问的子知识点,生成所述追问的子知识点对应的追问题目;若所述作答结果信息表征知识点掌握错误,则触发重申追问策略,在所述题目对应的知识图谱中优先重申追问该知识点;若所述作答结果信息表征知识点掌握缺失,则触发同级知识点追问策略,在所述题目对应的知识图谱中优先确定追问的同级知识点,生成所述追问的同级知识点对应的追问题目。

需要说明的是,本发明实施例所提供的追问题目生成装置对应的可用于执行上述各方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图5为本发明实施例中的一种电子设备的结构示意图。下面具体参考图5,其示出了适于用来实现本发明实施例中的电子设备500的结构示意图。本发明实施例中的电子设备500可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理以实现如本发明所述的实施例的方法。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代的实施或具备更多或更少的装置。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样的,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合的实现在单个实施例中。相反的,在单个实施例的上下文中描述的各种特征也可以单独的或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号