技术领域
本发明属于自然语言处理领域,涉及一种混合专家模型的复杂度可控的多样化问题生成方法。
背景技术
近年来,随着人工智能的快速发展,自然语言处理技术得到了越来越广泛的应用。自然语言处理分为自然语言理解和自然语言生成两大部分。其中,问题生成(QuestionGeneration,QG)任务是自然语言生成中的典型任务。问题生成指的是从一系列数据源中(例如文本、图片、知识库)自动生成自然语言问题。问题生成任务的应用前景十分广阔,例如,在人机交互领域,通过提问与用户产生对话的聊天机器人(Siri、微软小冰等);在教育领域,通过根据课程材料生成问题对学生的水平进行测试,了解学生对知识的掌握程度;另外,作为自动问答的对偶任务,QG任务可以通过生成大量高质量的问题,为训练QA模型提供大规模数据集,从而提升QA模型的效果。
目前问题生成的工作主要集中在阅读理解领域,以事实文本为依据,针对给定答案生成一个自然语言表述的问题。传统的QG方法主要利用手工构建的规则模板并结合人工标注完成,这种方式十分耗费人力物力,并且通过模板生成的问题缺乏自然性和多样性。随着深度学习技术的发展,受序列到序列(Seq2seq)模型在机器翻译等文本生成任务的研究的启发,结合深度学习的QG方法研究也受到了学者们的广泛关注。使用端到端的深度神经网络模型不仅能够有效提升生成问题的自然性和多样性,而且能够达到较好的生成效果。但是当前基于深度学习的QG方法主要研究简单问题的生成,而很少有研究复杂问题生成的工作。复杂问题的生成也具有很多现实意义,例如,在教育领域,因为不同的学生接受知识的能力也不同,如果一味的生成简单问题,难以测试出学生的真实水平。对于能力强的学生,需要用复杂问题进行测试才能得到真实的反馈。另外,现有问答(Question Answering,QA)系统在简单问题上的表现已经达到了瓶颈,而复杂问题更有利于提升QA系统。而大多数现有工作无法控制所生成问题的复杂性,因此,研究复杂问题生成具有一定的实用价值和应用前景。
基于此,本工作提出一种基于混合专家模型的复杂度可控的问题生成模型。主要用于给定文本、答案和复杂度指标的情况下生成与文本相关的,可被答案回答的,并且满足复杂度要求的、多样化的自然语言问题。
发明内容
技术问题:本发明要解决的技术问题在于针对缺乏复杂度可控问题的研究,难以进行复杂度评估和复杂度建模,提供一种基于混合专家模型的复杂度可控的多样化问题生成方法。
技术方案:本发明解决其技术问题所采用的技术方案是:一种基于混合专家模型的复杂度可控的多样化问题生成方法。该方法以现有问答数据集中海量的问题数据为起点,提出了一种新型的问题复杂度评估方式,该方法由6个复杂度评估指标组合而成。并用该复杂度评估方式对现有数据集进行难度标注,作为本发明提出模型的训练集、验证集和测试集。使用双向LSTM网络对给定文本和答案进行编码,得到对应的语义表示并拼接起来。使用LSTM网络对编码结果进行解码,生成问题。在解码过程中使用隐向量建模复杂度因素,从而指导满足给定复杂度的问题生成。并使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
本发明的基于混合专家模型的复杂度可控的多样化问题生成方法包括如下步骤:
1)挖掘问答数据集特征,提出一种自适应的问题复杂度的衡量方法;
2)使用该问题复杂度衡量方法对现有数据集中的数据进行复杂度标注,并划分为训练集、验证集和测试集;
3)使用双向LSTM网络对给定文本和答案进行编码;
4)使用LSTM网络对编码结果进行解码,生成问题;
5)在解码过程中使用隐向量建模不同复杂度的问题模板,从而指导满足给定复杂度的问题生成;
6)使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
作为本发明的进一步改进,所述步骤1)中,
因为问题的难度不仅与问题本身有关,还与给定的文本以及两者间的交互有关。所以本发明从问题、文本以及两者间的交互这三个角度提出了五种复杂度影响因素,并设计了一种自适应的问题复杂度的衡量方法,这五种因素包括:
1)问题中的从句个数
2)问题中的修饰定语数量
3)文本中句子的关联程度
其中,t
4)问题中的实体出现在文本中的频率
5)问题中的实体与答案span在文本中的平均距离
因为不同复杂度影响因子的值相差较大,会影响最终复杂度的评定,所以本发明对影响因子的值采用了归一化的计算方法,消除过大值产生的影响,最终每个问题复杂度的得分cpx的计算公式如下:
其中,ω
作为本发明的进一步改进,所述步骤5)中,
因为相似的问题具有相似的模板结构,可以用于指导问题生成。而直接构建这些问题模板十分费时费力,所以本发明使用隐向量π∈{1,…,n
作为本发明的进一步改进,所述步骤6)中,
为了控制所选问题模板的多样性,本发明使用混合专家模型,选择不同的模板进而建模不同的文本内容,最终生成不同的问题,提升问题生成的多样性。具体来说,定义了隐向量z∈{1,…,n
有益效果:
相比于其他的问题生成方法,本方法考虑到了文本对问题复杂度的影响,设计了一个自适应的、合理准确的复杂度评估方法。另外,通过隐向量建模不同复杂度问题的模板,依靠这些模板可以有效地指导模型生成复杂度可控的问题。最后,采用混合专家模型根据复杂度等级选择不同的文本内容,确保了生成问题的多样性。
经过实验分析证明,本方法提出的复杂度评估方法符合现有数据集的数据特性,能够准备评估问题的复杂度。另外,本方法提出的基于混合专家模型的复杂度可控的多样化问题生成方法,可以生成高质量的复杂度可控的问题,所生成的复杂问题对于提升问题系统的性能起到了一定作用。
附图说明
图1是本发明的实施示例,给定文本与对应的问答对;
图2是本发明的基本过程示意图;
图3是本发明的模型框架图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
本发明的基于网络表示学习的相似案例推荐方法,包括以下几个步骤:
1)挖掘问答数据集特征,从问题、文本以及两者间的交互这三个角度提出了五种复杂度影响因素,并设计了一种自适应的问题复杂度的衡量方法,这五种因素包括:
a)问题中的从句个数
b)问题中的修饰定语数量
c)文本中句子的关联程度
其中,t
d)问题中的实体出现在文本中的频率
其中,
e)问题中的实体与答案span在文本中的平均距离
2)使用该问题复杂度衡量方法对现有数据集中的数据进行复杂度标注,并划分为训练集、验证集和测试集;
本发明采用HotpotQA和SQuAD作为实验数据集。其中,HotpotQA含有三种复杂度等级的问题,包括简单、中等和难。为了方便做实验,本发明将HotpotQA中的问题重新划分成了简单和难这两种等级。具体来说,使用步骤1)中提到的复杂度衡量方法计算数据集中每个问题的复杂度,然后在原始标签是“简单”的问题中,选择最大的复杂度值,作为区分复杂度的阈值。若其他问题的复杂度值大于该阈值,则认为这个问题是复杂的,否则是简单的。根据该阈值将HotpotQA和SQuAD中的问题划分成简单和复杂这两类。并按照8:1:1的比例划分为训练集、验证集和测试集,具体信息如下表1所示:
表1 HotpotQA和SQuAD中的数据信息
3)使用双向LSTM网络对给定文本X=(x
使用同样的方式得到答案的语义表示e
4)使用LSTM网络对编码结果进行解码,生成问题。本发明的模型图如图3所示。为了生成与答案类型相匹配的疑问词,本发明使用答案的语义表示e
其中当前时间步文本的语义向量
e
为了解决生成过程中的out-of-vocabulary问题,本发明还使用了copy机制,使得解码器可以选择从词汇表中生成新的单词,或者从输入的源文本中复制单词。最终的生成概率计算如下:
5)在解码过程中使用隐向量建模不同复杂度的问题模板,得到模板表示
其中,d是给定的复杂度等级。p(π
6)使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。体现在步骤4)中,使用专家向量e
本发明相比于其他的问题生成方法,考虑到了文本对问题复杂度的影响,设计了一个自适应的、合理准确的复杂度评估方法。另外,通过隐向量建模不同复杂度问题的模板,依靠这些模板可以有效地指导模型生成复杂度可控的问题。最后,采用混合专家模型根据复杂度等级选择不同的文本内容,确保了生成问题的多样性。
经过实验分析证明,本方法提出的复杂度评估方法符合现有数据集的数据特性,能够准备评估问题的复杂度。另外,本方法提出的基于混合专家模型的复杂度可控的多样化问题生成方法,可以生成高质量的复杂度可控的问题,所生成的复杂问题对于提升问题系统的性能起到了一定作用。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
机译: 基于智能虚拟代理商应用情感模型的模式多样化系统和模式多样化方法
机译: 基于多专家的机器学习和代理站点的参数依赖模型混合
机译: 基于多专家的机器学习和代理站点的参数依赖模型混合