公开/公告号CN112559723A
专利类型发明专利
公开/公告日2021-03-26
原文格式PDF
申请/专利权人 广东国粒教育技术有限公司;
申请/专利号CN202011584447.X
申请日2020-12-28
分类号G06F16/332(20190101);G06F16/335(20190101);G06F16/35(20190101);G06F40/205(20200101);G06F40/35(20200101);G06N3/04(20060101);G06N3/08(20060101);
代理机构44202 广州三环专利商标代理有限公司;
代理人卢泽明
地址 519000 广东省珠海市横琴新区宝华路6号105室-40499(集中办公区)
入库时间 2023-06-19 10:24:22
【技术领域】
本发明涉及教育技术领域,尤其是一种基于深度学习的FAQ检索式问答构建方法及系统。
【背景技术】
知识库有两种含义:一种是指专家系统设计所应用的规则集合,包含规则所联系的事实及数据,它们的全体构成知识库,这种知识库是与具体的专家系统有关,不存在知识库的共享问题,另一种是指具有咨询性质的知识库,这种知识库是共享的,不是一家所独有的,从今后的发展来看,巨型知识库将会出现,还依赖于硬件及软件条件的发展,下一代计算机所应考虑的重要问题之一是知识库的设计,以知识库为背景的知识库机及共管理系统构设计,知识库的概念来自两个不同的领域,一个是人工智能及其分支-知识工程领域,另一个是传统的数据库领域,由人工智能(AI)和数据库(DB)两项计算机技术的有机结合,促成了知识库系统的产生和发展。
自从krizhevsky等人提出基于深度学习理论的深度卷积神经网络Alexnet后,识别领域进入了新的纪元。深度卷积神经网络通过卷积运算由浅入深的提取知识的不同层次的特征,并通过学习算法使网络自动的调节卷积核的参数进行学习,在知识分类和识别上已经取得了显著效果。
但现有根据问题检索知识库和问答知识库,根据检索结果将答复发送给答复反馈模块,答复反馈模块用于将答复通过语言、文字或者照片反馈给用户,解决了现有通过搜索引擎获取医疗知识耗时且信息准确性难判的问题,然而现有知识库的检索存在以下不足:1)、在对知识库内的信息进行采集刷新的过程中,系统无法对收集的信息和知识进行的分类、整理,导致信息和知识不能有序化保存在知识库内,使用较为混乱,导致在检索的过程中,影响检索的速度。2)、通过组织用户对系统答复结果进行审阅修改,并依据其审阅修改不断完善更新知识库,由于系统答复结果繁杂,会耗费了用户大量的精力和时间,同时人工审阅修改降低了知识库的更新速度,不利于其发展。
如何将深度卷积神经网络技术与知识库相结合,从大量的样本中自动提取出词语之间的关系,发掘传统模型很难发掘的隐含在大量数据中含义不明显的特征,是目前迫切需要解决的一项技术问题。
【发明内容】
本发明提供一种基于深度学习的FAQ检索式问答构建方法及系统,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,发掘隐含在大量数据中含义不明显的特征,更精细地描述文本匹配问题。
为达到上述明目的,采用的技术方案如下:
一种基于深度学习的FAQ检索式问答构建方法,包括以下步骤:
步骤S1,获取用户问题,并整理与所述用户问题相关的文档内容;
步骤S2,构建训练集和测试集;
步骤S3,在测试集和训练集的基础上,增强数据;
步骤S4,模型建立及迭代优化;
步骤S5,模型建立完之后,设置问答系统,用户任意问问题,系统会根据神经网络模型预测该问题属于哪一类,进而给出相应的答案。
进一步地,所述步骤S1中,对于有大量问答记录的场景,问答记录里面包括很多高频的知识点,所述高频的知识点包括问题和答案;
所述高频的知识点对应的问法通常并不唯一,即知识库的结构为一个问题集合对应同一个答案,其针对FAQ数据有以下三种数据类型:
(1)、标准问q:FAQ中问题的标准用户query;
(2)、答案A:FAQ中标准问对应的标准回答;
(3)、相似问q1,q2…:跟标准问语义相似可用同一答案回答的query;
其中,标准问q、对应答案A、以及该标准问q对应的所有相似问q1,q2,…,一起组成一个知识点。
进一步地,所述步骤S1中,需要建立一个更加合理的知识库,要求每个知识点只包含一个意图,且知识点之间没有交叉、歧义、冗余等容易造成混淆的因素;
而且,所述知识库的标注为每个FAQ积累一定数量的有代表性的相似问。
进一步地,所述步骤S1的后期持续维护包括:新FAQ发现,以及原FAQ的合并、拆分和纠正等。
进一步地,所述步骤S2中,具体包括以下步骤:
测试集构造:将相似问中的第一条相似问q1作为query,从FAQ知识库的所有知识点中通过Lucene召回30个知识点作为候选集;
训练集构造:包含两部分,一部分是正例的构造,另一部分是负例的构造,所述正例的构造和所述负例的构造中数据的构造方式将直接影响到最终的效果;
在正例的构造中,因为每个知识点的第一个相似问是作为测试集中出现的,所以在构造训练集的时候排除掉所有知识点中的第一条相似问q1;这样,有多于2个相似问的知识点、还有多于的其他相似问可以用来构造训练集;将这些识点中的标准问和从相似问的第二条开始(即[q2,q3,…,qn])可以按照不同方式构造出正例和负例。
进一步地,所述步骤S2中,在训练集正例的构造中,去除所有知识点中的第一条相似问q1,其他相似问及标准问两两组合成正例pair对;对于相似问多的知识点进行剪切。
进一步地,所述步骤S2中,训练集负例的构造方式包括:按Jaccard距离召回、按Lucene召回、从其他知识点中随机选择和按照正例中各问题出现的比例从其他知识点中采样选择,以及每个句子和句子中的名词/动词构成pair对;而针对知识点分布不均衡的问题,对相似问很多的知识点进行相似问剪切。
进一步地,所述步骤S3中,由于深度学习需要较多的数据,为了增强数据,采用以下策略:
交换两个句子之间的顺序;
对句子进行分词,重新组合生成新的句子;
打乱句子的顺序,随机抽取句子。
进一步地,所述步骤S4中,模型的基本框架一般都是将待匹配的两个句子分别使用两个encoder来获取对应context信息,然后将二者的context信息进行匹配,得到匹配后的特征信息;或者模型的基本框架在匹配之后的特征后面加上一些其他的传统文本特征,将所有这些特征进行concat;模型的基本框架最后接上softmax层,做最终的分类;模型建立及迭代优化具体包括以下步骤:
步骤S41,Embedding层:使用word2vec训练词向量;
首先,基于Word2vec工具,分别将词向量转化为问题词向量和答案词向量,从而得到问答文本集合所对应的问题词向量矩阵Q=(q
接着,把问题词向量矩阵Q和答案词向量A输入到LSTM网络中去训练学习词序序列的语义特征信息,为了便于并行矩阵的计算,本发明中输入的长度选定一个最大值,句子中的词语较少则用0补充,大于最大的词语长度的句子则会截掉,模型中所有权重W和偏置b随机初始化为U(-0.05,+0.05)均匀分布;
在学习过程中,首先通过LSTM网络内部的遗忘门ft来决定LSTM网络从细胞单元状态中丢弃哪些信息,同时,t时刻的词语会读取t-1个隐藏层的输出h t-1和当前时刻输入词向量q t,以及输入一个在0到1之间的偏置b f,并传递给t-1时刻的细胞单元状态C t-1,其计算方式为:ft=σ(W f[q t,h t-1]+b f),其中σ为Sigmoid激励函数,W f为遗忘门杈重矩阵;
其次,通过输入门i t来决定什么值需要进行更新,其计算公式表示为:i t=σ(Wi[q t,h t-1]+b i),其中σ为Sigmoid激励函数,W i为输入门杈重矩阵,b i为0到1之间的偏置;
然后,根据Tanh非线性激活函数来创建候选值其计算公式表示为:
最后,计算并获取输出门的向量为Ot,其计算公式为:Ot=σ(W o[q t,h t-1]+bo),其中σ为Sigmoid激励函数,W o为输出门杈重矩阵,b o为0到1之间的偏置,以及LSTM网络隐藏层的输出值h t,其计算公式为:h t=Ot*tanh(C t);
步骤S42,Encoder层:卷积具有局部特征提取的功能;
用CNN来提取句子中类似n-gram的关键信息,考虑文本的上下文信息,将LSTM网络的输出结果作为输入到CNN网络中,去学习更深层次的句子n-gram局部特征信息;
设定卷积窗口大小为k,相邻的词向量拼接矩阵为Z,卷积核数为c,那么卷积的过程如下:
G=f(W Z+b),
其中,f是ReLU激活函数,W和b为随机正态分布初始化U(0,0.05)的杈重矩阵和偏置;
经过卷积操作后,可以得到问题文本的深层词向量矩阵DQ和答案文本的深层词向量矩阵DA。
步骤S43,匹配层(Matching):在得到两个句子的表示后,要针对两个句子的表示进行matching操作;
获得的问题文本深层词向量矩阵DQ和答案文本深层词向量矩阵DA,计算问答文本对中每对词之间的一个匹配程度矩阵S,计算方式如下:
S(i,j)=Tanh(DQi⊙ADj)
其中Tanh为非线性激活函数,DQi表示问题文本中第i个词向量,DAj表示答案文本中第j个词向量,⊙为向量点乘,S(i,j)表示问题文本第i个词与答案文本第j个词之间的语义匹配分数;
接着,对匹配程度矩阵S做行级的最大池化,并生成向量gq,其中第i个值表示问题文本第i个词对答案的重要性程度,同时,对匹配程度矩阵S做列级的最大池化,并生成向量ga,其中第j个值表示答案文本第j个词对问题的重要性程度;
然后,分别对gq和ga选取最大的p个值,分别把这p个值对应的词语重新输入到LSTM网络中,并选取最后时刻的隐藏层输出,分别得到维度为h的语义特征向量Oq和Oa,从而根据Oq与Oa来计算向量间的空间距离值作为问题文本和答案文本匹配的程度。
一种基于深度学习的FAQ检索式问答系统,包括:
问答模块,用于接收用户的输入问题,并对所述输入问题进行预处理;所述预处理过程包括构建训练集和构建测试集、并在构建训练集和构建测试集的基础上增强数据,将预处理后的所述输入问题发送至深度学习模块;
深度学习模块,用于提取所述预处理后的输入问题中的特征信息,并根据所述特征信息生成对应的问题词向量,并根据预设的问题分类模型、问题匹配模型和问题词向量信息,从知识库模块中获取相匹配的标准问题及精确度较高的答案,并将精确度较高的答案返回至问答模块;
所述知识库模块,用于判断知识库中是否存在与未识别问题对应的标准问题,并在所述知识库中存在与所述未识别问题对应的标准问题时,对与所述未识别问题对应的标准问题进行标注,并在所述知识库中不存在与所述未识别问题对应的标准问题时,根据未识别问题创建新标准问题,并对所述新标准问题进行标注,同时补充新标准问题对应的标准答案;
所述深度学习模块还用于根据标注的与所述未识别问题对应的标准问题及匹配答案模型化训练。
本发明的优点:
本发明相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,发掘传统模型很难发掘的隐含在大量数据中含义不明显的特征,更精细地描述文本匹配问题。
【说明书附图】
图1是本发明中FAQ检索式问答构建方法流程图;
图2是本发明的模型构建框架图;
图3是本发明中FAQ检索式问答系统各模块之间的关系图。
【具体实施方式】
下面通过具体实例对本发明的内容作进一步的说明。
第一方面:一种基于深度学习的FAQ检索式问答构建方法,如图1和图2所示,包括以下步骤:
步骤S1,获取用户问题,并整理与所述用户问题相关的文档内容;
在步骤S1中,对于有大量问答记录的场景,例如智能客服,问答记录里面包括很多高频的知识点,所述高频的知识点包括问题和答案;
该高频的知识点对应的问法通常并不唯一,即知识库的结构为一个问题集合对应同一个答案,其针对FAQ数据有以下三种数据类型:
(1)、标准问q:FAQ中问题的标准用户query;
(2)、答案A:FAQ中标准问对应的标准回答;
(4)、相似问q1,q2…:跟标准问语义相似可用同一答案回答的query;
其中,标准问q、对应答案A、以及该标准问q对应的所有相似问q1,q2,…,一起组成一个知识点。
同时,需要建立一个更加合理的知识库,要求每个知识点只包含一个意图,且知识点之间没有交叉、歧义、冗余等容易造成混淆的因素;而且,所述知识库的标注为每个FAQ积累一定数量的有代表性的相似问。以及步骤S1的后期持续维护包括:新FAQ发现,以及原FAQ的合并、拆分和纠正等。
步骤S2,构建训练集和测试集;
测试集构造:将相似问中的第一条相似问q1作为query,从FAQ知识库的所有知识点中通过Lucene召回30个知识点作为候选集;
训练集构造:包含两部分,一部分是正例的构造,另一部分是负例的构造,所述正例的构造和所述负例的构造中数据的构造方式将直接影响到最终的效果;
在正例的构造中,因为每个知识点的第一个相似问是作为测试集中出现的,所以在构造训练集的时候排除掉所有知识点中的第一条相似问q1;这样,有多于2个相似问的知识点、还有多于的其他相似问可以用来构造训练集;将这些识点中的标准问和从相似问的第二条开始(即[q2,q3,…,qn])可以按照不同方式构造出正例和负例。
在训练集正例的构造中,去除所有知识点中的第一条相似问q1,其他相似问及标准问两两组合成正例pair对;对于相似问多的知识点进行剪切。
训练集负例的构造方式包括:按Jaccard距离召回、按Lucene召回、从其他知识点中随机选择和按照正例中各问题出现的比例从其他知识点中采样选择,以及每个句子和句子中的名词/动词构成pair对;而针对知识点分布不均衡的问题,对相似问很多的知识点进行相似问剪切。
步骤S3,在测试集和训练集的基础上,增强数据;
由于深度学习需要较多的数据,为了增强数据,采用以下策略:
交换两个句子之间的顺序;
对句子进行分词,重新组合生成新的句子;
打乱句子的顺序,随机抽取句子。
步骤S4,模型建立及迭代优化;
模型的基本框架一般都是将待匹配的两个句子分别使用两个encoder来获取对应context信息,然后将二者的context信息进行匹配,得到匹配后的特征信息;或者模型的基本框架也可以在匹配之后的特征后面加上一些其他的传统文本特征,将所有这些特征进行concat;模型的基本框架最后接上softmax层,做最终的分类;如图2所示的模型的框架图,模型建立及迭代优化具体包括以下步骤:
步骤S41,Embedding层:使用word2vec训练词向量;
首先,基于Word2vec工具,分别将词向量转化为问题词向量和答案词向量,从而得到问答文本集合所对应的问题词向量矩阵Q=(q
接着,把问题词向量矩阵Q和答案词向量A输入到LSTM网络中去训练学习词序序列的语义特征信息,为了便于并行矩阵的计算,本发明中输入的长度选定一个最大值,句子中的词语较少则用0补充,大于最大的词语长度的句子则会截掉,模型中所有权重W和偏置b随机初始化为U(-0.05,+0.05)均匀分布;
在学习过程中,首先通过LSTM网络内部的遗忘门ft来决定LSTM网络从细胞单元(cell)状态中丢弃哪些信息,同时,t时刻的词语会读取t-1个隐藏层的输出h t-1和当前时刻输入词向量q t,以及输入一个在0到1之间的偏置b f,并传递给t-1时刻的细胞单元状态C t-1,其计算方式为:ft=σ(W f[q t,h t-1]+b f),其中σ为Sigmoid激励函数,W f为遗忘门杈重矩阵;
其次,通过输入门i t来决定什么值需要进行更新,其计算公式表示为:i t=σ(Wi[q t,h t-1]+b i),其中σ为Sigmoid激励函数,W i为输入门杈重矩阵,b i为0到1之间的偏置;
然后,根据Tanh非线性激活函数来创建候选值其计算公式表示为:
最后,计算并获取输出门的向量为Ot,其计算公式为:Ot=σ(W o[q t,h t-1]+bo),其中σ为Sigmoid激励函数,W o为输出门杈重矩阵,b o为0到1之间的偏置,以及LSTM网络隐藏层的输出值h t,其计算公式为:h t=Ot*tanh(C t);
步骤S42,Encoder层:卷积具有局部特征提取的功能;
用CNN来提取句子中类似n-gram的关键信息,考虑文本的上下文信息,将LSTM网络的输出结果作为输入到CNN网络中,去学习更深层次的句子n-gram局部特征信息;
设定卷积窗口大小为k,相邻的词向量拼接矩阵为Z,卷积核数为c,那么卷积的过程如下:
G=f(W Z+b),
其中,f是ReLU激活函数,W和b为随机正态分布初始化U(0,0.05)的杈重矩阵和偏置;
经过卷积操作后,可以得到问题文本的深层词向量矩阵DQ和答案文本的深层词向量矩阵DA。
步骤S43,匹配层(Matching):在得到两个句子的表示后,要针对两个句子的表示进行matching操作;
获得的问题文本深层词向量矩阵DQ和答案文本深层词向量矩阵DA,计算问答文本对中每对词之间的一个匹配程度矩阵S,计算方式如下:
S(i,j)=Tanh(DQi⊙ADj)
其中Tanh为非线性激活函数,DQi表示问题文本中第i个词向量,DAj表示答案文本中第j个词向量,⊙为向量点乘,S(i,j)表示问题文本第i个词与答案文本第j个词之间的语义匹配分数;
接着,对匹配程度矩阵S做行级的最大池化,并生成向量gq,其中第i个值表示问题文本第i个词对答案的重要性程度,同时,对匹配程度矩阵S做列级的最大池化,并生成向量ga,其中第j个值表示答案文本第j个词对问题的重要性程度;
然后,分别对gq和ga选取最大的p个值,分别把这p个值对应的词语重新输入到LSTM网络中,并选取最后时刻的隐藏层输出,分别得到维度为h的语义特征向量Oq和Oa,从而根据Oq与Oa来计算向量间的空间距离值作为问题文本和答案文本匹配的程度。
步骤S5,模型建立完之后,设置问答系统,用户任意问问题,系统会根据神经网络模型预测该问题属于哪一类,进而给出相应的答案。
第二方面,该基于深度学习的FAQ检索式问答系统,如图2和图3所示,包括:
问答模块,用于接收用户的输入问题,并对输入问题进行预处理;预处理过程包括构建训练集和构建测试集、并在构建训练集和构建测试集的基础上增强数据,将预处理后的所述输入问题发送至深度学习模块;
深度学习模块,用于提取预处理后的输入问题中的特征信息,并根据特征信息生成对应的问题词向量,并根据预设的问题分类模型、问题匹配模型和问题词向量信息,从知识库模块中获取相匹配的标准问题及精确度较高的答案,并将精确度较高的答案返回至问答模块;
知识库模块,用于判断知识库中是否存在与未识别问题对应的标准问题,并在知识库中存在与未识别问题对应的标准问题时,对与未识别问题对应的标准问题进行标注,并在知识库中不存在与未识别问题对应的标准问题时,根据未识别问题创建新标准问题,并对新标准问题进行标注,同时补充新标准问题对应的标准答案;
该深度学习模块还用于根据标注的与未识别问题对应的标准问题及匹配答案模型化训练。
本发明相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,发掘传统模型很难发掘的隐含在大量数据中含义不明显的特征,更精细地描述文本匹配问题。
以上所述实施例只是为本发明的较佳实施例,并非以此限制本发明的实施范围,除了具体实施例中列举的情况外;凡依本发明之方法及原理所作的等效变化,均应涵盖于本发明的保护范围内。
机译: 基于深度学习的知识结构构建提供生物医学检索的方法和系统
机译: 基于深度学习的知识结构构建提供生物医学检索的方法和系统
机译: 基于深度学习的视频图检索方法和检索系统