首页> 中国专利> 佛学问答对的构建方法、装置、设备及存储介质

佛学问答对的构建方法、装置、设备及存储介质

摘要

本发明涉及大数据技术领域,公开了一种佛学问答对的构建方法、装置、设备及存储介质,用于提高佛学问答对构建的准确性和效率。佛学问答对的构建方法包括:根据预置的领域词进行数据采集,得到标注后的样本数据,标注后的样本数据包括与佛学领域相关的问答信息;对标注后的样本数据进行数据清洗,得到清洗后的样本数据;通过预置佛学模型对清洗后的样本数据进行过滤,得到候选问答对数据;基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据;根据预设的命名实体识别模型和无监督的领域词挖掘算法对目标问答对数据进行文本挖掘,得到新的实体和新的领域词。此外,本发明还涉及区块链技术,目标问答对数据可存储于区块链节点中。

著录项

  • 公开/公告号CN112988999A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202110285873.1

  • 发明设计人 杜江楠;李剑锋;肖京;

    申请日2021-03-17

  • 分类号G06F16/332(20190101);G06F16/335(20190101);G06F16/35(20190101);G06F16/36(20190101);G06F40/295(20200101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11321 北京市京大律师事务所;

  • 代理人姚维

  • 地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及大数据技术的增量更新领域,尤其涉及一种佛学问答对的构建方法、装置、设备及存储介质。

背景技术

知识库构建是人工智能中重要的组成部分,数据决定着模型的上限,可以说数据的重要程度甚至要超过算法,世界知名的人工智能公司如谷歌、微软、facebook无一不拥有海量的高质量的数据,随着算法越来越公开和普及,专业的数据是人工智能领域的杀手锏。而数据又分为开放领域的数据和垂直领域的数据,开放领域的数据主要关注广而大,垂直领域的数据则更追求质量和覆盖。而佛学领域近年来受到越来越多人的关注,针对于佛学垂直领域构造高质量的问答数据需求也与日俱增。

佛学知识问答数据是目前佛学领域比较稀缺的数据,问答数据需求包括问题和答案各个的质量以及之间的关系,传统方法标注效率低。此外佛学领域是一个比较专业的领域,存在一定的专业和门槛,已有的标注手段,得出的数据质量差,利用少量数据自动进行问答对扩充,存在扩充的佛学问答对准确性低的问题。

发明内容

本发明提供了一种佛学问答对的构建方法、装置、设备及存储介质,用于提高佛学领域词挖掘和佛学问答对构建的准确性和效率。

为实现上述目的,本发明第一方面提供了一种佛学问答对的构建方法,包括:根据预置的领域词进行数据采集,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息;对所述标注后的样本数据进行数据清洗,得到清洗后的样本数据;通过预置佛学模型对所述清洗后的样本数据进行过滤,得到候选问答对数据;基于深度学习模型对所述候选问答对数据进行分类处理,得到目标问答对数据,所述目标问答对数据为符合佛学领域的问答对数据;根据预设的命名实体识别模型和无监督的领域词挖掘算法对所述目标问答对数据进行文本挖掘,得到新的实体和新的领域词,所述新的实体和所述新的领域词用于指示继续挖掘与构建新的佛学问答对数据集。

可选的,在本发明第一方面的第一种实现方式中,所述根据预置的领域词进行数据采集,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息,包括:基于预置的领域词查询预设配置信息表,得到网页地址信息;按照所述网页地址信息从目标网页中采集初始文本数据;获取预设的关键词,根据所述预设的关键词从所述初始文本数据中筛选目标文本数据,并对所述目标文本数据进行标注处理,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息。

可选的,在本发明第一方面的第二种实现方式中,所述对所述标注后的样本数据进行数据清洗,得到清洗后的样本数据,包括:对所述标注后的样本数据进行去重处理,得到去重后的样本数据;基于预先构建的敏感词库,按照敏感词过滤算法对所述去重后的样本数据进行敏感词处理,得到处理后的样本数据;对所述处理后的样本数据移除标点符号,得到清洗后的样本数据。

可选的,在本发明第一方面的第三种实现方式中,所述通过预置佛学模型对所述清洗后的样本数据进行过滤,得到候选问答对数据,包括:获取主题词,将所述清洗后的样本数据和所述主题词输入至预置佛学模型中,调用所述预置佛学模型从所述清洗后的样本数据中筛选包含主题词的问答对数据;对所述包含主题词的问答对数据进行问答对语义匹配,得到语义匹配结果;当所述语义匹配结果大于或等于预定阈值时,对所述包含主题词的问答对数据进行筛选,得到候选问答对数据。

可选的,在本发明第一方面的第四种实现方式中,所述基于深度学习模型对所述候选问答对数据进行分类处理,得到目标问答对数据,所述目标问答对数据为符合佛学领域的问答对数据,包括:从所述候选问答对数据中提取多个待筛选问答对,各待筛选问答对包括至少一个问句和至少一个答案语句;调用深度学习模型计算所述多个待筛选问答对分别对应的文本相似度,得到各待筛选问答对的多个相似度得分,所述深度学习模型为根据无监督深度学习预训练完成的来自变压器的双向编码器表示BERT模型及BERT衍生模型;按照预设得分阈值对所述多个相似度得分进行问答对筛选,得到各待筛选问答对对应的佛学问答对;根据每两个待筛选问答对之间的相似度得分,对各待筛选问答对对应的佛学问答对进行聚类并组合为目标问答对数据,并将所述目标问答对数据按照所述预置的领域词存储至目标知识库中,所述目标问答对数据为符合佛学领域的问答对数据。

可选的,在本发明第一方面的第五种实现方式中,所述根据预设的命名实体识别模型和无监督的领域词挖掘算法对所述目标问答对数据进行文本挖掘,得到新的实体和新的领域词,所述新的实体和所述新的领域词用于指示继续挖掘与构建新的佛学问答对数据集,包括:将所述目标问答对数据输入到预设的命名实体识别模型中,得到所述目标问答对数据的命名实体识别结果,并从所述目标问答对数据的命名实体识别结果中筛选新的实体,所述命名实体识别模型包括长短期记忆网络LSTM层;调用无监督的领域词挖掘算法对所述目标问答对数据进行领域词提取与筛选,得到新的领域词,所述无监督的领域词挖掘算法包括互信息和最小熵的算法;按照所述新的实体和所述新的领域词继续挖掘与构建新的佛学问答对数据。

可选的,在本发明第一方面的第六种实现方式中,在所述根据预置的领域词进行数据采集,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息之前,所述佛学问答对的构建方法还包括:获取训练数据,所述训练数据为预先存储于可视化数据库imagenet中的多个佛学问答对数据;将所述训练数据输入至初始无监督网络模型中,并通过所述初始无监督网络模型对所述训练数据进行分类处理,得到输出数据,所述初始无监督网络模型为无监督的BERT模型;计算所述输出数据与所述训练数据之间的初始误差值;当所述初始误差值不符合预设条件时,调整所述初始无监督网络模型对应的模型参数,得到BERT衍生模型,并基于所述训练数据,按照交叉熵函数降低所述BERT衍生模型微调训练的目标误差值,直到所述目标误差值满足所述预设条件时,确定模型训练完成,得到深度学习模型。

本发明第二方面提供了一种佛学问答对的构建装置,包括:采集模块,用于根据预置的领域词进行数据采集,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息;清洗模块,用于对所述标注后的样本数据进行数据清洗,得到清洗后的样本数据;过滤模块,用于通过预置佛学模型对所述清洗后的样本数据进行过滤,得到候选问答对数据;分类模块,用于基于深度学习模型对所述候选问答对数据进行分类处理,得到目标问答对数据,所述目标问答对数据为符合佛学领域的问答对数据;挖掘模块,用于根据预设的命名实体识别模型和无监督的领域词挖掘算法对所述目标问答对数据进行文本挖掘,得到新的实体和新的领域词,所述新的实体和所述新的领域词用于指示继续挖掘与构建新的佛学问答对数据集。

可选的,在本发明第二方面的第一种实现方式中,所述采集模块具体用于:基于预置的领域词查询预设配置信息表,得到网页地址信息;按照所述网页地址信息从目标网页中采集初始文本数据;获取预设的关键词,根据所述预设的关键词从所述初始文本数据中筛选目标文本数据,并对所述目标文本数据进行标注处理,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息。

可选的,在本发明第二方面的第二种实现方式中,所述清洗模块具体用于:对所述标注后的样本数据进行去重处理,得到去重后的样本数据;基于预先构建的敏感词库,按照敏感词过滤算法对所述去重后的样本数据进行敏感词处理,得到处理后的样本数据;对所述处理后的样本数据移除标点符号,得到清洗后的样本数据。

可选的,在本发明第二方面的第三种实现方式中,所述过滤模块具体用于:获取主题词,将所述清洗后的样本数据和所述主题词输入至预置佛学模型中,调用所述预置佛学模型从所述清洗后的样本数据中筛选包含主题词的问答对数据;对所述包含主题词的问答对数据进行问答对语义匹配,得到语义匹配结果;当所述语义匹配结果大于或等于预定阈值时,对所述包含主题词的问答对数据进行筛选,得到候选问答对数据。

可选的,在本发明第二方面的第四种实现方式中,所述分类模块具体用于:从所述候选问答对数据中提取多个待筛选问答对,各待筛选问答对包括至少一个问句和至少一个答案语句;调用深度学习模型计算所述多个待筛选问答对分别对应的文本相似度,得到各待筛选问答对的多个相似度得分,所述深度学习模型为根据无监督深度学习预训练完成的来自变压器的双向编码器表示BERT模型及BERT衍生模型;按照预设得分阈值对所述多个相似度得分进行问答对筛选,得到各待筛选问答对对应的佛学问答对;根据每两个待筛选问答对之间的相似度得分,对各待筛选问答对对应的佛学问答对进行聚类并组合为目标问答对数据,并将所述目标问答对数据按照所述预置的领域词存储至目标知识库中,所述目标问答对数据为符合佛学领域的问答对数据。

可选的,在本发明第二方面的第五种实现方式中,所述挖掘模块具体用于:将所述目标问答对数据输入到预设的命名实体识别模型中,得到所述目标问答对数据的命名实体识别结果,并从所述目标问答对数据的命名实体识别结果中筛选新的实体,所述命名实体识别模型包括长短期记忆网络LSTM层;调用无监督的领域词挖掘算法对所述目标问答对数据进行领域词提取与筛选,得到新的领域词,所述无监督的领域词挖掘算法包括互信息和最小熵的算法;按照所述新的实体和所述新的领域词继续挖掘与构建新的佛学问答对数据。

可选的,在本发明第二方面的第六种实现方式中,所述佛学问答对的构建装置还包括:获取模块,用于获取训练数据,所述训练数据为预先存储于可视化数据库imagenet中的多个佛学问答对数据;处理模块,用于将所述训练数据输入至初始无监督网络模型中,并通过所述初始无监督网络模型对所述训练数据进行分类处理,得到输出数据,所述初始无监督网络模型为BERT模型;计算模块,用于计算所述输出数据与所述训练数据之间的初始误差值;训练模块,当所述初始误差值不符合预设条件时,用于调整所述初始无监督网络模型对应的模型参数,得到BERT衍生模型,并基于所述训练数据,按照交叉熵函数降低所述BERT衍生模型微调训练的目标误差值,直到所述目标误差值满足所述预设条件时,确定模型训练完成,得到深度学习模型。

本发明第三方面提供了一种佛学问答对的构建设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述佛学问答对的构建设备执行上述的佛学问答对的构建方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的佛学问答对的构建方法。

本发明提供的技术方案中,根据预置的领域词进行数据采集,得到标注后的样本数据,所述标注后的样本数据包括与佛学领域相关的问答信息;对所述标注后的样本数据进行数据清洗,得到清洗后的样本数据;通过预置佛学模型对所述清洗后的样本数据进行过滤,得到候选问答对数据;基于深度学习模型对所述候选问答对数据进行分类处理,得到目标问答对数据,所述目标问答对数据为符合佛学领域的问答对数据;根据预设的命名实体识别模型和无监督的领域词挖掘算法对所述目标问答对数据进行文本挖掘,得到新的实体和新的领域词,所述新的实体和所述新的领域词用于指示继续挖掘与构建佛学问答对数据集。本发明实施例中,根据预置的领域词进行数据采集、清洗和过滤,得到候选问答对数据;基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据;对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,再根据新的领域词构建大规模高质量的佛学问答对的知识库。提高了佛学领域词挖掘和佛学问答对构建的准确性和效率。

附图说明

图1为本发明实施例中佛学问答对的构建方法的一个实施例示意图;

图2为本发明实施例中佛学问答对的构建方法的另一个实施例示意图;

图3为本发明实施例中佛学问答对的构建装置的一个实施例示意图;

图4为本发明实施例中佛学问答对的构建装置的另一个实施例示意图;

图5为本发明实施例中佛学问答对的构建设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种佛学问答对的构建方法、装置、设备及存储介质,用于根据预置的领域词进行数据采集、清洗和过滤,和模型分类处理,得到目标问答对数据;对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,提高佛学问答对构建的准确性和效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中佛学问答对的构建方法的一个实施例包括:

101、根据预置的领域词进行数据采集,得到标注后的样本数据,标注后的样本数据包括与佛学领域相关的问答信息。

其中,预置的领域词是指对佛学领域中所涉及的专业术语预先挖掘并存储的预设数据库中的佛学领域词汇,预设数据库可以为关系数据库或者为图数据库,也可以为其他类型的数据库,具体此处不做限定。具体的,服务器从预设数据库中读取预置的领域词;服务器按照预置的领域词从与佛学领域相关的数据源中爬取文本数据,并对文本数据进行分词和过滤,得到多个关键词;根据多个关键词从预设的知识图谱中确定知识信息,并采用中文开源词法分析工具LAC框架对知识信息进行文本标注,得到标注后的样本数据。例如,预设的领域词可以为金刚经,也可以为其他佛学词汇,具体此处不做限定。

需要说明的是,文本标注包括标注知识信息是否为佛学问题、是否可以解决问题,也可以采用文本摘要算法对短答案进行改写后作为摘要等,具体此处不做限定。

可以理解的是,本发明的执行主体可以为佛学问答对的构建装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、对标注后的样本数据进行数据清洗,得到清洗后的样本数据。

可以理解的是,标注后的样本数据中存在重复数据,也存在错误数据。具体的,服务器对标注后的样本数据进行关键词组提取,然后进行去除空值数据,并移除重复文本数据,得到清洗后的样本数据,进一步地,服务器对清洗后的样本数据进行存储。其中,关键词组是预先设置的与佛学领域相关的词组。

103、通过预置佛学模型对清洗后的样本数据进行过滤,得到候选问答对数据。

具体,服务器从预设数据表中获取数据匹配规则;服务器调用预置佛学模型按照数据匹配规则对清洗后的样本数据进行规则匹配和过滤,得到候选问答对数据。其中,数据匹配规则包括对清洗后的样本数据按照与佛学领域的关键词进行匹配与筛选的规则。

104、基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据,目标问答对数据为符合佛学领域的问答对数据。

具体的,服务器根据深度学习模型中的领域相关性层对候选问答对数据中进行佛学领域相关性判断,得到初始问答对数据,也就是判断候选问答对数据是否属于佛学领域的问答对。然后,服务器对初始问答对数据进行答案选择,进一步地,服务器通过问答相关性分类层从初始问答对数据中筛选多个待筛选问答对,并采用多答案打分层对多个待筛选问答对进行多答案打分筛选,得到筛选后的问答对数据,并通过相似度聚类对筛选后的问答进行聚类处理,得到目标问答对数据,目标问答对数据为符合佛学领域的问答对数据。

105、根据预设的命名实体识别模型和无监督的领域词挖掘算法对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,新的实体和新的领域词用于指示继续挖掘与构建新的佛学问答对数据集。

其中,实体为某一个概念的实例。具体的,服务器将目标问答对数据输入至预设的命名实体识别模型中,输出新的实体,例如,目标问答对数据为“什么是佛教三学”和“佛教的三学指的是戒、定、慧三学”,那么服务器挖掘出新的实体为“三学”和“戒、定、慧”。

服务器根据无监督的领域词挖掘算法对目标问答对数据进行领域词挖掘,得到新的领域词,新的实体和新的领域词用于指示继续挖掘与构建新的佛学问答对数据集。其中,新的领域词可以为新的实体中的词汇,例如,新的领域词为“三学”。进一步地,将目标问答对数据存储于区块链数据库中,具体此处不做限定。

本发明实施例中,根据预置的领域词进行数据采集、清洗和过滤,得到候选问答对数据;基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据;对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,再根据新的领域词构建大规模高质量的佛学问答对的知识库。提高了佛学领域词挖掘和佛学问答对构建的准确性和效率。

请参阅图2,本发明实施例中佛学问答对的构建方法的另一个实施例包括:

201、基于预置的领域词查询预设配置信息表,得到网页地址信息。

具体的,服务器根据预置的领域词、预设配置信息表和结构化查询语言语法规则设置查询语句;服务器执行查询语句,得到查询结果;当查询结果为空值时,服务器提取预警信息,预警信息用于指示预置的领域词缺少网页配置信息;当查询结果不为空值时,服务器从查询结果中读取网页地址信息。例如,预置的领域词“菩提”对应的网页地址信息为http://x.x.x.x/a。

202、按照网页地址信息从目标网页中采集初始文本数据。

具体的,服务器根据网页地址信息从目标网页(例如,社区问答网页)中采集包含超文本标记语言的网页内容,其中,包含超文本标记语言的网页内容包括与佛学领域相关的问题内容、问题发布时间、问题来源、标题信息以及对应的多个回答信息;服务器按照文档对象模型DOM树解析算法对包含超文本标记语言的网页内容进行非结构化数据抽取非结构化,得到初始文本数据。

203、获取预设的关键词,根据预设的关键词从初始文本数据中筛选目标文本数据,并对目标文本数据进行标注处理,得到标注后的样本数据,标注后的样本数据包括与佛学领域相关的问答信息。

需要说明的是,因为初始文本数据的数量比较庞大,服务器获取预设的关键词,根据预设的关键词从初始文本数据中抽样小批量数据进行不同维度的标注处理,得到初始标注样本数据,并采用已有模型(例如,BERT模型)对初始标注样本数据进行纠偏处理,得到标注后的样本数据,标注后的样本数据包括与佛学领域相关的问答信息。

可选的,服务器根据最短路径分词算法对目标文本数据进行分词,得到分词结果;服务器基于预设词标注模型对分词结果进行词标注,得到标注后的样本数据。其中,预设词标注模型可以为条件随机场CRF模型,也可以为其他词标注模型,具体此处不做限定,提高了词标注的准确性。

204、对标注后的样本数据进行数据清洗,得到清洗后的样本数据。

其中,数据清洗可以包括对标注后的样本数据进行预设关键词组的提取、敏感信息和广告信息的过滤以及重复文本数据的删除,具体此处不做限定。可选的,服务器对标注后的样本数据进行去重处理,得到去重后的样本数据;服务器基于预先构建的敏感词库,按照敏感词过滤算法对去重后的样本数据进行敏感词处理,得到处理后的样本数据,其中,预先构建的敏感词库包括多个敏感词字符串,每个敏感字符串可以包括中英文和网络敏感词等;服务器对处理后的样本数据移除标点符号,得到清洗后的样本数据。

需要说明的是,敏感词过滤算法可以为敏感词字典树算法,服务器通过敏感词字典树算法实现对中英文、拼音编写、变形词的过滤,提高了数据处理速度和效率。

205、通过预置佛学模型对清洗后的样本数据进行过滤,得到候选问答对数据。

其中,预置佛学模型用于对清洗后的样本数据进行佛学领域粗筛选。可选的,服务器器获取主题词,将清洗后的样本数据和主题词输入至预置佛学模型中,调用预置佛学模型从清洗后的样本数据中筛选包含主题词的问答对数据,其中,主题词的数量可以为一个、两个或者多个,具体此处不做限定;服务器对包含主题词的问答对数据进行问答对语义匹配,得到语义匹配结果;当语义匹配结果大于或等于预定阈值时,服务器对包含主题词的问答对数据进行筛选,得到候选问答对数据。

需要说明的是,候选问答对包括多个待筛选问答对,各待筛选问答对主要由一个问句和多个答案语句组成,例如,问句A,对应的答案语句包括B、C和D,也就是各待筛选问答对可以包括多个子问答对(A,B)、(A,C)和(A,D)。

206、基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据,目标问答对数据为符合佛学领域的问答对数据。

其中,深度学习模型可以包括输入层、多个隐藏层和输出层,还可以包括其他的网络层,具体此处不做限定。可选的,服务器从候选问答对数据中提取多个待筛选问答对,各待筛选问答对包括至少一个问句和至少一个答案语句;服务器调用深度学习模型计算多个待筛选问答对分别对应的文本相似度,得到各待筛选问答对的多个相似度得分,深度学习模型为根据无监督深度学习预训练完成的来自变压器的双向编码器表示BERT模型及BERT衍生模型;服务器按照预设得分阈值对多个相似度得分进行问答对筛选(包括按照多个相似度得分进行多答案排序与筛选),得到各待筛选问答对对应的佛学问答对;服务器根据每两个待筛选问答对之间的相似度得分,对各待筛选问答对对应的佛学问答对进行聚类并组合为目标问答对数据,并将目标问答对数据按照预置的领域词存储至目标知识库中,目标问答对数据为符合佛学领域的问答对数据。例如,服务器得到各待筛选问答对A的多个相似度得分为0.16、0.94、0.55、0.36和0.85,服务器将相似度得分为0.94的问答对设置为待筛选问答A对对应的佛学问答对,或者服务器还可以将相似度得分为0.94和0.85的问答对设置为待筛选问答A对对应的佛学问答对,具体此处不做限定;服务器将佛学问答对H、I、J和K进行聚类处理,得到目标问答对数据,目标问答对数据包括不同分类的问答对数据。

进一步地,服务器还可以预先训练得到深度学习模型,具体的,服务器获取训练数据,训练数据为预先存储于可视化数据库imagenet中的多个佛学问答对数据;服务器器将训练数据输入至初始无监督网络模型中,并通过初始无监督网络模型对训练数据进行分类处理,得到输出数据,初始无监督网络模型为BERT模型;服务器计算输出数据与训练数据之间的初始误差值;当初始误差值不符合预设条件时,服务器调整初始无监督网络模型对应的模型参数,得到BERT衍生模型,并基于训练数据,按照交叉熵函数降低BERT衍生模型微调训练的目标误差值,直到目标误差值满足预设条件时,确定模型训练完成,得到深度学习模型。

需要说明的是,其中,交叉熵函数为

207、根据预设的命名实体识别模型和无监督的领域词挖掘算法对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,新的实体和新的领域词用于指示继续挖掘与构建新的佛学问答对数据集。

其中,预设的命名实体识别模型为预先采用训练样本数据训练好的模型。可选的,服务器将目标问答对数据输入到预设的命名实体识别模型中,得到目标问答对数据的命名实体识别结果,并从目标问答对数据的命名实体识别结果中筛选新的实体,命名实体识别模型包括长短期记忆网络LSTM层,其中,服务器获取目标问答对数据中的第一个字,对第一个字的字向量进行特征提取,得到第一个字的初始特征向量;服务器对目标问答数据中除第一个字以外的每一个字,若目标问答对数据中该字之前的内容存在词语,对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取,得到该字的初始特征向量;否则,对该字的字向量和该字的上一个字的初始特征向量进行特征提取,得到该字的初始特征向量;服务器根据每个字的初始特征向量确定实体数据集,并基于预设知识图谱库对实体数据集进行筛选,得到新的实体;服务器调用无监督的领域词挖掘算法对目标问答对数据进行领域词提取与筛选,得到新的领域词,无监督的领域词挖掘算法包括互信息和最小熵的算法;服务器按照新的实体和新的领域词继续挖掘与构建新的佛学问答对数据。

可以立即的是,服务器以新的领域词作为种子词,重复上述过程进行问答对挖掘与构建,直至不再获得新的领域词为止,形成闭环数据采集与挖掘。深度学习模型也会在数据挖掘过程中,通过获得新数据进行模型迭代优化,形成完全自动化问答对构建的流程。

本发明实施例中,根据预置的领域词进行数据采集、清洗和过滤,得到候选问答对数据;基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据;对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,再根据新的领域词构建大规模高质量的佛学问答对的知识库。提高了佛学领域词挖掘和佛学问答对构建的准确性和效率。

上面对本发明实施例中佛学问答对的构建方法进行了描述,下面对本发明实施例中佛学问答对的构建装置进行描述,请参阅图3,本发明实施例中佛学问答对的构建装置的一个实施例包括:

采集模块301,用于根据预置的领域词进行数据采集,得到标注后的样本数据,标注后的样本数据包括与佛学领域相关的问答信息;

清洗模块302,用于对标注后的样本数据进行数据清洗,得到清洗后的样本数据;

过滤模块303,用于通过预置佛学模型对清洗后的样本数据进行过滤,得到候选问答对数据;

分类模块304,用于基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据,目标问答对数据为符合佛学领域的问答对数据;

挖掘模块305,用于根据预设的命名实体识别模型和无监督的领域词挖掘算法对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,新的实体和新的领域词用于指示继续挖掘与构建新的佛学问答对数据集。

进一步地,将目标问答对数据存储于区块链数据库中,具体此处不做限定。

本发明实施例中,根据预置的领域词进行数据采集、清洗和过滤,得到候选问答对数据;基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据;对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,再根据新的领域词构建大规模高质量的佛学问答对的知识库。提高了佛学领域词挖掘和佛学问答对构建的准确性和效率。

请参阅图4,本发明实施例中佛学问答对的构建装置的另一个实施例包括:

采集模块301,用于根据预置的领域词进行数据采集,得到标注后的样本数据,标注后的样本数据包括与佛学领域相关的问答信息;

清洗模块302,用于对标注后的样本数据进行数据清洗,得到清洗后的样本数据;

过滤模块303,用于通过预置佛学模型对清洗后的样本数据进行过滤,得到候选问答对数据;

分类模块304,用于基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据,目标问答对数据为符合佛学领域的问答对数据;

挖掘模块305,用于根据预设的命名实体识别模型和无监督的领域词挖掘算法对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,新的实体和新的领域词用于指示继续挖掘与构建新的佛学问答对数据集。

可选的,采集模块301还可以具体用于:

基于预置的领域词查询预设配置信息表,得到网页地址信息;

按照网页地址信息从目标网页中采集初始文本数据;

获取预设的关键词,根据预设的关键词从初始文本数据中筛选目标文本数据,并对目标文本数据进行标注处理,得到标注后的样本数据,标注后的样本数据包括与佛学领域相关的问答信息。

可选的,清洗模块302还可以具体用于:

对标注后的样本数据进行去重处理,得到去重后的样本数据;

基于预先构建的敏感词库,按照敏感词过滤算法对去重后的样本数据进行敏感词处理,得到处理后的样本数据;

对处理后的样本数据移除标点符号,得到清洗后的样本数据。

可选的,过滤模块303还可以具体用于:

获取主题词,将清洗后的样本数据和主题词输入至预置佛学模型中,调用预置佛学模型从清洗后的样本数据中筛选包含主题词的问答对数据;

对包含主题词的问答对数据进行问答对语义匹配,得到语义匹配结果;

当语义匹配结果大于或等于预定阈值时,对包含主题词的问答对数据进行筛选,得到候选问答对数据。

可选的,分类模块304还可以具体用于:

从候选问答对数据中提取多个待筛选问答对,各待筛选问答对包括至少一个问句和至少一个答案语句;

调用深度学习模型计算多个待筛选问答对分别对应的文本相似度,得到各待筛选问答对的多个相似度得分,深度学习模型为根据无监督深度学习预训练完成的来自变压器的双向编码器表示BERT模型及BERT衍生模型;

按照预设得分阈值对多个相似度得分进行问答对筛选,得到各待筛选问答对对应的佛学问答对;

根据每两个待筛选问答对之间的相似度得分,对各待筛选问答对对应的佛学问答对进行聚类并组合为目标问答对数据,并将目标问答对数据按照预置的领域词存储至目标知识库中,目标问答对数据为符合佛学领域的问答对数据。

可选的,挖掘模块305还可以具体用于:

将目标问答对数据输入到预设的命名实体识别模型中,得到目标问答对数据的命名实体识别结果,并从目标问答对数据的命名实体识别结果中筛选新的实体,命名实体识别模型包括长短期记忆网络LSTM层;

调用无监督的领域词挖掘算法对目标问答对数据进行领域词提取与筛选,得到新的领域词,无监督的领域词挖掘算法包括互信息和最小熵的算法;

按照新的实体和新的领域词继续挖掘与构建新的佛学问答对数据。

可选的,佛学问答对的构建装置还包括:

获取模块306,用于获取训练数据,训练数据为预先存储于可视化数据库imagenet中的多个佛学问答对数据;

处理模块307,用于将训练数据输入至初始无监督网络模型中,并通过初始无监督网络模型对训练数据进行分类处理,得到输出数据,初始无监督网络模型为BERT模型;

计算模块308,用于计算输出数据与训练数据之间的初始误差值;

训练模块309,当初始误差值不符合预设条件时,用于调整初始无监督网络模型对应的模型参数,得到BERT衍生模型,并基于训练数据,按照交叉熵函数降低BERT衍生模型微调训练的目标误差值,直到目标误差值满足预设条件时,确定模型训练完成,得到深度学习模型。

本发明实施例中,根据预置的领域词进行数据采集、清洗和过滤,得到候选问答对数据;基于深度学习模型对候选问答对数据进行分类处理,得到目标问答对数据;对目标问答对数据进行文本挖掘,得到新的实体和新的领域词,再根据新的领域词构建大规模高质量的佛学问答对的知识库。提高了佛学领域词挖掘和佛学问答对构建的准确性和效率。

上面图3和图4从模块化的角度对本发明实施例中的佛学问答对的构建装置进行详细描述,下面从硬件处理的角度对本发明实施例中佛学问答对的构建设备进行详细描述。

图5是本发明实施例提供的一种佛学问答对的构建设备的结构示意图,该佛学问答对的构建设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对佛学问答对的构建设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在佛学问答对的构建设备500上执行存储介质530中的一系列指令操作。

佛学问答对的构建设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的佛学问答对的构建设备结构并不构成对佛学问答对的构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述佛学问答对的构建方法的步骤。

本发明还提供一种佛学问答对的构建设备,所述佛学问答对的构建设备包括存储器和处理器,存储器中存储有指令,所述指令被处理器执行时,使得处理器执行上述各实施例中的所述佛学问答对的构建方法的步骤。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号