公开/公告号CN113868384A
专利类型发明专利
公开/公告日2021-12-31
原文格式PDF
申请/专利权人 河南数慧信息技术有限公司;
申请/专利号CN202110981946.0
申请日2021-08-25
分类号G06F16/332(20190101);G06F16/35(20190101);G06F16/36(20190101);G06F40/30(20200101);G06F40/289(20200101);G06F40/242(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构41197 河南省古格知识产权代理事务所(普通合伙);
代理人王文利
地址 450001 河南省郑州市高新开发区瑞达路96号
入库时间 2023-06-19 13:29:16
技术领域
本发明涉及大数据技术领域,具体为一种国土调查数据自动问答方法、装置和服务器。
背景技术
目前国土调查的权属、地类数据、种植属性、耕地质量等信息均需要用户根据自己的需求进行统计分析,很多系统的统计粒度有限,不能实时根据用户的需求调整,用户获取信息费时费力,且信息的时效性较差。
发明内容
本发明的目的在于提出一种国土调查数据自动问答方法、装置和服务器,具有实现根据用户关于国土调查信息获取的需求自动解析,无需要人为的查询总结,且具有获取信息的时效性强、严谨性高、准确度高的优点。
一种国土调查数据自动问答方法,包括:获得问句;获得实体集,所述实体集根据预设的语义解析规则对所述问句进行语义解析得到,所述实体集包括位置、时间和地类;获得第一国土调查关键字,所述第一国土调查关键字根据国土调查关键字流程得到,所述第一国土调查关键字用于表示国土调查次序;获得答案,所述答案根据所述实体集和所述第一国土调查关键字得到;输出所述答案。
在本发明的一个实施例中,在获得问句后还包括获得预处理后的问句,所述预处理后的问句包括:所述预处理后的问句由所述问句删除表情符号,所述问句中的繁体文字转换为简体文字,所述问句中的全角输入格式转换为对角输入格式,所述问句中的文字同音形似输入错误纠正得到。
在本发明的一个实施例中,获得实体集,所述实体集根据预设的语义解析规则对所述问句进行语义解析得到,所述实体集包括位置、时间和地类,包括:获得位置和时间,所述位置和所述时间均基于BERT-BILSTM-CRF模型得到;获得地类,所述地类根据字符串匹配方法得到。
在本发明的一个实施例中,获得位置和时间,所述位置和所述时间基于BERT-BILSTM-CRF模型和预设规则得到,包括:所述位置包含若干级行政区划,所述若干级行政区划根据词典的分词方法划分,所述词典由行政区划及所述行政区划的别称组成。
在本发明的一个实施例中,在获得位置和时间,所述位置和所述时间基于BERT-BILSTM-CRF模型和预设规则得到之后,还包括:输出第一位置和第二位置,当获得所述位置结果不唯一时。
在本发明的一个实施例中,获得第一国土调查关键字,所述第一国土调查关键字根据国土调查关键字流程得到,所述第一国土调查关键字用于表示国土调查次序,包括:当所述问句与预设的第二国土调查关键字字符串匹配成功时,获得第一国土调查关键字,所述预设的第二国土调查关键字包含用于表示调查次序的词语或短语;当所述问句与预设的第二国土调查关键字字符串匹配不成功,且所述地类时间属性唯一时,根据地类唯一的时间属性获得第一国土调查关键字;当所述问句与预设的第二国土调查关键字字符串匹配不成功,所述地类时间属性不唯一,且所述时间与预设的国土调查时间比较存在对应关系时,根据所述时间获得第一国土调查关键字;当所述问句与预设的第二国土调查关键字字符串匹配不成功,所述地类时间属性不唯一,所述时间与预设的国土调查时间比较不存在对应关系时,根据所述地类中最新的时间属性获得第一国土调查关键字修正所述时间,当所述时间无法基于BERT-BILSTM-CRF模型得到,且所述问句中包含所述第一国土调查关键字时,所述时间为所述第一国土调查关键字对应的时间;当所述时间无法基于BERT-BILSTM-CRF模型得到,且所述问句不包含所述第一国土调查关键字时,所述时间为所述问句输入的时间。
本发明的一个实施例中,在得到所述第一国土调查关键字后还包括所述问句分类,所述问句分类包括:得到第一类问题,所述第一类问题的实体集包含位置和地类; 得到第二类问题,所述第二类问题的实体集包含位置或地类中的一个;得到第三类问题,所述第三类问题的实体集不包含位置和地类。
本发明的一个实施例中,在得到第一类问题后,还包括对所述第一类问题的分类,所述第一类问题包含第一问题、第二问题和第三问题;所述第一问题为单类面积问题,所述第二问题为面积求和问题,所述第三问题为面积占比问题:得到第一相似度集合,所述第一相似度集合中的元素由第一问句向量集经余弦相似度计算得到;所述第一问句向量集由所述问句与多个预设第一典型问句输入Sentence-Bert模型得到;所述预设的第一典型问句为所述第一问题的典型问句;得到第二相似度集合,所述第二相似度集合中的元素由第二问句向量集经余弦相似度计算得到;所述第二问句向量集由所述问句与多个预设第二典型问句输入Sentence-Bert模型得到;所述预设的第二典型问句为所述第二问题的典型问句;得到第三相似度集合,所述第三相似度集合中的元素由第三问句向量集经余弦相似度计算得到;所述第三问句向量集由所述问句与多个预设第三典型问句输入Sentence-Bert模型得到;所述预设的第三典型问句为所述第三问题的典型问句;得到所述第一相似度集合,所述第二相似度集合和所述第三相似度集合中元素的最大值;得到所述第一问题,当所述第一相似度集合中的元素为最大值时;得到所述第二问题,当所述第二相似度集合中的元素为最大值时;得到所述第三问题,当所述第三相似度集合中的元素为最大值时。
本发明的一个实施例中,在得到第二类问题后,还包括对所述第二类问题的分类,所述第二类问题包含第四问题和第五问题,所述第四问题为包含关系问题,所述第五问题为分布问题:得到第一概率,所述第一概率由所述问句经朴素贝叶斯分类算法得到;得到第二概率,所述第二概率由所述问句经朴素贝叶斯分类算法得到;得到所述第四问题,当所述第一概率不小于所述第二概率时;得到所述第五问题,当所述第一概率小于所述第二概率时。
本发明的一个实施例中,获得答案,所述答案根据所述实体集和所述第一国土调查关键字得到,包括:得到唯一子图,所述唯一子图根据所述实体集和所述第一国土调查关键字检索得到;所述子图是通过查询图数据库获取图数据库对应的节点、关系;所述唯一子图由查询语言确定;获得所述位置的所述地类面积信息,当所述问句为所述第一问题时;获得所述位置的所述地类面积之和,当所述问句为所述第二问题时;获得所述位置的所述下级地类面积之和与所述位置的所述上级地类面积的占比,当所述问句为所述第三问题且地类为有包含关系的两级地类时;获得所述位置的所述地类面积之和与所述位置面积之和的占比,当所述问句为所述第三问题且不满足地类为包含关系的两级地类时;获得所述位置的上下级包含关系,当所述问句为所述第四问题时;获得所述位置图斑所属地类或所述地类的图斑分布区,当所述问句为所述第五问题时;获得答案为空,当所述问句为所述第六问题时。
一种国土调查数据自动问答装置,包含:输入模块,用于获得问句;第一获得模块,用于获得实体集,所述实体集根据预设的语义解析规则对所述问句进行语义解析得到,所述实体集包括位置、时间和地类;第二获得模块,获得第一国土调查关键字,所述第一国土调查关键字根据国土调查关键字流程得到,所述第一国土调查关键字用于表示调查次序;第三获得模块,用于获得答案,所述答案根据所述实体集获取结果;输出模块,用于输出所述答案。
一种国土调查数据自动问答服务器,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于:所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述的国土调查数据自动问答方法。
与现有技术相比,本发明的有益效果是:
1、通过对问句进行语义分析获得位置、时间和地类等实体和国土调查关键字,根据实体和国土调查关键字确定知识图谱检索目录,通过整合检索结果得到答案,实现根据用户的需求自动调整,无需要人为的查询总结,获取的信息的严谨性高、准确度高、时效性强。
2、通过对问句进行语义分析并检索知识图谱,能够在一次查询中同时获取多个数据并展示,与一次查询只能获取并展示一个数据的现有技术相比,功能更加丰富,便于使用。
附图说明
图1为本发明的应用场景图;
图2为本发明的主流程图;
图3为本发明问句预处理的流程图;
图4为本发明获得实体集的流程图;
图5为本发明问句分类的流程图;
图6为本发明第一类问题分类的流程图;
图7为本发明第二类问题分类的流程图
图8为本发明答案检索的流程图;
图9为本发明装置的结构框图;
图10为本发明服务器结构框图;
图11为现有技术BERT-BILSTM-CRF模型结构图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
国土资源数据以知识图谱库的形式存储,包含省、市、县、乡、村共五级行政区划实体,以地块编号为唯一标识的地块实体,以地类编码为唯一标识的地类实体,地类实体包括一级类、二级类、三级类、八大类、三大类、耕地细化、种植属性、耕地质量,其中地块实体均具有面积属性。根据省、市、县、乡、村等各自的特点构建各自的别称实体集,网络收集的行政区划数据的别称、民政部和统计局的网站获取历史名称以及时间变更信息,将别称实体集添加到行政区划数据的别称关系里。
知识图谱关系设置如下,行政区划之间、地块与村级实体的权属关系具有time属性和name属性。time属性为now 或者before,如果时间为now,则name属性值为该关系存在的起始时间。如果时间为before,则name属性值为该关系存在的时间段。地块实体与最下级地类具有归属关系,地类之间具有包含关系,每个地类具有time属性,分别对应一调、二调、三调等属性值。当网络收集出现权属变更信息时,将变更时间添加到权属关系的name属性中,同时修改time属性。
现阶段用于表示调查次序的词语和短语有,一调、二调、三调、第一次国土调查、第二次国土调查、第三次国土调查;将来还包括诸如四调、五调、第四次国土调查、第五次国土调查等。
时间与用于表示前三次调查次序的词语和短语的对应关系是:1984-2007年对应一调或第一次国土调查;2007~2017年对应二调或第二次国土调查;2017~X年对应三调或第三次国土调查;其中X年为四调或第四次国土调查开始的年份;以此类推得对应不同次序的国土调查。
地块与耕地细化(包括河道耕地、湖区耕地、林区耕地、牧区耕地、沙荒耕地和石漠化耕地)有直接关联关系,耕地细化类属于耕地。
地块与种植属性(包括耕种、休耕、临时种植园木、临时种植树木、临时种植牧草、临时坑包括耕种、休耕、临时种植园木、临时种植树木、临时种植牧草、临塘、林粮间作、观赏园艺、速生林木、绿化草地、未耕种)有直接关联关系。
如图11所示,BERT-BILSTM-CRF模型是将BILSTM网络和CRF模型结合起来,即在BILSTM网络的隐藏层后加一层CRF线性层。
双向LSTM的基本思想就是对每一个训练序列分别作用一个向前和向后的 LSTM网络,并且这两个连接着同一个输出层,这样的一种网络结构可以给输出层提供每一个序列点完整的上下文信息,并且经过CRF有效地考虑了序列前后的标签信息。
BERT-BILSTM-CRF命名实体识别模型是通过使用 BERT 模型作为特征表示层加入到双向LSTM模型中。
如图1所示,自助终端101设置了输入模块,显示模块,存储模块和处理器;输入模块用于输入查询问句;显示模块用于显示查询答案;存储模块用于存储不同时期国土资源数据、训练模型;处理器用于依据查询问句分析、判断结果。
如图2一种国土调查数据自动问答方法主流程图所示,包含步骤S101,步骤S102,步骤S103,步骤S104和步骤S105,其中:
步骤S101,获得问句,问句由自助终端101的使用者输入。
步骤S102,获得实体集,实体集包含位置、时间和地类三大属性,实体集由输入的问句根据预设语义解析规则得到。
步骤S103,获得第一国土调查关键字,所述第一国土调查关键字根据国土调查关键字流程得到,所述第一国土调查关键字用于表示调查次序。
步骤S104,获得答案,所述答案根据所述实体集和所述第一国土调查关键字得到。
步骤S105,输出答案。
如图3问句预处理的流程图所示,包含步骤S201,步骤S202,步骤S203和步骤S204,其中:
步骤S201,所述问句删除表情符号。
步骤S202,所述问句中的繁体文字转换为简体文字。
步骤S203,所述问句中的全角输入格式转换为对角输入格式。
步骤S204,所述问句中的文字同音形似输入错误进行纠正。
比如:问句为“河南省鄭州市浸水区o(╯□╰)o”,则根据步骤S201将问句调整为“河南省鄭州市浸水区”,根据步骤S202将问句调整为“河南省郑州市浸水区”,根据步骤S204将问句调整为“河南省郑州市金水区”,通过问句预处理删除多余信息,统一问句格式,有利于提高语义信息理解的准确度。
如图4获得实体集的流程图所示,包含步骤S301,步骤S302,步骤S303,步骤S304,步骤S305,步骤S306,步骤S307,步骤S308,步骤S309和步骤S310,其中:
步骤S301,获得位置和时间,所述位置和所述时间均根据BERT-BILSTM-CRF模型得到。由于BERT-BILSTM-CRF模型为现有技术,因此不具体说明实现方法。
步骤S302,判断所述位置是否唯一。
步骤S303,当所述位置不唯一时,输出第一位置和第二位置,当获得所述位置结果不唯一时;供使用者选择。
步骤S304,当所述位置唯一时,获得地类,所述地类根据字符串匹配方法得到。
步骤S305,判断所述问句与预设的第二国土调查关键字字符串匹配是否成功,所述预设的第二国土调查关键字包含用于表示调查次序的词语或短语,若成功进入S309。
步骤S306,当所述问句与预设的第二国土调查关键字字符串匹配不成功时,判断所述地类时间属性是否唯一,若唯一进入S309,根据地类唯一的时间属性获得第一国土调查关键字。
步骤S307,当所述地类时间属性不唯一时,判断所述时间与预设的国土调查时间比较是否存在应关系,若成立进入S309,根据所述时间获得第一国土调查关键字。
步骤S308,当所述时间与预设的国土调查时间比较不存在应关系时,根据所述地类中最新的时间属性。
步骤S309,获得第一国土调查关键字。
步骤S310,修正所述时间,当所述时间无法基于BERT-BILSTM-CRF模型得到,且所述问句中包含所述第一国土调查关键字时,所述时间为所述第一国土调查关键字对应的时间;当所述时间无法基于BERT-BILSTM-CRF模型得到,且所述问句不包含所述第一国土调查关键字时,所述时间为所述问句输入的时间。
比如:问句为“河南省回族区”,根据步骤S301查寻得到“河南省郑州市管城回族区”和“河南省开封市顺河回族区”均满足条件,根据步骤S302判断位置信息不唯一,根据步骤S303输出这两条位置信息,由使用者选择其一,当使用者选择要查询的位置和进入步骤S304,进行进一步的查寻。
比如:问句为“河南省郑州市金水区一调耕地面积”,根据步骤S301获得位置信息“河南省郑州市金水区”,没有获得时间信息;根据步骤S302判断位置信息唯一,进入步骤S304;根据步骤S304获得地类信息“耕地”;根据步骤S301和步骤S304获得第一实体集,第一实体集包含位置信息“河南省郑州市金水区”,地类信息“耕地”,时间信息为空;根据步骤S305确定实体集中的第一国土调查关键字有“一调”;由于“一调”的结束时间为1997年,根据步骤S310修正实体集中的时间信息为1997年。通过获得实体集中的位置、时间和地类信息,以及第一国土调查关键字的修正,提高语义理解的准确度,能够准确定位知识图谱库中的实体,有利于检索信息的准确性。
比如:
如图5问句分类的流程图所示,包含步骤S401,步骤S402,步骤S403,步骤S404和步骤S405,其中:
步骤S401,判断实体集中是否包含位置或地类。
步骤S402,若实体集中不包含位置或地类,则获得第三类问题。
步骤S403,若实体集中包含位置或地类,则判断实体集中是否同时包含位置和地类;
步骤S404,若实体集中同时包含位置和地类,则获得第一类问题。
步骤S405,若实体集中不是同时包含位置和地类,则获得第二类问题。
如图6第一类问题分类的流程图所示,包含步骤S501,步骤S502,步骤S503,步骤S504,步骤S505,步骤S506,步骤S507,步骤S508和步骤S509,其中:
步骤S501,得到第一相似度集合,所述第一相似度集合中的元素由第一问句向量集经余弦相似度计算得到;所述第一问句向量集由所述问句与多个预设第一典型问句输入Sentence-Bert模型得到;所述预设的第一典型问句为所述第一问题的典型问句。
步骤S502,得到第二相似度集合,所述第二相似度集合中的元素由第二问句向量集经余弦相似度计算得到;所述第二问句向量集由所述问句与多个预设第二典型问句输入Sentence-Bert模型得到;所述预设的第二典型问句为所述第二问题的典型问句。
步骤S503,得到第三相似度集合,所述第三相似度集合中的元素由第三问句向量集经余弦相似度计算得到;所述第三问句向量集由所述问句与多个预设第三典型问句输入Sentence-Bert模型得到;所述预设的第三典型问句为所述第三问题的典型问句。
步骤S504,得到所述第一相似度集合,所述第二相似度集合和所述第三相似度集合中元素的最大值。
步骤S505,判断所述第一相似度集合,所述第二相似度集合和所述第三相似度集合中元素的最大值与所述阈值的大小。
步骤S506,得到所述第六问题,当所述第一相似度集合,所述第二相似度集合和所述第三相似度集合中元素的最大值小于预设的阈值时;所述第三类问题归属于所述第六问题,所述第六问题为非相关问题。
步骤S507,得到所述第一问题,当所述第一相似度集合中的元素为最大值时。
步骤S508,得到所述第二问题,当所述第二相似度集合中的元素为最大值时。
步骤S509,得到所述第三问题,当所述第三相似度集合中的元素为最大值时。
在本发明的一个实施例中,所述第一问句向量集包含十个向量;所述第一问句向量集由所述问句与九个预设第一典型问句输入Sentence-Bert模型得到。所述第二问句向量集包含十个向量;所述第二问句向量集由所述问句与九个预设第二典型问句输入Sentence-Bert模型得到。所述第三问句向量集包含十个向量;所述第三问句向量集由所述问句与九个预设第三典型问句输入Sentence-Bert模型得到。
如图7第二类问题分类的流程图所示,包含步骤S601,步骤S602,步骤S603,步骤S604和步骤S605,其中:
步骤S601,得到第一概率,所述第一概率由所述问句经朴素贝叶斯分类算法得到;
步骤S602,得到第二概率,所述第二概率由所述问句经朴素贝叶斯分类算法得到;
步骤S603,判断第一概率是否不小于所述第二概率。
步骤S604,得到所述第四问题,当所述第一概率不小于所述第二概率时。
步骤S605,得到所述第五问题,当所述第一概率小于所述第二概率时。
比如:问句为“河南省郑州市金水区一调耕地面积”,实体集中同时包含了位置信息“河南省郑州市金水区”和地类信息“耕地”,则确定该问句归为第一类问题,即面积类问题。
接着将问句“河南省郑州市金水区一调耕地面积”分别与预设的第一典型问句,预设的第二典型问句,预设的第三典型问句输入Sentence-Bert模型并进行余弦相似度计算,得到第一相似度集合,第二相似度集合和第三相似度集合;
判断三个相似度集合的元素的最大值大于预设阈值;判断三个相似度集合的最大值为第一相似度的元素;从而得出问句“河南省郑州市金水区一调耕地面积”归为第一问题,即单类面积问题。
如图8答案检索的流程图所示,包含步骤S701,步骤S702,步骤S703,步骤S704,步骤S705,步骤S706,步骤S707和步骤S708,其中:
步骤S701,得到唯一子图,所述唯一子图根据所述实体集和所述第一国土调查关键字检索得到;所述子图是通过查询图数据库获取图数据库对应的节点、关系;所述唯一子图由查询语言确定。
步骤S702,获得所述位置的所述地类面积信息,当所述问句为所述第一问题时。
步骤S703,获得所述位置的所述地类面积之和,当所述问句为所述第二问题时。
步骤S704,获得所述位置的所述下级地类面积之和与所述位置的所述上级地类面积的占比,当所述问句为所述第三问题且地类为有包含关系的两级地类时。
步骤S705,获得所述位置的所述地类面积之和与所述位置面积之和的占比,当所述问句为所述第三问题且不满足地类为包含关系的两级地类时。
步骤S706,获得所述位置的上下级包含关系,当所述问句为所述第四问题时。
步骤S707,获得所述位置图斑所属地类或所述地类的图斑分布区,当所述问句为所述第五问题时。
步骤S708,获得答案为空,当所述问句为所述第六问题时。
比如:问句为“河南省郑州市金水区一调耕地面积”,由于该问句为第一问题,且实体集包含位置“河南省郑州市金水区”,地类“耕地”,时间及国土调查关键字“一调”,在知识图谱中能够直接获得唯一子图,快速得到数据库中对应的面积数据,并将该面积数据输出。
如图9装置的结构框图所示,包含:
输入模块201,用于获得问句。
第一获得模块202,用于获得实体集,所述实体集根据预设的语义解析规则对所述问句进行语义解析得到,所述实体集包括位置、时间和地类。
第二获得模块203,用于获得第一国土调查关键字,所述第一国土调查关键字根据国土调查关键字流程得到,所述第一国土调查关键字用于表示调查次序。
第三获得模块204,用于获得答案,所述答案根据所述实体集和所述第一国土调查关键字得到。
输出模块205,用于输出所述答案。
如图10服务器结构框图所示,该服务器包括通过系统总线连接的处理器和存储器。其中该处理器用于提供计算和控制能力,支撑整个服务器的运行。存储器存储有操作系统和计算机运行程序。该计算机程序可被处理器执行,以用于实现以上各个实施例所提供的一种国土调查数据自动问答方法。
本技术领域的普通技术人员应当认识到,以上的实施方式仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围之内,对以上实施例所作的适当改变和变化都落在本发明求保护的范围之内。
机译: 一种基于半自动的共轭点对的韩国土地信息系统的地籍图与拓扑图之间的几何图转换的方法
机译: 一种移动通信服务器,用于防止呼叫的终端拒绝第二个呼叫终端,一种方法,一种用于自动更改终端中存储的电话号码的短消息传输服务器,及其方法
机译: 提供一种用于通过使用竞争性计算和信息融合来支持车辆的自动驾驶的自动驾驶服务平台的方法,以及使用该方法的服务器。通过竞争性计算和信息融合来支持车辆的自动驾驶,并使用相同的服务器来管理}