公开/公告号CN112732938A
专利类型发明专利
公开/公告日2021-04-30
原文格式PDF
申请/专利权人 李晋琳;
申请/专利号CN202110041012.9
发明设计人 李晋琳;
申请日2021-01-13
分类号G06F16/36(20190101);G06N5/02(20060101);G06N5/04(20060101);G06F40/151(20200101);G06F16/31(20190101);
代理机构11421 北京天盾知识产权代理有限公司;
代理人周东呈
地址 510000 广东省广州市天河区中山大道西55号华师大2017级本科
入库时间 2023-06-19 10:48:02
技术领域
本发明涉及知识图谱构建技术领域,具体是一种基于自然语言的知识图谱构建和完善方法。
背景技术
目前,知识图谱中存储的是有限的和静态的、包括实体-属性(或关系)-实体知识三元组,不可避免存在部分知识关联的缺失。此外,目前知识图谱的存储技术忽略了知识的时效性。但是,知识图谱的应用过程中,需要应用到包含知识图谱中所描述事实的衍生问题,导致现有的知识三元组无法直接回答用户提问。例如:“你今年几岁了?”知识库中存储的是某人生日,却没有包含与时间有关的动态知识“年龄”。但某个人的“年龄”也在随着时间变化而增加。由此可知,现有知识图谱已无法满足用户需求。
对于上述问题,目前有以下两种解决方案:1、在知识三元组的表达中增加状态的维度。也即在已有的二元关系中,引入第三个关系参数:时间轴。举例说明,原始的三元组表达二元关系,表示为(e1,r,e2),则增加状态维度后的知识图谱中,新的二元关系表达为(e1,r,e2;time)。例如:根据规则在知识库中声明一条语句:(小明,年龄,10,expired_time=2020.10.01),在三元组过期后(时间处于过期时间expired_time之后)重新声明新的有效语句。2、引入虚拟节点以表达知识三元组的时效性,但是引入虚拟节点将导致知识库结构本身的改变。因此,无论是增加状态维度后的知识图谱,还是引入虚拟节点后的知识图谱,与其它知识图谱的兼容性都比较差,难以实现知识谱图之间的整合和互操作。另一方面,由于增加了带有时态的表达方式来保证知识库一致性和实时性,很大程度上增加了RDF(Resource Description Framework,资源描述框架)三元组的计算量和复杂度。以上两种方案中,都不能很好地满足用户对知识图谱的需求。
因此,针对以上现状,迫切需要开发一种基于自然语言的知识图谱构建和完善系统及方法,以克服当前实际应用中的不足。
发明内容
本发明的目的在于提供一种基于自然语言的知识图谱构建和完善系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于自然语言的知识图谱构建和完善系统,包括原始数据库、数据处理模块和知识图谱生成模块,所述原始数据库与数理处理模块通信连接,数据处理模块与知识图谱生成模块通信连接,其中:
原始数据库,用于接收用户输入的自然语言文本,将该自然语言文本存储为原始数据,并发送给数据处理模块;用于获取知识图谱更新需要使用的推理规则;
数据处理模块,用于接收原始数据库发送的原始数据,对该原始数据进行知识抽取和知识融合,得到原始数据中的知识实体以及各知识实体之间的关系属性,并将该知识实体和关系属性发送给知识图谱生成模块;
知识图谱生成模块,用于接收数据处理模块发送的知识实体和关系属性,依据该知识实体和关系属性建立基础知识图谱。
作为本发明进一步的方案:还包括有推理模块,推理模块分别与原始数据库、数据处理模块和知识图谱生成模块通信连接,所述原始数据库获取推理规则后,将该推理规则发送至推理模块,所述数据处理模块将知识实体和关系属性发送给推理模块,所述推理模块接收原始数据库和数据处理模块发送的推理规则、知识实体和关系属性,根据该推理规则、知识实体和关系属性生成推理知识图谱,并将该推理知识图谱发送给知识图谱生成模块,知识图谱生成模块接收推理模块发送的推理知识图谱,将该推理知识图谱与基础知识图谱进行融合,得到融合知识图谱。
作为本发明进一步的方案:所述原始数据库包括数据转化单元和数据存储单元,数据转化单元和数据存储单元通信连接,且数据存储单元分为多个数据存储区域,其中:
数据转化单元,用于接收用户输入的自然语言文本,将该自然语言文本转化为被计算机识别的数据类型,并将转化后的数据发送至数据存储单元;
数据存储单元,用于接收数据转化单元发送的转化后的数据,依据数据种类进行分类存储,并发送至数据处理模块。
作为本发明进一步的方案:所述数据处理模块包括有数据接收单元、知识融合单元、知识抽取单元、知识存储单元和知识发送单元,知识发送单元分别与推理模块以及知识图谱生成模块通信连接,其中:
数据接收单元,用于接收原始数据库发送的原始数据,并将该原始数据发送至知识抽取单元;
知识融合单元,用于接收数据接收单元发送的原始数据,对原始数据中知识进行整合,得到同一知识的完整描述,并将整合后知识数据发送至知识抽取单元;
知识抽取单元,用于接收知识融合单元发送的知识数据,利用三元法对该知识数据进行知识抽取,得到知识数据中的知识实体和知识实体之间的属性关系,并将知识实体和知识实体之间的属性关系发送至知识存储单元,知识存储单元存储后发送至知识发送单元,由知识发送单元发送至推理模块和知识图谱生成模块。
一种基于自然语言的知识图谱构建和完善系统的方法,其特征在于,包括以下步骤:
S1001、原始数据库接收用户输入的自然语言文本,将该自然语言文本存储为原始数据,并发送给数据处理模块,原始数据库同时获取知识图谱更新需要使用的推理规则;
S1002、数据处理模块接收原始数据库发送的原始数据,对该原始数据进行知识抽取和知识融合,得到原始数据中的知识实体以及各知识实体之间的关系属性,并将该知识实体和关系属性发送给知识图谱生成模块;
S1003、知识图谱生成模块接收数据处理模块发送的知识实体和关系属性,依据该知识实体和关系属性建立基础知识图谱;
S1004、推理模块接收原始数据库和数据处理模块发送的推理规则、知识实体和关系属性,根据该推理规则、知识实体和关系属性生成推理知识图谱,并将该推理知识图谱发送给知识图谱生成模块,知识图谱生成模块接收推理模块发送的推理知识图谱,将该推理知识图谱与基础知识图谱进行融合,得到融合知识图谱。
作为本发明进一步的方案:步骤S1001中,数据转化单元接收用户输入的自然语言文本,将该自然语言文本转化为被计算机识别的数据类型,并将转化后的数据发送至数据存储单元;数据存储单元接收数据转化单元发送的转化后的数据,依据数据种类进行分类存储,并发送至数据处理模块。
作为本发明进一步的方案:步骤S1002中,数据处理模块通过知识融合单元接收数据接收单元发送的原始数据,对原始数据中知识进行整合,得到同一知识的完整描述,并将整合后知识数据发送至知识抽取单元;知识抽取单元接收知识融合单元发送的知识数据,利用三元法对该知识数据进行知识抽取,得到知识数据中的知识实体和知识实体之间的属性关系。
与现有技术相比,本发明的有益效果是:本发明通过数据处理模块接收原始数据库发送的原始数据,对该原始数据进行知识抽取和知识融合,得到原始数据中的知识实体以及各知识实体之间的关系属性,并将该知识实体和关系属性发送给知识图谱生成模块,并利用推理模块接收原始数据库和数据处理模块发送的推理规则、知识实体和关系属性,根据该推理规则、知识实体和关系属性生成推理知识图谱,并将该推理知识图谱发送给知识图谱生成模块,知识图谱生成模块接收推理模块发送的推理知识图谱,将该推理知识图谱与基础知识图谱进行融合,得到融合知识图谱,从而保证了知识图谱的时效性,避免了知识图谱更新过程中,大量的数据处理。
附图说明
图1为基于自然语言的知识图谱构建和完善系统的结构示意图。
图2为基于自然语言的知识图谱构建和完善系统中原始数据库的结构示意图。
图3为基于自然语言的知识图谱构建和完善系统中数据处理模块的结构示意图。
图4为基于自然语言的知识图谱构建和完善方法的流程图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
下面详细描述本专利的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。
请参阅图1~3,本发明实施例中,一种基于自然语言的知识图谱构建和完善系统,包括原始数据库、数据处理模块和知识图谱生成模块,所述原始数据库与数理处理模块通信连接,数据处理模块与知识图谱生成模块通信连接,其中:
原始数据库,用于接收用户输入的自然语言文本,将该自然语言文本存储为原始数据,并发送给数据处理模块;用于获取知识图谱更新需要使用的推理规则;
数据处理模块,用于接收原始数据库发送的原始数据,对该原始数据进行知识抽取和知识融合,得到原始数据中的知识实体以及各知识实体之间的关系属性,并将该知识实体和关系属性发送给知识图谱生成模块;
知识图谱生成模块,用于接收数据处理模块发送的知识实体和关系属性,依据该知识实体和关系属性建立基础知识图谱;
在本发明实施例中,还包括有推理模块,推理模块分别与原始数据库、数据处理模块和知识图谱生成模块通信连接,所述原始数据库获取推理规则后,将该推理规则发送至推理模块,所述数据处理模块将知识实体和关系属性发送给推理模块,所述推理模块接收原始数据库和数据处理模块发送的推理规则、知识实体和关系属性,根据该推理规则、知识实体和关系属性生成推理知识图谱,并将该推理知识图谱发送给知识图谱生成模块,知识图谱生成模块接收推理模块发送的推理知识图谱,将该推理知识图谱与基础知识图谱进行融合,得到融合知识图谱。
在本发明的一种实施例中,所述原始数据库包括数据转化单元和数据存储单元,数据转化单元和数据存储单元通信连接,且数据存储单元分为多个数据存储区域,其中:
数据转化单元,用于接收用户输入的自然语言文本,将该自然语言文本转化为被计算机识别的数据类型,并将转化后的数据发送至数据存储单元;
数据存储单元,用于接收数据转化单元发送的转化后的数据,依据数据种类进行分类存储,并发送至数据处理模块;
需要说明的是,在本发明实施例中,所述数据转化单元转化后的数据可分为结构化数据、非结构化数据和半结构化数据,所述数据存储单元对上述数据进行存储至少将存储区域分为三个。
在本发明的一种实施例中,所述数据处理模块包括有数据接收单元、知识融合单元、知识抽取单元、知识存储单元和知识发送单元,知识发送单元分别与推理模块以及知识图谱生成模块通信连接,其中:
数据接收单元,用于接收原始数据库发送的原始数据,并将该原始数据发送至知识抽取单元;
知识融合单元,用于接收数据接收单元发送的原始数据,对原始数据中知识进行整合,得到同一知识的完整描述,并将整合后知识数据发送至知识抽取单元;
知识抽取单元,用于接收知识融合单元发送的知识数据,利用三元法对该知识数据进行知识抽取,得到知识数据中的知识实体和知识实体之间的属性关系,并将知识实体和知识实体之间的属性关系发送至知识存储单元,知识存储单元存储后发送至知识发送单元,由知识发送单元发送至推理模块和知识图谱生成模块。
请参阅图4,一种基于自然语言的知识图谱构建和完善方法,包括以下步骤:
S1001、原始数据库接收用户输入的自然语言文本,将该自然语言文本存储为原始数据,并发送给数据处理模块,原始数据库同时获取知识图谱更新需要使用的推理规则;
S1002、数据处理模块接收原始数据库发送的原始数据,对该原始数据进行知识抽取和知识融合,得到原始数据中的知识实体以及各知识实体之间的关系属性,并将该知识实体和关系属性发送给知识图谱生成模块;
S1003、知识图谱生成模块接收数据处理模块发送的知识实体和关系属性,依据该知识实体和关系属性建立基础知识图谱;
S1004、推理模块接收原始数据库和数据处理模块发送的推理规则、知识实体和关系属性,根据该推理规则、知识实体和关系属性生成推理知识图谱,并将该推理知识图谱发送给知识图谱生成模块,知识图谱生成模块接收推理模块发送的推理知识图谱,将该推理知识图谱与基础知识图谱进行融合,得到融合知识图谱。
在本发明的一种实施例中,步骤S1001中,数据转化单元接收用户输入的自然语言文本,将该自然语言文本转化为被计算机识别的数据类型,并将转化后的数据发送至数据存储单元;数据存储单元接收数据转化单元发送的转化后的数据,依据数据种类进行分类存储,并发送至数据处理模块。
在本发明的一种实施例中,步骤S1002中,数据处理模块通过知识融合单元接收数据接收单元发送的原始数据,对原始数据中知识进行整合,得到同一知识的完整描述,并将整合后知识数据发送至知识抽取单元;知识抽取单元接收知识融合单元发送的知识数据,利用三元法对该知识数据进行知识抽取,得到知识数据中的知识实体和知识实体之间的属性关系。
以上的仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。
机译: 一种基于指针的对象获取方法,用于对计算机系统的信息进行有形处理,该方法基于一种自然语言,并且该机器人或机器人的人工智能系统对该计算机系统的接收信号作出反应,该计算机系统具有相应的关联机器人或机器人的人工智能,该机器人或机器人的人工智能计算机系统的相应思想得到证实
机译: 用于从一种自然语言到另一种自然语言的基于网络的远程翻译的系统和方法
机译: 动态生成每种自然语言表达方式的附加术语的方法;基于该方法的词典管理器,文档生成器,术语注释器,搜索系统以及用于构建文档信息系统的设备