公开/公告号CN113065004A
专利类型发明专利
公开/公告日2021-07-02
原文格式PDF
申请/专利权人 中国银行股份有限公司;
申请/专利号CN202110482057.X
申请日2021-04-30
分类号G06F16/36(20190101);G06F16/335(20190101);G06F40/279(20200101);G06N20/00(20190101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人张静
地址 100818 北京市西城区复兴门内大街1号
入库时间 2023-06-19 11:42:32
技术领域
本发明涉及人工智能领域,尤其涉及一种基于机器学习的知识图谱构建方法及装置。
背景技术
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点和边组成,在知识图谱里,每个节点表示现实世界中存在的实体,每条边为实体与实体之间的关系。知识图谱让知识不在孤立,让知识间建立关系,更好的满足用户查询的需求。
但是,知识图谱的构建过程通常比较繁琐,尤其是在获取用于构建知识图谱的元素时,通常需要人工干预,非常的耗时耗力,这就导致知识图谱的构建效率低。
发明内容
有鉴于此,本发明实施例提供了一种基于机器学习的知识图谱构建方法及装置,实现了自动化的从数据中抽取出构建知识图谱所需的元素,这样大大提高了知识图谱构建的效率。
本发明实施例公开了一种基于机器学习的知识图谱构建方法,包括:
获取待处理的数据;
将所述待处理的数据输入到预先训练的实体抽取模型中,得到待处理的数据对应的第一实体;所述实体抽取模型具有从数据中识别实体的能力,且识别到的实体的特征接近标准实体的特征;
将待处理的数据以及抽取到的第一实体输入到预先训练的属性抽取模型中,得到所述待处理数据中各个第一实体的属性信息;所述属性抽取模型具有从数据中识别实体的属性的能力,且识别到的属性的特征接近标准属性的特征;
将待处理的数据以及抽取到的第一实体输入到预先训练的关系抽取模型中,得到所述待处理数据中各个第一实体之间的关系;所述关系抽取模型具有从数据中识别实体之间关系的能力,且识别到的实体之间的关系的特征接近标准实体之间的关系的特征;
根据抽取到的第一实体、属性信息和第一实体之间的关系构建知识图谱。
可选的,所述实体抽取模型的训练过程包括:
从结构化数据或者非结构化数据中获取源数据,并从所述源数据中抽取出第二实体;以所述源数据作为训练样本,以从训练样本中抽取到的实体趋近于所述第二实体为目的,对所述待训练的实体抽取模型进行训练。
可选的,实体属性抽取模型的训练过程包括:
从结构化或者非结构化数据中获取源数据,从所述源数据中抽取出第三实体以及第三实体的属性;
以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体的属性趋近于所述第三实体的属性为目的,对所述待训练的属性抽取模型进行训练。
可选的,所述关系抽取模型的训练过程包括:
从结构化或者非结构化数据中获取源数据,并从所述源数据中抽取出第四实体以及第四实体之间的关系;
以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体之间的关系趋近于所述第四实体之间的关系为目的,对所述待训练的关系抽取模型进行训练。
可选的,还包括:
对所述源数据进行清洗,去除所述源数据中预设的无意义的词。
本发明实施例公开了一种基于机器学习的知识图谱构建装置,包括:
获取单元,用于获取待处理的数据;
实体识别单元,用于将所述待处理的数据输入到预先训练的实体抽取模型中,得到待处理的数据对应的第一实体;所述实体抽取模型具有从数据中识别实体的能力,且识别到的实体的特征接近标准的实体的特征;
属性识别单元,用于将待处理的数据以及抽取到的第一实体输入到预先训练的属性抽取模型中,得到所述待处理数据中各个第一实体的属性信息;所述属性抽取模型具有从数据中识别实体的属性的能力,且识别到的属性的特征接近标准的属性的特征;
关系识别单元,用于将待处理的数据以及抽取到的第一实体输入到预先训练的关系抽取模型中,得到所述待处理数据中各个第一实体之间的关系;所述关系抽取模型具有从数据中识别实体之间关系的能力,且识别到的实体之间的关系的特征接近标准的实体之间的关系的特征;
知识图谱构建单元,用于根据抽取到的第一实体、属性信息和第一实体之间的关系构建知识图谱。
可选的,还包括:
实体抽取模型训练单元,用于:
从结构化数据或者非结构化数据中获取源数据,并从所述源数据中抽取出第二实体;
以所述源数据作为训练样本,以从训练样本中抽取到的实体趋近于所述第二实体为目的,对所述待训练的实体抽取模型进行训练。
可选的,还包括:
实体属性抽取模型训练装置,用于
从结构化或者非结构化数据中获取源数据,从所述源数据中抽取出第三实体以及第三实体的属性;
以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体的属性趋近于所述第三实体的属性为目的,对所述待训练的属性抽取模型进行训练。
可选的,还包括:
关系抽取模型训练单元,用于
从结构化或者非结构化数据中获取源数据,并从所述源数据中抽取出第四实体以及第四实体之间的关系;
以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体之间的关系趋近于所述第四实体之间的关系为目的,对所述待训练的关系抽取模型进行训练。
本发明实施例公开了一种电子设备,包括:
存储器和处理器;
所述存储器用于存储程序,所述处理器用于执行所述存储器中的程序执行如下的步骤:
获取待处理的数据;
将所述待处理的数据输入到预先训练的实体抽取模型中,得到待处理的数据对应的第一实体;所述实体抽取模型具有从数据中识别实体的能力,且识别到的实体的特征接近标准的实体的特征;
将待处理的数据以及抽取到的第一实体输入到预先训练的属性抽取模型中,得到所述待处理数据中各个第一实体的属性信息;所述属性抽取模型具有从数据中识别实体的属性的能力,且识别到的属性的特征接近标准的属性的特征;
将待处理的数据以及抽取到的第一实体输入到预先训练的关系抽取模型中,得到所述待处理数据中各个第一实体之间的关系;所述关系抽取模型具有从数据中识别实体之间关系的能力,且识别到的实体之间的关系的特征接近标准的实体之间的关系的特征;
根据抽取到的第一实体、属性信息和第一实体之间的关系构建知识图谱。
本发明实施例公开了一种基于机器学习的知识图谱构建方法及装置,该方法包括:通过预先训练的实体抽取模型,从待处理的数据中抽取出第一实体,通过预先训练的属性抽取模型,从待处理的数据中抽取出第一实体的属性,从待处理的数据中抽取出第一实体之间的关系,并根据抽取到的第一实体、第一实体的属性信息和第一实体之间的关系,构建知识图谱。由此,可以自动化的从数据中抽取出构建知识图谱所需的元素,这样大大提高了知识图谱构建的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供了一种基于机器学习的知识图谱构建方法的流程示意图;
图2示出了本发明实施例提供的一种训练实体抽取模型的流程示意图;
图3示出了本发明实施例提供的一种训练实体属性抽取模型的流程示意图;
图4示出了本发明实施例提供的一种训练关系抽取模型的流程示意图;
图5示出了本发明实施例提供的一种基于机器学习的知识图谱构建装置的结构示意图;
图6示出了本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,示出了本发明实施例提供了一种基于机器学习的知识图谱构建方法的流程示意图,在本实施例中,该方法包括:
S101:获取待处理的数据;
本实施例中,待处理的数据可以是从结构化数据或者非结构化数据中获取的任意的数据。
其中,直接从结构化或者非结构化数据中获取到的数据中可能会包含很多无意义的信息,这些信息不属于实体、属性以及实体之间的关系,例如:停用词、语气词等。
为了消除无意义的词对信息提取的影响,可以预先对待处理的数据进行数据清洗,去除停用词等无意义的词。
S102:将所述待处理的数据输入到预先训练的实体抽取模型中,得到待处理数据对应的第一实体;
其中,所述实体抽取模型具有从数据中识别实体的能力,且识别到的实体的特征接近于标准实体的特征;
其中,标准实体的特征是在对实体抽取模型进行训练时,从训练样本中抽取到的实体的特征。
本实施例中,实体抽取模型可以是任何一种能够用于机器学习的机器学习模型,例如神经网络模型等。
本实施例中,实体抽取模型可以是通过训练样本进行训练后得到的,其中,以从结构化数据或者非结构化数据中获取的源数据为训练样本,以识别到的实体趋近于标准实体为目的对实体抽取模型进行训练,其中,标准实体可以是专家或者通过其它方法从源数据中抽取出来的实体。
S103:将待处理的数据以及抽取到的第一实体输入到预先训练的属性抽取模型中,得到所述待处理数据中各个第一实体的属性信息;
其中,所述属性抽取模型具有从数据中识别实体的属性的能力,且识别到的属性的特征接近标准属性的特征;
其中,标准属性的特征是在对实体抽取模型进行训练时,从训练样本中抽取到的实体属性的特征。
本实施例中,属性抽取模型可以是任意一种能够进行机器学习的机器学习模型,例如卷积神经网络模型、深度卷积神经网络模型等。
本实施例中,实体抽取模型可以是通过训练样本进行训练后得到的,其中,以从结构化数据或者非结构化数据中获取的源数据和从源数据中抽取到的实体作为训练样本,以识别到的实体的属性趋近于标准属性为目的对属性抽取模型进行训练,其中标准属性可以是通过其它方法,或者专家干预的方法从源数据中抽取到的各个实体的属性。
S104:将待处理的数据以及抽取到的第一实体输入到预先训练的关系抽取模型中,得到所述待处理数据中各个第一实体之间的关系;
其中,所述关系抽取模型具有从数据中识别实体之间关系的能力,且识别到的实体之间的关系的特征接近标准实体之间的关系的特征;
其中,标准实体之间的关系特征是在对实体抽取模型进行训练时,从训练样本中抽取到的实体属性的特征。
本实施例中,关系抽取模型可以是是任何一种能够用于进行机器学习的模型,例如卷积神经网络模型、深度卷积神经网络模型。
本实施例中,实体抽取模型可以是通过训练样本进行训练后得到的,其中,以从结构化或者非结构化数据中获取的源数据和从源数据中抽取到的实体作为训练样本,以识别到的实体之间的关系趋近于标准实体关系为目的对关系抽取模型进行训练,其中,标准实体关系可以是通过专家干预的方法或者通过其它方法从源数据中抽取到的各个实体之间的关系。
S105:根据抽取到的第一实体、第一实体的属性信息和第一实体之间的关系,构建知识图谱;
本实施例中,从待处理的数据中抽取到的第一实体的属性信息和第一实体之间的关系为构建知识图谱的三个元素,将第一实体作为知识图谱的节点,将第一实体之间的关系作为节点和节点之间的边,第一实体的属性信息为节点的描述信息。
其中,根据抽取到的第一实体、第一实体的属性信息和第一实体之间的关系,构建知识图谱的方法包括多种,本实施例中不进行限定。
本实施例中,通过预先训练的实体抽取模型,从待处理的数据中抽取出第一实体,通过预先训练的属性抽取模型,从待处理的数据中抽取出第一实体的属性,从待处理的数据中抽取出第一实体之间的关系,并根据抽取到的第一实体、第一实体的属性信息和第一实体之间的关系,构建知识图谱。由此,可以自动化的从数据中抽取出构建知识图谱所需的元素,这样大大提高了知识图谱构建的效率。
参考图2,示出了本发明实施例提供的一种训练实体抽取模型的流程示意图,在本实施例中,该方法包括:
S201:从结构化数据或者非结构化数据中获取源数据,并从所述源数据中抽取出第二实体;
本实施例中,从结构化数据或者非结构化数据中获取的源数据,可能包含有一些无意义的词,为了不影响数据的处理,可以先对从源数据进行数据清洗,剔除源数据中无意义的词,其中,无意义的信息不属于实体、属性以及实体之间的关系中的任意一种,例如:停用词、语气词等。
S202:以所述源数据作为训练样本,以从训练样本中抽取到的实体趋近于所述第二实体为目的,对所述待训练的实体抽取模型进行训练。
本实施例中,源数据输入到实体抽取模型后,实体抽取模型可以从源数据中抽取出实体,将抽取到的实体和作为输出的第二实体进行比较,以抽取的实体趋近于第二实体为目的,对实体抽取模型不断进行训练。
或者可以理解为将所述源数据作为输入,将从所述源数据中抽取到的第二实体作为输出,对待训练的实体抽取模型进行训练。
本实施例中,通过训练得到的实体抽取模型能够实现自动化的从源数据中抽取实体。
参考图3,示出了本发明实施例提供的一种训练实体属性抽取模型的流程示意图,在本实施例中,该方法包括:
S301:从结构化或者非结构化数据中获取源数据,从所述源数据中抽取出第三实体以及第三实体的属性;
本实施例中,从结构化数据或者非结构化数据中获取的源数据,可能包含有一些无意义的词,为了不影响数据的处理,可以先对从源数据进行数据清洗,剔除源数据中无意义的词,其中,无意义的信息不属于实体、属性以及实体之间的关系中的任意一种,例如:停用词、语气词等。
其中,可以通过多种方法从源数据中抽取出实体以及实体的属性,本实施例中不进行限定。
S302:以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体的属性趋近于所述第三实体的属性为目的,对所述待训练的属性抽取模型进行训练;
本实施例中,将源数据和从源数据中抽取到的实体输入到待训练的属性抽取模型中,从源数据中抽取实体的属性,以从源数据中抽取到的实体的属性趋近于第三实体为目的,对实体抽取模型不断进行训练。
或者可以理解为将所述源数据以及抽取出的第三实体作为输入、以所述第三实体的属性作为输出,对待训练的实体属性抽取模型进行训练。
本实施例中,通过训练得到的属性抽取模型能够实现自动化的从源数据中抽取实体的属性。
参考图4,示出了本发明实施例提供的一种训练关系抽取模型的流程示意图,在本实施例中,该方法包括:
S401:从结构化或者非结构化数据中获取源数据,并从所述源数据中抽取出第四实体以及第四实体之间的关系;
本实施例中,从结构化数据或者非结构化数据中获取的源数据,可能包含有一些无意义的词,为了不影响数据的处理,可以先对从源数据进行数据清洗,剔除源数据中无意义的词,其中,无意义的信息不属于实体、属性以及实体之间的关系中的任意一种,例如:停用词、语气词等。
其中,可以通过多种方法从源数据中抽取出第四实体以及第四实体之间的关系,本实施例中不进行限定。
S402:以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体之间的关系趋近于所述第四实体之间的关系为目的,对所述待训练的关系抽取模型进行训练。
本实施例中,将源数据和从源数据中抽取到的第四实体输入到待训练的属性抽取模型中,从源数据中抽取第四实体之间的关系,以从源数据中抽取到的实体的属性趋近于第四实体之间的关系为目的,对实体抽取模型不断进行训练。
或者可以理解为,将所述源数据以及抽取出的第四实体作为输入、以所述第四实体之间的关系作为输出,对待训练的实体属性抽取模型进行训练。
本实施例中,通过训练得到的关系抽取模型能够实现自动化的从源数据中抽取实体之间的关系。
参考图5,示出了本发明实施例提供的一种基于机器学习的知识图谱构建装置的结构示意图,在本实施例中,该装置包括:
获取单元501,用于获取待处理的数据;
实体识别单元502,用于将所述待处理的数据输入到预先训练的实体抽取模型中,得到待处理的数据对应的第一实体;所述实体抽取模型具有从数据中识别实体的能力,且识别到的实体的特征接近标准的实体的特征;
属性识别单元503,用于将待处理的数据以及抽取到的第一实体输入到预先训练的属性抽取模型中,得到所述待处理数据中各个第一实体的属性信息;所述属性抽取模型具有从数据中识别实体的属性的能力,且识别到的属性的特征接近标准的属性的特征;
关系识别单元504,用于将待处理的数据以及抽取到的第一实体输入到预先训练的关系抽取模型中,得到所述待处理数据中各个第一实体之间的关系;所述关系抽取模型具有从数据中识别实体之间关系的能力,且识别到的实体之间的关系的特征接近标准的实体之间的关系的特征;
知识图谱构建单元505,用于根据抽取到的第一实体、属性信息和第一实体之间的关系构建知识图谱。
可选地,还包括:
实体抽取模型训练单元,用于:
从结构化数据或者非结构化数据中获取源数据,并从所述源数据中抽取出第二实体;
以所述源数据作为训练样本,以从训练样本中抽取到的实体趋近于所述第二实体为目的,对所述待训练的实体抽取模型进行训练。
可选地,还包括:
实体属性抽取模型训练装置,用于
从结构化或者非结构化数据中获取源数据,从所述源数据中抽取出第三实体以及第三实体的属性;
以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体的属性趋近于所述第三实体的属性为目的,对所述待训练的属性抽取模型进行训练。
可选地,还包括:
关系抽取模型训练单元,用于
从结构化或者非结构化数据中获取源数据,并从所述源数据中抽取出第四实体以及第四实体之间的关系;
以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体之间的关系趋近于所述第四实体之间的关系为目的,对所述待训练的关系抽取模型进行训练。
本实施例的装置,通过预先训练的实体抽取模型,从待处理的数据中抽取出第一实体,通过预先训练的属性抽取模型,从待处理的数据中抽取出第一实体的属性,从待处理的数据中抽取出第一实体之间的关系,并根据抽取到的第一实体、第一实体的属性信息和第一实体之间的关系,构建知识图谱。由此,可以自动化的从数据中抽取出构建知识图谱所需的元素,这样大大提高了知识图谱构建的效率。
参考图6,示出了本发明实施例提供的一种电子设备的结构示意图,在本实施例中,该电子设备包括:
存储器601和处理器602;
所述存储器用于存储程序,所述处理器用于执行所述存储器中的程序执行如下的步骤:
获取待处理的数据;
将所述待处理的数据输入到预先训练的实体抽取模型中,得到待处理的数据对应的第一实体;所述实体抽取模型具有从数据中识别实体的能力,且识别到的实体的特征接近标准的实体的特征;
将待处理的数据以及抽取到的第一实体输入到预先训练的属性抽取模型中,得到所述待处理数据中各个第一实体的属性信息;所述属性抽取模型具有从数据中识别实体的属性的能力,且识别到的属性的特征接近标准的属性的特征;
将待处理的数据以及抽取到的第一实体输入到预先训练的关系抽取模型中,得到所述待处理数据中各个第一实体之间的关系;所述关系抽取模型具有从数据中识别实体之间关系的能力,且识别到的实体之间的关系的特征接近标准的实体之间的关系的特征;
根据抽取到的第一实体、属性信息和第一实体之间的关系构建知识图谱。
可选的,所述实体抽取模型的训练过程包括:
从结构化数据或者非结构化数据中获取源数据,并从所述源数据中抽取出第二实体;以所述源数据作为训练样本,以从训练样本中抽取到的实体趋近于所述第二实体为目的,对所述待训练的实体抽取模型进行训练。
可选的,实体属性抽取模型的训练过程包括:
从结构化或者非结构化数据中获取源数据,从所述源数据中抽取出第三实体以及第三实体的属性;
以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体的属性趋近于所述第三实体的属性为目的,对所述待训练的属性抽取模型进行训练。
可选的,所述关系抽取模型的训练过程包括:
从结构化或者非结构化数据中获取源数据,并从所述源数据中抽取出第四实体以及第四实体之间的关系;
以所述源数据和从所述源数据中抽取到的实体作为训练样本,以从训练样本中抽取到的实体之间的关系趋近于所述第四实体之间的关系为目的,对所述待训练的关系抽取模型进行训练。
可选的,还包括:
对所述源数据进行清洗,去除所述源数据中预设的无意义的词。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
机译: 一种基于知识图谱的多用户游戏服务提供方法及其装置
机译: 基于机器学习的网络模型构建方法及装置
机译: 基于机器学习的网络模型的构建方法和装置