首页> 中国专利> 一种工程机械行业知识图谱构建方法及系统

一种工程机械行业知识图谱构建方法及系统

摘要

本发明涉及一种工程机械行业知识图谱构建方法及系统,属于工程机械技术领域。先根据工程机械行业内的通用知识数据库建立初始知识图谱。然后对除通用知识数据库所包含知识数据外的工程机械行业的知识数据进行知识抽取,得到若干个三元组,三元组包括第一三元组和第二三元组。再对所有第一三元组进行聚类,得到多个类簇,并逐类簇将所有类簇内的第一三元组添加到初始知识图谱,得到中间知识图谱。最后基于第二三元组对中间知识图谱进行补全,得到工程机械行业知识图谱,进而通过聚类的方式能够将相似的第一三元组分成一类,借助于逐类簇添加的方式能够提高构建速率,从而快速构建工程机械行业知识图谱。

著录项

  • 公开/公告号CN113821647A

    专利类型发明专利

  • 公开/公告日2021-12-21

    原文格式PDF

  • 申请/专利权人 山东捷瑞数字科技股份有限公司;

    申请/专利号CN202111381681.7

  • 申请日2021-11-22

  • 分类号G06F16/36(20190101);G06F16/335(20190101);G06F16/35(20190101);

  • 代理机构11569 北京高沃律师事务所;

  • 代理人杜阳阳

  • 地址 264003 山东省烟台市莱山区同和路26号

  • 入库时间 2023-06-19 13:46:35

说明书

技术领域

本发明涉及工程机械技术领域,特别是涉及工程机械行业知识图谱构建。

背景技术

就工程机械行业而言,行业品牌众多、装备种类众多,且行业知识种类也多种多样,面对众多种类的实体时如何快速建立一个可靠的工程机械行业知识图谱显得尤为重要。随着行业内外新闻数据的更新,小规模的知识图谱难以承担整个行业知识的内容,由于知识数据量庞大,简单的自动构建或半自动构建的方式难以满足行业知识图谱的构建需求,因此亟需一种快速建立工程机械行业知识图谱的方法及系统。

发明内容

本发明的目的是提供一种工程机械行业知识图谱构建方法及系统,能够快速建立工程机械行业知识图谱,构建速度快,以解决无法快速建立得到一个可靠的工程机械行业知识图谱的问题。

为实现上述目的,本发明提供了如下方案:

第一方面,本发明提供一种工程机械行业知识图谱构建方法,所述构建方法包括:

根据工程机械行业内的通用知识数据库建立初始知识图谱;

对除所述通用知识数据库所包含知识数据外的工程机械行业的知识数据进行知识抽取,得到若干个三元组;所述三元组包括第一三元组和第二三元组;所述第一三元组为包括实体关系的三元组;所述第二三元组为不包括实体关系的三元组;

对所有所述第一三元组进行聚类,得到多个类簇;

逐类簇将所有所述类簇内的第一三元组添加到所述初始知识图谱,得到中间知识图谱;

基于所述第二三元组对所述中间知识图谱进行补全,得到工程机械行业知识图谱。

第二方面,本发明提供一种工程机械行业知识图谱构建系统,所述构建系统包括:

构建模块,用于根据工程机械行业内的通用知识数据库建立初始知识图谱;

知识抽取模块,用于对除所述通用知识数据库所包含知识数据外的工程机械行业的知识数据进行知识抽取,得到若干个三元组;所述三元组包括第一三元组和第二三元组;所述第一三元组为包括实体关系的三元组;所述第二三元组为不包括实体关系的三元组;

聚类模块,用于对所有所述第一三元组进行聚类,得到多个类簇;

添加模块,用于逐类簇将所有所述类簇内的第一三元组添加到所述初始知识图谱,得到中间知识图谱;

补全模块,用于基于所述第二三元组对所述中间知识图谱进行补全,得到工程机械行业知识图谱。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明用于提供一种工程机械行业知识图谱构建方法及系统,先根据工程机械行业内的通用知识数据库建立初始知识图谱。然后对除通用知识数据库所包含知识数据外的工程机械行业的知识数据进行知识抽取,得到若干个三元组,三元组包括第一三元组和第二三元组。再对所有第一三元组进行聚类,得到多个类簇,并逐类簇将所有类簇内的第一三元组添加到初始知识图谱,得到中间知识图谱。最后基于第二三元组对中间知识图谱进行补全,得到工程机械行业知识图谱,进而通过聚类的方式能够将相似的第一三元组分成一类,借助于逐类簇添加的方式能够提高构建速率,从而可以在不降低工程机械行业知识数据量的情况下,大大提高工程机械行业知识图谱的构建速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1所提供的构建方法的方法流程图;

图2为本发明实施例2所提供的构建系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种工程机械行业知识图谱构建方法及系统,能够快速建立工程机械行业知识图谱,构建速度快。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1:

知识图谱为用于揭示实体之间关系的语义网络,知识图谱中的节点代表物理世界的各个实体,而实体间的各种语义关系则构成语义网络中的边。行业知识图谱注重概念之间的体系结构,因此在构建时通常会使用自顶向下和自底向上相结合的方式。由于行业知识图谱的专业性要求更高,通常需要使用特定的行业数据来源,因此,行业知识图谱在构建时,通常以结构化数据为起点,扩展到非结构化数据。为了快速建立工程机械行业知识图谱,本实施例用于提供一种工程机械行业知识图谱构建方法,如图1所示,所述构建方法包括:

S1:根据工程机械行业内的通用知识数据库建立初始知识图谱;

本实施例中,通用知识数据库是指工程机械行业内所已有的行业相关知识数据库,该行业相关知识数据库是由工程机械行业内已知的行业信息所构成的数据库,该数据库中的内容为行业内普遍了解的内容。通用知识数据库内的每一知识数据均为结构化数据,并以三元组的形式存储在通用知识数据库中。本实施例所述三元组即为由实体、实体关系和实体属性组成的三元组,实体关系为两个实体之间的关系,其反映两个实体之间的外部联系,实体属性为两个实体各自对应的属性,其体现实体的内部特征。

S1可以包括:根据工程机械行业内的通用知识数据库,采用自顶向下的构建方式建立初始知识图谱。具体的,先确定初始知识图谱的数据模型,再将通用知识数据库中的所有知识数据填充到数据模型中,最终形成初始知识图谱。数据模型的形成过程为:先通过工程机械的应用领域进行划分,再根据工程机械每一具体领域中的具体品牌进行划分,根据工程机械每一具体领域中的具体场景进行划分,并以此为依据向下进行逐步划分,得到数据模型。

S2:对除所述通用知识数据库所包含知识数据外的工程机械行业的知识数据进行知识抽取,得到若干个三元组;所述三元组包括第一三元组和第二三元组;所述第一三元组为包括实体关系的三元组;所述第二三元组为不包括实体关系的三元组;

除通用知识数据库所包含知识数据外的工程机械行业的其他知识数据包括来自专用知识数据库、HTML网页新闻、小程序、公众号和移动APP的知识数据,知识数据的数据来源多样。需要说明的是,专用知识数据库即为构建者自身知晓的数据库,但该数据库并不为整个行业所公知,与S1中的通用知识数据库相对立,专用知识数据库通常为关系型数据库。S2中的其他知识数据可分为三种数据类型,分别为结构化数据、半结构化数据和非结构化数据。结构化数据包括来自专用知识数据库的知识数据,半结构化数据包括来自HTML网页新闻的知识数据,非结构化数据包括来自小程序、公众号和移动APP等不具有具体结构的知识数据。

在知识抽取的过程中,由于知识数据可分为结构化数据、半结构化数据和非结构化数据,本实施例对于不同的数据类型,采用不同的方法进行知识抽取。S2可以包括:

(1)确定除通用知识数据库所包含知识数据外的工程机械行业的知识数据中每一知识数据的数据类型;

(2)当数据类型为结构化数据时,则基于D2R技术对知识数据进行知识抽取,得到三元组;

具体的,针对结构化数据,利用D2R技术把知识数据转换为RDF数据,RDF数据即为所得到的三元组。

(3)当数据类型为半结构化数据时,则结合包装器和D2R技术对知识数据进行知识抽取,得到三元组;

具体的,针对半结构化数据,先采用包装器的方式将半结构化数据从HTML网页中抽取出来,并将抽取出来的半结构化数据还原成结构化数据,然后利用D2R技术把知识数据转换为RDF数据,RDF数据即为所得到的三元组。

(4)当数据类型为非结构化数据时,则对知识数据分别进行实体、实体关系和实体属性的抽取,得到三元组。

具体的,对于非结构化数据,比如文本数据,待抽取内容包括实体、实体关系和实体属性。对实体进行抽取即为对非结构化数据中包括的概念、人物、组织、地名、时间等进行抽取。定义实体关系反映实体的外部联系,实体属性体现实体的内部特征,通过实体关系、实体属性提取的现有手段将实体关系、实体属性提取出来。将提取到的实体、实体关系、实体属性进行组合,即可得到三元组。

需要说明的是,上述三种抽取过程最终均形成三元组,但也可能因为数据本身特点出现所得到的三元组缺少实体关系的情况,进而S2所得到的三元组可分为第一三元组和第二三元组,第一三元组为包括实体关系的三元组,第二三元组为不包括实体关系的三元组。

S3:对所有所述第一三元组进行聚类,得到多个类簇;

根据S2得到的所有第一三元组,通过聚类的方式得到能够在有效的聚类范围内达成一定聚类关系的多个类簇,S3可以包括:

(1)根据聚类中心计算公式确定第θ个聚类中心;θ的初始值为1;

聚类中心计算公式为:

式(1)中,q

(2)利用相似度计算公式计算第θ个聚类中心的语境相似度;

(3)对于每一个未聚类三元组,判断未聚类三元组中的实体关系与第θ个聚类中心中的实体关系是否相同;若是,则利用相似度计算公式计算未聚类三元组的语境相似度,并基于未聚类三元组的语境相似度和第θ个聚类中心的语境相似度确定未聚类三元组是否属于第θ个类簇;若否,则未聚类三元组不属于第θ个类簇。这样,得到第θ个类簇。

具体来说,计算每一未聚类三元组的语境相似度与计算第θ个聚类中心的语境相似度所用方法相同,均是通过对比第θ个聚类中心或未聚类三元组的前后文语境来计算的,包括:基于实体关系确定第θ个聚类中心或未聚类三元组的前文语境和后文语境,并利用相似度计算公式,基于第θ个聚类中心或未聚类三元组的前文语境和后文语境计算第θ个聚类中心或未聚类三元组的语境相似度。

具体的,以未聚类三元组或第θ个聚类中心作为中心点,必然存在有0-2个第一三元组与其直接连接,可以认为与未聚类三元组或第θ个聚类中心中的第一个实体直接连接的第一三元组为前文语境,与未聚类三元组或第θ个聚类中心中的第二个实体直接连接的第一三元组为后文语境。

假设未聚类三元组或第θ个聚类中心的前文语境表示为KG

则相似度计算公式为:

式(2)中,α为第一权重;

式(3)中,β为第二权重;

式(4)中,S为语境相似度。

其中,基于未聚类三元组的语境相似度和第θ个聚类中心的语境相似度确定未聚类三元组是否属于第θ个类簇包括:计算未聚类三元组的语境相似度与第θ个聚类中心的语境相似度之间的浮动值,浮动值是指未聚类三元组的语境相似度与第θ个聚类中心的语境相似度的差值的绝对值与第θ个聚类中心的语境相似度的比值。若浮动值在预设范围内,则该未聚类三元组属于第θ个类簇;预设范围可为5%-10%。

(4)判断剩余未聚类三元组的个数是否大于1,得到第一判断结果;

(5)若第一判断结果为是,则令θ=θ+1,返回“根据聚类中心计算公式确定第θ个聚类中心”的步骤;

(6)若第一判断结果为否,则判断剩余未聚类三元组的个数是否等于1;若是,则剩余未聚类三元组组成第θ+1个类簇,得到θ+1个类簇;若否,则得到θ个类簇。

需要说明的是,由于并非每一个未聚类三元组或第θ个聚类中心均同时具备前后文语境,故本实施例的方法考虑到同时具备前后文语境的未聚类三元组或第θ个聚类中心的语境相似度计算,仅具备部分语境的未聚类三元组或第θ个聚类中心的语境相似度计算,以及同时不具备前后文语境的未聚类三元组和第θ个聚类中心的语境相似度计算,为了同时兼容上述三种情形下的语境相似度计算,在进行语境相似度计算时通过权重α和β加以约束并得到最终的语境相似度。

本实施例在聚类时,将具有相同实体关系作为两个三元组可以分为一类的判断条件,若两个三元组的实体关系不同则认为不具有聚类的约束属性,二者不属于一类。若相同,则分别计算两个三元组的语境相似度,以根据语境相似度进行聚类。

S4:逐类簇将所有所述类簇内的第一三元组添加到所述初始知识图谱,得到中间知识图谱;

S4可以包括:

(1)随机选取一个类簇;

(2)按照类簇中的第一三元组与类簇的聚类中心的相似度从大到小的顺序,将该类簇中的所有第一三元组依次添加到初始知识图谱中,得到添加后知识图谱;添加的过程即为在初始知识图谱中寻找与第一三元组中的某一内容(某一内容包括实体和实体关系)相同的内容,进而基于该相同内容确定添加位置,将该第一三元组的其他内容添加到所确定的添加位置上,以完善初始知识图谱。即根据同时在初始知识图谱以及聚类所得到的类簇中出现的实体或者实体关系确定添加位置,基于相似度对初始知识图谱进行逐步完善,逐步完善的过程就是根据相似度大小,优先对相似度大的进行完善,并以此累加循环,直到该类簇中的所有第一三元组全部添加到初始知识图谱中。类簇中的第一三元组与类簇的聚类中心的浮动值越大,则相似度越小。

(3)判断所有类簇是否均已被添加;

(4)若否,则在未被添加的类簇中随机选取一个类簇,以添加后知识图谱作为初始知识图谱,返回“按照类簇中的第一三元组与类簇的聚类中心的相似度从大到小的顺序,将类簇中的所有第一三元组依次添加到初始知识图谱中”的步骤,直至所有类簇均已被添加;

(5)若是,则以添加后知识图谱作为中间知识图谱。

S5:基于所述第二三元组对所述中间知识图谱进行补全,得到工程机械行业知识图谱。

S5可以包括:对于每一第二三元组,确定中间知识图谱中与第二三元组中的第一实体相同的第二实体,并将第二三元组中第一实体的实体属性赋予第二实体,对中间知识图谱进行补全,得到工程机械行业知识图谱。

作为一种可选的实施方式,在基于第二三元组对中间知识图谱进行补全,得到工程机械行业知识图谱之后,本实施例的构建方法还包括:基于其他行业的知识数据对工程机械行业知识图谱进行补充,得到工程机械行业知识图谱成品;具体包括:

(1)选取工程机械行业知识图谱中不完整的三元组作为关键词;

具体的,搜索此时存储工程机械行业知识图谱的数据库中每一三元组的值,若该三元组的某些键值为空,即该三元组即为不完整的三元组。

(2)对于每一关键词,基于关键词在其他行业的知识数据中进行二分查找,得到与关键词相关的重复关键词,并将重复程度最高的重复关键词对应的三元组添加到工程机械行业知识图谱,得到工程机械行业知识图谱成品。

具体的,根据重复关键词与关键词在实体、实体关系、实体属性上的重复数量确定重复关键词的重复程度,重复数量越多,重复程度越大。利用该重复程度最高的重复关键词对应的三元组对不完整的三元组进行补充,得到最终的工程机械行业知识图谱成品。

本实施例通过S3所述聚类方式能够快速实现聚类,并通过聚类之后得到多个类簇进行进一步的构建,使整个工程机械知识图谱的构建过程更加结构化,同时提高了构建速率,进而本实施例所提供的构建方法可以在不降低工程机械行业知识覆盖率的情况下,大大提高在构建大规模多源工程机械行业知识图谱的构建速率。

实施例2:

本实施例用于提供一种工程机械行业知识图谱构建系统,如图2所示,所述构建系统包括:

构建模块M1,用于根据工程机械行业内的通用知识数据库建立初始知识图谱;

知识抽取模块M2,用于对除所述通用知识数据库所包含知识数据外的工程机械行业的知识数据进行知识抽取,得到若干个三元组;所述三元组包括第一三元组和第二三元组;所述第一三元组为包括实体关系的三元组;所述第二三元组为不包括实体关系的三元组;

聚类模块M3,用于对所有所述第一三元组进行聚类,得到多个类簇;

添加模块M4,用于逐类簇将所有所述类簇内的第一三元组添加到所述初始知识图谱,得到中间知识图谱;

补全模块M5,用于基于所述第二三元组对所述中间知识图谱进行补全,得到工程机械行业知识图谱。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号