公开/公告号CN112395427A
专利类型发明专利
公开/公告日2021-02-23
原文格式PDF
申请/专利权人 北京中电普华信息技术有限公司;
申请/专利号CN202011387180.5
申请日2020-12-01
分类号G06F16/36(20190101);G06F40/279(20200101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人刘乐
地址 100000 北京市海淀区清河小营东路15号科研楼710室
入库时间 2023-06-19 10:00:31
技术领域
本发明涉及互联网技术领域,更具体的说,涉及一种技术标准知识图谱的构建方法及系统。
背景技术
知识图谱是一种基于图的数据结构,本质上是语义网络。知识图谱旨在描述真实世界中存在的各种实体或概念及实体之间的关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。随着计算机科学的发展,人工智能领域的兴起,知识图谱的应用也越发广泛,如搜索领域的Google搜索、百度搜索等。
目前,技术标准知识图谱的构建可以帮助用户提高对技术标准信息搜索的速度,以及知识获取的精准度,因此成为知识图谱构建的一个重要研究方向。传统的技术标准知识图谱的构建,通常是将文档数据整体直接入库,文档数据的精细程度不高,这样,当用户需要对文档数据中的知识点进行提取时,通常还需要遍历整个文档数据。
发明内容
有鉴于此,本发明公开一种技术标准知识图谱的构建方法及系统,以实现用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据。
一种技术标准知识图谱的构建方法,包括:
基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
可选的,所述预设拆分标准包括:文档来源、文档名称、文档内容和三元组。
可选的,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
可选的,所述技术标准文档的格式包括:范围、规范性引用文件、总则和正文。
可选的,所述技术标准知识点文档包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
一种技术标准知识图谱的构建系统,包括:
拆解单元,用于基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
实体识别单元,用于对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
句子切分单元,用于对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
图谱构建单元,用于基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
可选的,所述预设拆分标准包括:文档来源、文档名称、文档内容和三元组。
可选的,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
可选的,所述技术标准文档的格式包括:范围、规范性引用文件、总则和正文。
可选的,所述技术标准知识点文档包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
从上述的技术方案可知,本发明公开了一种技术标准知识图谱的构建方法及系统,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体,并且,对每个技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档,基于各个目标实体以及各个技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。由于本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,因此实现了对技术标准文档中知识点的提取,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得在基于实体标注得到的各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到的技术标准知识图谱,可以精细描述技术标准文档中各个实体的关联关系,实现实体的链接,并能够提供精准搜索,从而用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据,从而解决了现有技术中的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种技术标准知识图谱的构建方法流程图;
图2为本发明实施例公开的一种技术标准知识图谱的构建系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种技术标准知识图谱的构建方法及系统,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体,并且,对每个技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档,基于各个目标实体以及各个技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。由于本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,因此实现了对技术标准文档中知识点的提取,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得在基于实体标注得到的各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到的技术标准知识图谱,可以精细描述技术标准文档中各个实体的关联关系,实现实体的链接,并能够提供精准搜索,从而用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据,从而解决了现有技术中的问题。
参见图1,本发明实施例公开的一种技术标准知识图谱的构建方法流程图,该方法包括:
步骤S101、基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
一般情况下,技术标准文档的格式基本固定,包括:范围、规范性引用文件、总则和正文等。因此,本实施例对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档。
技术标准知识点文档可以包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
技术标准知识点文档中的知识点包括但不限于:涉及产品、过程或服务方面的所有特性;可以量化特性所要求的限值;引用或直接给出的试验方法、作业方法;标准以要求、推荐和陈述等方式给出的规定;名词和术语、符号、代号和缩略语的定义;标准适用范围、规范性引用文件等。
其中,预设拆分标准可以包括:文档来源、文档名称、文档内容和三元组。在实际应用中,预设拆分标准还可以包括:文档号。
以电力行业某技术标准为例,分别对范围、规范性引用文件、总则和正文按照预设拆分标准进行拆解,得到多个技术标准知识点文档的过程如下:
(1)范围-知识点拆解
第1步:拆解规定内容(即文档内容):
拆解结果:Q/GDW**8*—2014标准的范围。
本标准规定了±**kV换流站换流变压器施工及验收的技术要求。
本标准适用于±**kV换流站换流变压器的施工及验收。
拆解说明:“本标准规定了±800kV换流站换流变压器施工及验收的技术要求。
本标准适用于±800kV换流站换流变压器的施工及验收。”是标准中范围的内容。
第2步:拆解规定来源(即文档来源):
拆解结果:标准号:Q/GDW***—2014
中文名称:±**kV换流站换流变压器施工及验收规范
来源条款:1范围
拆解说明:来源是指本规定的出处,因此要包含三个要素“标准号”、“标准名称”、“来源条款”即:该规定来自哪本标准的哪个章节条目。
第3步:拆解规定名称(即文档名称):
拆解结果:±**kV换流站换流变压器施工及验收标准的使用范围。
拆解说明:根据拆解规定的内容,总结提炼拆解规定的名称。
第4步:用三元组形式拆分规定内容拆解知识点。
拆解结果
拆解说明:由于拆解规定内容是针对整体标准的,因此本实施例用三元组的形式拆分规定内容。
(2)规范性引用文件-知识点拆解
第1步:拆解规定内容(即文档内容):
拆解结果:Q/GDW 1220—2014标准的规范性引用文件。
GB/T**高压**子瓷件技术条件。
GB/T**交流电压高压**的绝缘套管。
第2步:拆解规定来源(即文档来源):
拆解结果:标准号:Q/GDW**—2014
中文名称:±**kV换流站换流变压器施工及验收规范
来源条款:2规范性引用文件
拆解说明:来源是指本规定的出处,因此要包含三个要素“标准号”、“标准名称”、“来源条款”即:该规定来自哪本标准的哪个章节条目。
第3步:拆解规定名称(即文档名称):
拆解结果:±**V换流站换流变压器施工及验收规范标准的规范性引用文件。
拆解说明:根据拆解规定的内容,总结提炼拆解规定的名称。
第4步:用三元组形式拆分规定内容拆解知识点。
拆解结果:
(3)总则-知识点拆解
第1步:拆解规定内容(即文档内容):
拆解结果:±**kV换流站换流变压器施工及验收规标准的总则
1为保证±**kV换流站换流变压器(以下简称换流变压器)的施工安装质量,促进工程施工技术水平的进步,确保设备安全运行,制定本标准。
2换流变压器的施工及验收除按本标准的规定执行外,尚应执行现行有关国家、行业标准的规定。
3施工前应编制施工方案。所编制的施工方案应符合本标准和其他相关国家现行标准的规定及产品技术文件的要求。
4施工单位应遵守有关环境保护的法律法规,并应采取有效措施控制施工现场的各种粉尘、废气、废水、废油、固体废弃物、噪声、振动等对周围环境造成的污染和危害。
备注:如果规定原文存在下级嵌套关系如8/9下面仍有a/b/c/d,需对该细则总结归纳一个标题或短句表述,下级内容不需列出,但需要作为知识点单独拆解,见知识点4。
第2步:拆解规定来源(即文档来源):
拆解结果:标准号:Q/GDW**—2014
中文名称:±800kV换流站换流变压器施工及验收规范
来源条款:3总则
拆解说明:来源是指本规定的出处,因此要包含三个要素“标准号”、“标准名称”、“来源条款”即:该规定来自哪本标准的哪个章节条目。
第3步:拆解规定名称(即文档名称):
拆解结果:±800kV换流站换流变压器施工及验收规范的总则。
拆解说明:根据拆解规定的内容,总结提炼拆解规定的名称。
第4步:用三元组形式拆分规定内容拆解知识点。
拆解结果
拆解说明:由于拆解规定内容是针对整体标准的,因此本实施例用三元组的形式拆分规定内容。
(4)正文-知识点拆解
第1步:拆解规定内容(即文档内容):
拆解结果:换流变压器安装前,换流变压器区域应具备下列条件:
a)混凝土基础达到允许安装的强度;
b)基础中心线、标高及表面平整度应符合设计和制造厂要求,无规定时基础中心线偏差不应大于**mm,标高偏差不应大于*mm,表面平整度不应大于*mm;
c)预埋件及预留孔符合设计要求,预埋件应牢固;
d)建筑施工设施应拆除,场地应清理干净;
备注:该规定是接总则,对总则第8条细则进一步拆解。
第2步:拆解规定来源(即文档来源):
拆解结果:标准号:Q/GDW**—2014。
中文名称:±**kV换流站换流变压器施工及验收规范。
来源条款:3.8换流变压器安装前,换流变压器区域应具备下列条件。
拆解说明:来源是指本规定的出处,因此要包含三个要素“标准号”、“标准名称”、“来源条款”即:该规定来自哪本标准的哪个章节条目。
第3步:拆解规定名称(即文档名称):
拆解结果:换流变压器安装前,换流变压器区域应具备条件。
拆解说明:根据拆解规定的内容,总结提炼拆解规定的名称。
第4步:用三元组形式拆分规定内容拆解知识点。
拆解结果
步骤S102、对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
本实施例中的实体指的是:现实世界中的事物,比如人、地名、公司、电话、动物等。
其中,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
约束中心是一个句子的中心词,可以是一个设备、部件、技术参数。例如:变压器检修的环境温度是25摄氏度。其中:环境温度就是约束中心。设置约束中心,为了更好的理解用户对于非结构化文档知识点内容的需求,给出精准解答。
本实施例在对每个技术标准知识点文档进行实体识别时,主要对每个技术标准知识点文档中国的三元组中的实体进行识别。
在实际应用中,可以对每个技术标准知识点文档采用实体识别算法进行实体识别。
实体识别算法是通过算法,结合规则,将一个自然语言句子,可以进行分词、词性标注、实体识别、新词发现等处理,将句子拆分为词,并对不同的词标注其属性。
本实施例中实体识别算法是跟业务相关的,例如,涉及运检、营销领域的词典数据、语了数据、模型在训练、业务分析抽象代码化规则、针对分析结果对算法代码进行定向调优,针对算法分析效果替换算法或者做算法组合模型等处理,从而实现不同电网20多个业务领域知识图谱数据的精准化抽取。
步骤S103、对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
具体的,在实际应用中,对每个技术标准知识点文件按照句号、分号等断句符号,进行句子切分,得到多个技术标准知识点子文档。
需要特别说明的是,步骤S102和步骤S103的执行顺序包括但不限于图1所示实施例,在实际应用中,也可以先执行步骤S103,再执行步骤S102,或者步骤S102和步骤S103两个步骤同时执行,具体依据实际需要而定,本发明在此不做限定。
步骤S104、基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
其中,各个技术标准知识点子文档之间的关联关系包括但不限于因果关系、并列关系等等。
综上可知,本发明公开一种技术标准知识图谱的构建方法,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体,并且,对每个技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档,基于各个目标实体以及各个技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。由于本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,因此实现了对技术标准文档中知识点的提取,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得在基于实体标注得到的各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到的技术标准知识图谱,可以精细描述技术标准文档中各个实体的关联关系,实现实体的链接,并能够提供精准搜索,从而用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据,从而解决了现有技术中的问题。
与上述方法实施例相对应,本发明还公开了一种技术标准知识图谱的构建系统。
参见图2,本发明实施例公开的一种技术标准知识图谱的构建系统的结构示意图,该系统包括:
拆解单元201,用于基于技术标准文档的格式,对所述技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档;
一般情况下,技术标准文档的格式基本固定,包括:范围、规范性引用文件、总则和正文等。因此,本实施例对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档。
技术标准知识点文档可以包括:范围知识点文档、规范性引用文件知识点文档、总则知识点文档和正文知识点文档。
技术标准知识点文档中的知识点包括但不限于:涉及产品、过程或服务方面的所有特性;可以量化特性所要求的限值;引用或直接给出的试验方法、作业方法;标准以要求、推荐和陈述等方式给出的规定;名词和术语、符号、代号和缩略语的定义;标准适用范围、规范性引用文件等。
其中,预设拆分标准可以包括:文档来源、文档名称、文档内容和三元组。在实际应用中,预设拆分标准还可以包括:文档号。
实体识别单元202,用于对每个所述技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体;
本实施例中的实体指的是:现实世界中的事物,比如人、地名、公司、电话、动物等。
其中,所述实体相关信息包括:业务专业实体内容、条件动作类以及约束中心类。
约束中心是一个句子的中心词,可以是一个设备、部件、技术参数。例如:变压器检修的环境温度是25摄氏度。其中:环境温度就是约束中心。设置约束中心,为了更好的理解用户对于非结构化文档知识点内容的需求,给出精准解答。
本实施例在对每个技术标准知识点文档进行实体识别时,主要对每个技术标准知识点文档中国的三元组中的实体进行识别。
在实际应用中,可以对每个技术标准知识点文档采用实体识别算法进行实体识别。
实体识别算法是通过算法,结合规则,将一个自然语言句子,可以进行分词、词性标注、实体识别、新词发现等处理,将句子拆分为词,并对不同的词标注其属性。
本实施例中实体识别算法是跟业务相关的,例如,涉及运检、营销领域的词典数据、语了数据、模型在训练、业务分析抽象代码化规则、针对分析结果对算法代码进行定向调优,针对算法分析效果替换算法或者做算法组合模型等处理,从而实现不同电网20多个业务领域知识图谱数据的精准化抽取。
句子切分单元203,用于对每个所述技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档;
具体的,在实际应用中,对每个技术标准知识点文件按照句号、分号等断句符号,进行句子切分,得到多个技术标准知识点子文档。
需要特别说明的是,实体识别单元202和句子切分单元203的执行顺序包括但不限于图2所示实施例中的顺序,也可以先执行句子切分单元203,后执行实体识别单元202,或者实体识别单元202和句子切分单元203同时执行,具体依据实际需要而定,本发明在此不做限定。
图谱构建单元204,用于基于各个所述目标实体以及各个所述技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。
其中,各个技术标准知识点子文档之间的关联关系包括但不限于因果关系、并列关系等等。
综上可知,本发明公开一种技术标准知识图谱的构建系统,基于技术标准文档的格式,对技术标准文档按照预设拆分标准进行拆解,得到多个技术标准知识点文档,对每个技术标准知识点文档进行实体识别,并对识别出的每个实体标注对应的实体相关信息得到目标实体,并且,对每个技术标准知识点文档进行句子切分,得到多个技术标准知识点子文档,基于各个目标实体以及各个技术标准知识点子文档之间的关联关系,构建得到技术标准知识图谱。由于本发明在构建技术标准知识图谱之前,将技术标准文档拆解为多个技术标准知识点文档,因此实现了对技术标准文档中知识点的提取,通过对每个技术标准知识点文档进行实体识别、实体标注以及句子切分,使得在基于实体标注得到的各个目标实体以及句子切分得到的各个技术标准知识点子文档之间的关联关系构建得到的技术标准知识图谱,可以精细描述技术标准文档中各个实体的关联关系,实现实体的链接,并能够提供精准搜索,从而用户在对文档数据中的知识点进行提取时,可以快速提取到所需的知识点,并且无需遍历整个文档数据,从而解决了现有技术中的问题。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用倀本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
机译: 通过草稿图数据的构建坐标转换的空间信息构建系统及一种通过航空激光测量数据的滤波获取空间信息以构建更精确的三维空间信息系统的方法
机译: 分离的寡核苷酸分离的多肽,酸性核酸的构建,转基因细胞,转基因植物,增加植物生物量的方法,增加植物力的方法,增加植物产量的方法,方法用于提高植物对非生物胁迫的耐受性的方法。用于提高纤维质量和/或生产纤维的植物的产量的方法,生产棉纤维的方法,核酸的构建系统,表达目的多肽的方法在植物中,一种在棉花和细胞植物中表达目的多肽If的方法。
机译: 寡核苷酸载体构建重组DNA工艺,用于转化宿主细胞以赋予或增强对炭疽病的抗性和茎的腐烂,从而改变能够赋予对炭疽病和枯萎病的抗性的蛋白表达水平 二,为判断是否存在rcg1基因座的计算机系统,其目的是确定一种对抗Colletotrichum感染的植物,遗传标记,该植物的生产方法和一种玉米产品,以及用途