首页> 中国专利> 一种基于知识图谱的供电运维全要素数据融合方法

一种基于知识图谱的供电运维全要素数据融合方法

摘要

一种基于知识图谱的供电运维全要素数据融合方法,包括如下步骤:获取历史故障文档抽取得到故障的要素信息,按照各个故障的位置和故障持续的时间大小进行排序,进行故障建模得到故障模型,使用TF‑IDF编码实现故障信息的向量化,得到故障描述的向量表示,进行比对验证,以及进行相似度匹配,识别出故障类型,针对不同类型的节点推送不同的信息集,该方法结合知识图谱技术,采用知识图谱结合各种业务数据进行分析和提炼,对各类设备和节点提供故障研判和故障匹配的功能,对历史经验数据进行汇聚、解析、融合,解决历史经验数据难以有效利用的问题。

著录项

  • 公开/公告号CN115617946A

    专利类型发明专利

  • 公开/公告日2023-01-17

    原文格式PDF

  • 申请/专利号CN202211258052.X

  • 申请日2022-10-13

  • 分类号G06F16/33(2019.01);G06F16/35(2019.01);G06F16/903(2019.01);G06F30/367(2020.01);G06F18/22(2023.01);

  • 代理机构北京元本知识产权代理事务所(普通合伙) 11308;

  • 代理人徐苹

  • 地址 266000 山东省青岛市市北区常宁路6号

  • 入库时间 2023-06-19 18:21:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-02-10

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:202211258052X 申请日:20221013

    实质审查的生效

  • 2023-01-17

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及信息处理技术领域,具体涉及轨道交通技术领域,尤其涉及一种基于知识图谱的供电运维全要素数据融合方法。

背景技术

轨道交通的安全运行离不开安全、规范、可靠的供电系统,供电系统是轨道交通运输的血液,是核心系统,供电系统一旦产生故障或中断,不仅会造成城市轨道交通运输的瘫痪,而且还会危及乘客生命安全,并对地线公共交通运输带来巨大压力,对社会稳定和城市形象造成不良影响。

知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

现有技术中,公开号为CN112307218A的发明专利公开了一种基于知识图谱的智能电厂典型设备故障诊断知识库构建方法,该方法直接面向智能电厂典型设备故障诊断领域,将源于工厂和互联网的多模态故障诊断数据与专家知识结合设计构建了故障诊断知识图谱,存储在知识库中,有效提升了故障诊断的自动化水平。重新设计了“双层——三要素”形式的塔形知识图谱架构,表意能力强的同时便于检索应用。本发明通过使用双向GRU模型无监督构建了知识图谱中文本的描述向量,包含文本的语义信息,可用于优化故障诊断知识图谱,提升推理计算效率,对于故障诊断知识图谱落地应用具有重要意义。公开号为CN114491037A的发明专利公开了一种基于知识图谱的故障诊断方法、装置、设备及介质。其中方法包括:在设备故障时,基于设备故障知识图谱确定当前故障设备的特征向量,所述设备故障知识图谱基于历史故障设备的故障诊断数据构建的;确定所述当前故障设备的特征向量与所述设备故障知识图谱中每个历史故障设备的特征向量之间的相似度;将最高相似度对应历史故障设备的诊断结果,确定为所述当前故障设备的诊断结果,并推送所述诊断结果对应的解决方案给所述当前故障设备。本申请能够提高设备故障诊断的准确性,改善设备故障诊断效果。基于此类的现有技术还有,其具体的实现方式都是基于建模,TF-IDF编码和匹配等方式实现,对于数据存储的容量和速度,以及故障出现的连续性并没有针对性的设计。

地铁供电运维业务涉及台账维护、运行监视、维修作业、预防性试验、巡视作业、安全、应急等一系列业务,保障设备安全稳定运行,同时产生大量历史数据痕迹,但由于数据分散、格式多样,难以对历史痕迹数据进行分析利用,无法为设备稳定运行产生新价值。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于知识图谱的供电运维全要素数据融合方法,该方法结合知识图谱技术,采用知识图谱结合各种业务数据进行分析和提炼,对各类设备和节点提供故障研判和故障匹配的功能,对历史经验数据进行汇聚、解析、融合,解决历史经验数据难以有效利用的问题。

本发明提供了一种基于知识图谱的供电运维全要素数据融合方法,包括如下步骤:

(1)获取历史故障文档作为源数据,将其按照各个故障的位置先进行分类排序,然后在同一位置故障排序的基础上,将同一位置的源数据按照故障持续的时间大小进行排序;利用故障知识按照分类和排序的顺序抽取所述历史故障文档得到故障的要素信息;估算故障要素信息对应转化为字符串的数量;

(2)将故障要素信息按照故障模型的方式进行组织,进行故障建模得到故障模型;

(3)将故障模型中的各个要素拼接成完整字符串,使用TF-IDF编码实现故障信息的向量化,得到故障描述的向量表示;针对故障描述的向量表示进行字符串中包含字符数量的计算,并随机选取字符串的一位字符和其字符在字符串中的位置,再将字符在字符串中的位置转换为在对应要素信息中的位置;

(4)将步骤(1)中估算的字符串的数量和计算得到的字符串中包含字符数量进行对比,如果相同则按照步骤(3)中转换得到的字符在对应要素信息中的位置,在步骤(1)中对应的故障的要素信息中进行查找后比对,如果相同,则进入下一步骤;

(5)将经过向量化转换好故障描述的向量和故障知识库中的向量进行相似度匹配,计算故障之间的匹配程度,返回知识库中相似度最高的故障记录;

(6)识别出故障类型,针对不同类型的节点推送不同的信息集。

其中,所述步骤(1)中具体还包括:

(1.1)对历史故障文档按照树型结构进行层层划分,每个事件信息用有向图表示,每个叶子节点的事件中保存故障相关的详细信息,其包括一个故障事件从发生到解决的完整过程;

(1.2)对经过处理后的历史故障文档,进行实体和关系的故障知识抽取。

其中,所述步骤(1.1)中将每个故障事件拆分成事件信息、故障信息和处置信息三个部分,其中:

事件信息,存储故障事件中出现的设备和故障事件中的原始文本信息;其中,原始文本信息包括该故障事件的概述、影响以及原因分析中的至少一个;

故障信息,包含故障发生的特征和故障名称;

处置信息,根据历史故障文档中给出的解决方案,识别关键的动作和实体,并且把动作作为关系,把历史故障文档中宾语作为关系所指向的实体。

其中,所述步骤(1)中利用故障知识抽取所述历史故障文档得到故障的要素信息具体为经过故障知识抽取部分的TPLinker模型后得到故障的要素信息。

其中,所述为经过故障知识抽取部分的TPLinker模型后得到故障的要素信息具体为:

给定两个实体p1和p2,以及一条特定的关系类型r,模型尝试回答以下三个问题:

a)p1和p2是不是两个相同实体的开始和结束位置;

b)p1和p2是不是关系r中涉及到的两个实体的开始位置;

c)p1和p2是不是关系r中涉及到的两个实体的结束位置;

TPLinker模型使用握手标记方法来回答这三个问题,并且为每个关系标注三个矩阵来表示不同的标记结果。

其中,所述故障要素包括所在变电所、故障设备、故障描述、故障时中的至少一种。

其中,所述步骤(3)中使用TF-IDF编码实现故障信息的向量化,得到故障描述的向量表示,具体为:

TF-IDF的值最终由TF和IDF的乘积来决定,TF-IDF编码的计算方式如下;

TF的计算过程为:

IDF的计算过程为:

平滑操作过程为:

sim

N是文档的总数,x表示任意单词,N(x)表示出现了单词x的文档的个数,分母中N(x)+1是为了避免分母为零而采用的平滑操作。

其中,所述步骤(4)中余弦相似度计算故障之间的匹配程度过程为:

其中,所述步骤(6)中故障信息的推送采用SpringBoot和MybatisPlus框架实现。

本发明的基于知识图谱的供电运维全要素数据融合方法,可以实现:

使用知识图谱作为电力知识的大脑,掌握大量的电力数据和故障知识,在故障发生时快速地实现故障定位和分析,并从大量电力知识中汇聚能够辅助决策的重要信息,减少对专家经验的依赖,减少对实时数据的依赖。

相对现有技术,将源数据按照故障出现的位置和故障持续的时间的优先级进行分类和排序的方式进行预处理,使得整个系统后续的处理效率提高,同时后续可以根据数据大小容量进行并行传输和针对性的存储,很大程度的提高了效率。

相对现有技术,首次在TF-IDF的方式中设置验证步骤,并且针对性的设置特定的验证方式,使得向量化后的数据进行了验证,计算量较小的情况下可以保证数据的有效性,

附图说明

图1为基于知识图谱的供电运维全要素数据融合方法的总体架构图;

图2为故障事件的树型结构图;

图3为故障事件结构图;

图4为握手标记方法;

图5为矩阵的压缩表示;

图6为模型结构图;

图7为故障匹配结构图。

具体实施方式

下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。

本发明提供了一种基于知识图谱的供电运维全要素数据融合方法,其具体涉及的实现方式如附图1-7所示,其中图1为基于知识图谱的供电运维全要素数据融合方法的总体架构图,图2为故障事件的树型结构图,图3为故障事件结构图,图4为握手标记方法,图5为矩阵的压缩表示,图6为模型结构图,图7为故障匹配结构图。下面基于知识图谱的供电运维全要素数据融合方法进行具体的介绍。

本申请提出了一种基于知识图谱的供电运维全要素数据融合方法,针对上述问题,采用知识图谱结合各种业务数据进行分析和提炼,对各类设备和节点提供故障研判和故障匹配的功能。

首先,进行故障建模,具体的使用事件抽取的思路来解析故障知识,以树型结构,按照变电所、设备、编号进行层层划分。例如李村站内部有变压器和断路器等类型的设备,具体按照编号又可以分为断路器322、断路器201等,对于每个设备都有对应的文档说明,好处是在故障发生时可以根据树型结构快速定位故障知识的大致范围。每个叶子事件中都保存故障相关的详细信息,比如“故障名称”、“正常状态”、“故障特征”、“故障处置”等。由这些事件描述了一个故障从发生到解决的完整过程。

下面,结合附图进行具体的介绍。如附图1所示,本申请提出了一种基于知识图谱的供电运维全要素数据融合方法,其数据来源于历史故障文档,经过故障知识抽取部分的TPLinker模型后可得到故障的要素信息,将故障要素信息按照故障模型的方式组织后实现故障建模,在故障建模的基础上,故障经过TF-IDF编码可进行向量化,再通过余弦相似度进行故障匹配,其中在故障匹配的过程中,需要从故障知识库中读取已有的故障信息,将已有的故障信息和获取的故障进行匹配。为了避免现有技术的缺陷,对于数据存储的容量和速度,以及故障出现的连续性进行针对性的设计,此步骤中将源数据按照故障出现的位置和故障持续的时间的优先级进行分类和排序,即将历史故障文档在作为源数据的同时,将其按照各个故障的位置先进行分类排序,此种方式可以将多设备故障的类型和同设备的故障类型通过位置的方式进行初分,然后在同一位置故障排序的基础上,将同一位置的源数据按照故障持续的时间大小进行排序,也即为故障持续的时间,按照从最长到最短的方式进行排序,这样得到了按照各个故障的位置先进行分类排序,多个同一位置故障按照故障持续的时间大小进行连续排序的方式,这样就将源数据按照故障出现的位置和故障持续的时间的优先级进行分类和排序的方式进行预处理,使得整个系统后续的处理效率提高,同时后续可以根据数据大小容量进行并行传输和针对性的存储,很大程度的提高了效率。

其中,在故障建模的过程中,本发明使用事件抽取的思路来解析故障知识,采用如图2所示的方式对故障文档进行划分。即以树型结构,按照变电所、设备及其编号、故障及其编号进行层层划分。例如李村站内部有变压器和断路器等类型的设备,具体按照编号又可以分为1#变压器、201断路器等,对于每个设备都有对应的文档说明,对应的故障及其编号定义为1#变压器故障、201断路器故障,这样在故障发生时可以根据树型结构快速定位故障知识的大致范围。

结合附图3所示,对于故障,可以将其当成一个事件来看待,其可以按照故障的分布进行树形排列,称为事件树,因此一个事件信息也可以用形如图3这样的有向图来表示。每个叶子节点的事件中都保存了故障相关的详细信息,比如“故障名称”、“正常状态”、“故障特征”、“故障处置”等。由这些事件描述了一个故障从发生到解决的完整过程。一个故障事件可以拆分成事件信息、故障信息和处置信息三个部分,他们之间通过“出现”和“顺承”这样的关系连接起来。根据从文档中得到的信息,将大量的原始文本信息保存在事件信息中,比如该事件的概述、影响以及原因分析等,同时将事件中出现的设备也保存其中。故障信息中包含了故障发生的特征和故障名称。处置信息则根据文档中给出的解决方案,识别关键的动作和实体,比如“通知电工班长”、“重启304综合保护装置”,需要识别出“通知”和“重启”这两个动作,并且把动作作为关系,把“电工班长”、“304综合保护装置”这样的宾语作为关系所指向的实体。

接着,进行故障知识抽取。故障知识的抽取主要是针对故障记录文档的抽取,由于pipeline模型容易造成错误的传递,同时在项目中经常出现的嵌套实体和重叠关系问题,因此具体的使用TPLinker模型进行知识抽取,并进行实体和关系的抽取。对于使用TPLinker模型进行知识抽取的方式,其是一种可以解决关系重叠问题的联合抽取方法。给定两个实体p1和p2,以及一条特定的关系类型r,模型会尝试回答以下三个问题:

a)p1和p2是不是两个相同实体的开始和结束位置。

b)p1和p2是不是关系r中涉及到的两个实体的开始位置。

c)p1和p2是不是关系r中涉及到的两个实体的结束位置。

TPLinker模型使用了一种握手标记方法(Handshaking Tagging)来回答这三个问题。该方法需要为每个关系标注三个矩阵(Token Link Matrices)用来表示不同的标记结果,从这三个矩阵中,可以提取出所有的实体以及重叠关系。由于在模型中不需要任何相互依赖的提取步骤,因此也避免了真实样本(Ground Truth)的依赖,保证了训练和测试的一致性。

数据标注的过程主要可以分为几种类型,得到这些标注后通过解码即可得到结果。结合如图4所示,给定要给句子,设计一个矩阵用来表示所有实体之间的关系。需要在标注中体现出来的关系主要有以下几种,这些标签分别是:

a)实体头到实体尾(EH-to-ET)。图中的第一行第5个和第5行最后1个标签表示这两个位置分别是一个实体的头部和尾部,例如对于“供电机电部”这个实体,(“供”,“部”)对应的位置会被标记上粉红色的标签。

b)主体头到客体头(SH-to-OH)。图中的第1行第6标签,它的坐标表示一个关系涉及到的两个实体各自的起始位置。例如三元组<“魏一二”,“任职于”,“供电机电部”>,可得到两个实体的开始位置是“魏”和“供”,所以将(“魏”,“供”)位置标记为第1行第6标签。

c)主体尾到客体尾(ST-to-OT)。图中的第5行最后1个标签,他和红色标签类似,意味着一个关系涉及到的两个实体各自的结束位置。例如三元组<“魏一二”,“任职于”,“供电机电部”>,可得到两个实体的结束位置是“二”和“部”,所以将(“二”,“部”)位置标记为第5行最后1个标签。

因为EH-to-ET是不可能出现在下三角区域的,所以下三角区域的元素就相对较少,但是直接丢弃下三角区域也是不可行的,因为对于某些关系来说,Object可能出现在Subject之前,那么SH-to-OH和ST-to-OT都会出现在下三角区域。为了避免稀疏矩阵占用过大的内存,将下三角区域中的1转换到对应的上三角区域,并将标记设置为2,这样就可以直接丢弃下三角区域,仅凭上三角区域就可以表达所有的信息。

对于每一种关系都进行相同的标记工作。但是EH-to-ET表示的是实体的位置,因此它是可以在所有关系之间共享的,只需要被标记一次。如图4所示,在有N个关系的情况下,关系抽取的任务被分解为2N+1个序列标注的子任务。在句子长度为n的情况下,每一个子任务都会接收长度为(n

EH-to-ET标记有(“供”,“部”)和(“魏”,“二”),他分别表示两个实体的起始位置和终止位置,即“供电机电部”和“魏一二”。实体的标记都是存在于上三角中,而在关系的标注中,可能存在主体在客体之后的情况,为了在压缩矩阵的同时不损失数据,将部分标签修改成了2,对于这些标签,需要按照相反的顺序来解析。对于“任职于”这个关系来说,(“供”,“二”)被标记为SH-to-OH,标记值是2,表示相反关系,则关系的主体以“魏”开头,而关系的客体以“供”开头。(“部”,“二”)被标记为ST-to-OT,标记值为2,表示相反关系,则关系的主体以“二”结尾,而关系的客体以“魏”结尾。根据这些信息,就可以推断出一个完整的三元组<“魏一二”,“任职于”,“供电机电部”>。

因此,总结标记的解码过程,对于每一个关系,先根据EH-to-ET找到所有的实体,并建立一个字典D,字典D中保存了每个实体的起始位置以及对应的实体。接下来,首先解码ST-to-0T,建立集合E,用来保存主体和客体的尾部位置。然后解码SH-to-OH,这里可以得到主体和客体的开始位置,根据这两个实体的开始位置在字典D中寻找备选实体。最后遍历这些备选实体,如果这些实体的尾部下标存在于字典E中,那么就作为新的关系保存到集合T中。

如图6所示,模型使用Bert作为Encoder,对于长度为n的句子[w

h

其中W

损失函数将所有实体模型和关系模型的误差取均值,如公式(2)所示,N是输入的句子长度,

然后,进行故障匹配,传统故障研判大多基于人力完成,对于维护人员来说压力很大,同时对专家经验和实时数据要求较高。这样一方面效率会受到影响,另一方面也很容易出现失误。因此,具体的根据已有的故障描述,找到最相似的故障。采用上一步介绍的模型进行知识抽取,即使用TPLinker模型从故障描述中找到故障要素,主要包括所在变电所、故障设备、故障描述、故障时间等。经过模型的预测得到相关要素后,将各个要素拼接成完整字符串,再使用TF-IDF编码实现故障信息的向量化。例如“青岛北站上网隔离开关2111合闸失败”,模型提取出“青岛北站”、“上网隔离开关2111”、“合闸失败”这些关键要素,将这些要素表示成字符串的形式:“青岛北站;上网隔离开关2111;合闸失败”,得到的字符串使用TF-IDF进行编码得到故障描述的向量表示。使用余弦相似度计算故障之间的匹配程度。

其中,TF-IDF编码的计算方式如下,公式(4)是IDF的计算过程,N是文档的总数,x表示任意单词,N(x)表示出现了单词x的文档的个数,分母中N(x)+1是为了避免分母为零而采用的平滑操作。如公式(5)所示,TF-IDF的值最终由TF和IDF的乘积来决定。

sim

如图7,知识库中的故障知识已经通过TF-IDF转换成向量保存,因此FaultRetrieval模块主要是将上一步转换好的故障编码和知识库中的向量进行相似度匹配,返回知识库中相似度最高的故障记录,向量的相似度计算依然使用余弦相似度,余弦相似度的计算方式如公式(6)。

其中,还针对故障描述的向量表示进行字符串中包含字符数量的计算,并随机选取字符串的一位字符和其字符在字符串中的位置,再将字符在字符串中的位置转换为在对应要素信息中的位置;将估算的字符串的数量和计算得到的字符串中包含字符数量进行对比,如果相同则按照转换得到的字符在对应要素信息中的位置,在对应的故障的要素信息中进行查找后比对,如果相同,则可进入后续的步骤,这样增加了验证步骤,可以进行反向的验证,其具体验证过程中对应的转换为可以比对的类型即可实现,这样向量化后的数据进行了验证,可以保证数据的有效性。当然,这种验证并非每个故障信息都要去验证,只需要针对性的验证就可以达到数据验证的目的,有效的减小了计算难度。

识别出故障类型后,即可推送相关的信息。推送数据时,针对不同类型的节点推送不同的信息集,例如变压器和断路器则需要不同的信息。信息集中列出了当前设备可能需要的信息,是所有信息类型的汇总,在做推送时,需要根据当前故障信息和信息集中的信息类型做相似度匹配,按照相似度从高到低排序,这样可以将更重要的信息展示在用户面前。例如下表所示为用户需要的部分信息。

故障信息包含了从历史故障文档中抽取的大量故障要素,对于某些室外的设备来说,气象因素也会多次出现在故障文档中。因此对于信息类型的匹配,可以直接将故障信息进行编码,用编码后的故障信息进行相似度计算。本发明将故障信息编码成TF-IDF格式的向量,同时对于每个信息集中每个信息类型的名称,也进行相同的编码。这样,计算故障向量和信息类型向量的相似度即可,相似度越高的信息类型则具有更高的优先级。相似度采用余弦相似度。

故障信息的推送采用SpringBoot和MybatisPlus框架实现。MybatisPlus负责和所有关系型数据库的交互,包括多个数据源以及实时库,SpringBoot担任了实现业务逻辑的功能。对于模型的管理使用Python语言实现,为了方便交互使用Django提供服务,以HTTP协议的方式与SpringBoot交换数据。所有请求通过Nginx进行代理。

本发明提供的基于知识图谱的供电运维全要素数据融合方法,可以在计算机设备中进行处理,处理装置可以为计算机设备,执行上述方法,所述计算机设备可以包括一个或多个处理器,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备还可以包括任何存储器,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储器可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备的固定或可移除部件。在一种情况下,当处理器执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备可以执行相关联指令的任一操作。计算机设备还包括用于与任何存储器交互的一个或多个驱动机构,诸如硬盘驱动机构、光盘驱动机构等。

计算机设备还可以包括输入/输出模块(I/O),其用于接收各种输入(经由输入设备)和用于提供各种输出(经由输出设备))。一个具体输出机构可以包括呈现设备和相关联的图形用户接口(GUI)。在其他实施例中,还可以不包括输入/输出模块(I/O)、输入设备以及输出设备,仅作为网络中的一台计算机设备。计算机设备还可以包括一个或多个网络接口,其用于经由一个或多个通信链路与其他设备交换数据。一个或多个通信总线将上文所描述的部件耦合在一起。

通信链路可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号