首页> 中国专利> 基于语义框架的电网缺陷文本挖掘方法

基于语义框架的电网缺陷文本挖掘方法

摘要

本发明涉及基于语义框架的电网缺陷文本信息挖掘方法。挖掘电网缺陷文本中的特征信息,用于实现各种缺陷自动统计需求。现有的统计方法基于人工,不仅费时费力,而且正确率受主观影响大。本发明首先进行缺陷文本句法结构知识提取和本体字典构建;然后运用语义槽填充方法,将缺陷文本的关键词填入语义槽;接着利用语义关联度算法将乱序的槽整合为语义框架;最后,进行词串合并,实现语义框架的精简。语义框架构建完成后,可方便地实现不同需求的缺陷自动统计。本发明对缺陷文本的统计准确率高,应用方便。

著录项

  • 公开/公告号CN105955960A

    专利类型发明专利

  • 公开/公告日2016-09-21

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201610300754.8

  • 发明设计人 曹靖;陈陆燊;邱剑;王慧芳;

    申请日2016-05-06

  • 分类号G06F17/27(20060101);

  • 代理机构33100 浙江杭州金通专利事务所有限公司;

  • 代理人王佳健

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 00:30:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-16

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2016103007548 申请日:20160506 授权公告日:20181002

    专利权的终止

  • 2018-10-02

    授权

    授权

  • 2016-10-19

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20160506

    实质审查的生效

  • 2016-09-21

    公开

    公开

说明书

技术领域

本发明属于电力系统技术领域,具体是涉及基于语义框架的电网缺陷文本挖掘方法。

背景技术

电网企业在设备运维管理过程中,会以中文形式记录设备的故障、缺陷、检修、消缺等信息。这些信息以文本形式保存在信息管理系统中,不仅反映电力设备个体健康状态的既往史,还蕴藏着丰富的同类设备可靠性信息。从中文文本信息到容易被使用的可靠性信息,需要探索复杂的信息挖掘技术和信息挖掘过程。目前上述信息挖掘难题尚未得到完善解决。电网企业每年要进行的设备缺陷分类与分析统计工作,往往依靠人工进行,不仅工作量大,耗时耗力,而且由于主观因素和经验差异,分类与统计工作的正确性难以验证。因此基于缺陷文本的信息挖掘技术研究十分重要和迫切。

发明内容

本发明的目的在于针对现有技术的不足,提供一种基于语义框架的电网缺陷文本挖掘方法。

在电网缺陷文本中,语义框架可视为描述一个缺陷事件的最小单元。一个完整语义框架(frame)可由四个语义槽(slot)构成,分别为:F={Pb,Ps,A,C}。其中,F表示语义框架,Pb、Ps、A、C为语义槽,分别表示设备大部件、小部件、缺陷属性和缺陷程度。语义槽是语义框架的元素,分为核心语义槽与非核心语义槽。其中,Ps与A为核心语义槽;Pb与C为非核心语义槽。

本发明定义近距离匹配算法如下:以核心语义槽a为基点,取非核心语义槽b,定义a与b之间的字符数为路径距离Dis(a,b)。Dis(a,b)越小,表示语义槽关联度越大,故选择与a最小路径距离的b与之匹配。

本发明方法包括以下步骤:

步骤1:分词。基于隐马尔科夫模型(HMM,Hidden Markov Model)对缺陷文本进行分词。

步骤2:词频特征提取。对分词结果进行词频统计,从高频到低频对词语排序,并剔除符号、人名、地名等停用词。

步骤3:共现特征提取。Pb、Ps、A、C四槽共同出现的情况不多,缺陷文本中大部分的语义框架都存在缺槽现象,非核心槽Pb与C常常缺失,核心槽Ps与A总是存在的(极个别特殊案例除外)。

步骤4:词位特征提取。四个槽的位置顺序具有很强的规律性,最典型的排列顺序为Pb-Ps-A-C,Pb-Ps-C-A。

步骤5:构建本体字典。参考国标、导则和相关规程,对上述高频词进行筛选、分类,基于本体论构建字典。本体论最早起源于哲学领域,是对客观存在的事物及其事物之间的关系的抽象概括。这一步目前需要手工构建,工作量大。

上述步骤1-5是对所有历史缺陷文本进行综合处理,实现缺陷文本句法结构知识的获取和本体字典的构建。这是文本挖掘的基础工作。

步骤6:槽填充。基于本体字典,提取文本中的有意义词,填入槽中,并记录词位信息。其中,词位信息是指某词首字之前的所有字符数目;有意义词分为本体字典中的词条和数字两类,数字一律填入C槽。

步骤7:语义框架构建。利用近距离匹配方法,根据语义关联度进行各类槽之间的匹配。语义框架由经过匹配的槽构成,考虑到槽缺失的情况,一个语义框架可能包含2~4个槽。

步骤8:词串合并。在一个语义框架中,连续的Ps槽,如Ps1、Ps2、···、Psn可合并为一个新的Ps槽,即:Ps1Ps2Ps3···Psn=Ps。同时,新的Ps作为有意义字串加入本体字典。

上述步骤6-8是对每一条具体缺陷文本进行处理,通过槽填充、语义框架构建和词串合并功能,实现缺陷文本中关键缺陷信息的挖掘。

针对经过6-8步骤处理过的所有缺陷,实现可靠性方面的各种统计功能。比如:a.针对某一设备,统计既往发生的缺陷种类以及数量;b.针对某一地区,统计某类设备发生缺陷的数量以及缺陷种类;c.在某地区某时间段内,针对某类设备的各类大部件,统计发生的缺陷类型和数量;等等。上述统计结果可以为设备设计、制造、运维等提供依据。

本发明的有益效果:本发明对缺陷文本的统计准确率高,应用方便。

附图说明

图1为槽填充实例图;

图2为语义框架构建图;

图3有载分接开关缺陷种类与数量的关系图。

具体实施方式

以下结合实例对本发明具体的实施步骤作进一步说明:

步骤1:分词。基于隐马尔科夫模型(HMM,Hidden Markov Model)对缺陷文本进行分词。

步骤2:词频特征提取。对分词结果进行词频统计,从高频到低频对词语排序,并剔除符号、人名、地名等停用词。

步骤3:共现特征提取。Pb、Ps、A、C四槽共同出现的情况不多,缺陷文本中大部分的语义框架都存在缺槽现象,非核心槽Pb与C常常缺失,核心槽Ps与A总是存在的(极个别特殊案例除外)。

步骤4:词位特征提取。四个槽的位置顺序具有很强的规律性,最典型的排列顺序为Pb-Ps-A-C,Pb-Ps-C-A。

步骤5:构建本体字典。参考国标、导则和相关规程,对上述高频词进行筛选、分类,基于本体论构建字典。本体论最早起源于哲学领域,是对客观存在的事物及其事物之间的关系的抽象概括。这一步目前需要手工构建,工作量大。

上述步骤1-5是对所有历史缺陷文本进行综合处理,实现缺陷文本句法结构知识的获取和本体字典的构建。这是文本挖掘的基础工作。

步骤6:槽填充。基于本体字典,提取文本中的有意义词,填入槽中,并记录词位信息。其中,词位信息是指某词首字之前的所有字符数目;有意义词分为本体字典中的词条和数字两类,数字一律填入C槽。

步骤7:语义框架构建。利用近距离匹配方法,根据语义关联度进行各类槽之间的匹配。语义框架由经过匹配的槽构成,考虑到槽缺失的情况,一个语义框架可能包含2~4个槽。

步骤8:词串合并。在一个语义框架中,连续的Ps槽,如Ps1、Ps2、···、Psn可合并为一个新的Ps槽,即:Ps1Ps2Ps3···Psn=Ps。同时,新的Ps作为有意义字串加入本体字典。

上述步骤6-8是对每一条具体缺陷文本进行处理,通过槽填充、语义框架构建和词串合并功能,实现缺陷文本中关键缺陷信息的挖掘。在后面将以实例给出示范。

统计应用。针对经过6-8步骤处理过的所有缺陷,实现可靠性方面的各种统计功能。比如:a.针对某一设备,统计既往发生的缺陷种类以及数量;b.针对某一地区,统计某类设备发生缺陷的数量以及缺陷种类;c.在某地区某时间段内,针对某类设备的各类大部件,统计发生的缺陷类型和数量;等等。上述统计结果可以为设备设计、制造、运维等提供依据。

下面以一条缺陷文本为例分析文本的处理流程,然后再展示部分统计结果,其结果基于某电网公司2004-2013十年间共保存的1616条变压器缺陷文本。

待处理的缺陷描述文本为:#1主变呼吸器硅胶变色,散热片渗油,有载分接开关拒动。

1)槽填充。

执行槽填充算法,根据本体字典依次将文本中的有意义词填入各槽,得到如图1所示的初始框架。

2)语义框架构建。

根据初始框架中各类词的词位信息,计算词与词之间的距离远近,然后根据构建规则进行匹配,如图2示意。以Ps(或A)为核心,利用作差比较法,可得与Ps(或A)语义相关度最大的其他槽,构建出中间语义框架。例如,寻找“硅胶”的匹配槽时,Dis(“硅胶”,“变色”)=|8-10|=2,Dis(“硅胶”,“渗油”)=|8-16|=8,故“变色”离“硅胶”更近,二者应当匹配。处理结果如表1所示,词语按文本顺序排列。

表1语义框架结果

3)词串合并。

表1中,第一行与第二行除Ps外,其余三个槽都相同,因而合并两行的Ps,记为“呼吸器硅胶”,并将此词串作为有意义字串存入本体字典。当有多行存在这样的情况时,以两行为单位依次合并。词串合并一方面使结构化数据更精确,另一方面也可自动完善字典。本例词串合并后的结果如表2所示。需说明的是,实际应用中本体字典词用编码表示。

表2词串合并后的结果

部分统计结果:

统计该电网十年间变压器有载分接开关的缺陷种类与数量,结果如图3所示。其中,横坐标为基于国标的有载分接开关九大类缺陷,1-9分别代表:1绝缘性能,2直流电阻,3抗短路能力,4温度,5油性能,6老化,7机械特性,8外观,9通信;纵坐标代表相应缺陷发生的次数。例如,“绝缘性能”为54,表示该电网变压器有载分接开关发生54次绝缘性能缺陷;“油性能”缺陷数最多,有183次,说明有载分接开关的“油性能”容易出现缺陷。

本发明第一次将语义框架与语义槽理论应用于电网缺陷文本,并自主提出近距离匹配算法、词串合并的方法,解决了句子成分难以划分的问题,为缺陷文本的信息挖掘提供了另一种技术。经处理后的文本,可以方便地进行各类统计,大大节约了人工劳动。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号