首页> 中国专利> 基于支持向量机的配电网运行状态分类识别方法

基于支持向量机的配电网运行状态分类识别方法

摘要

本发明提出一种基于支持向量机的配电网运行状态分类识别方法。该方法主要基于SVM理论,同时对传统的SVM算法进行了改进。该方法从大量的数据样本中提取相似数据创建训练样本,采用小波包分解技术将故障信号分解成低频趋势信号和高频随机信号,采用SVM理论建模,合成得到配网运行状态分类数据,并训练得到基于核空间距离混合支持向量分类器(Support Vector Classifier,SVC),建立配电网运行特征基因库,从而试图去建立一种可靠的判别机制,甄别配电网的正常和异常及故障状态。通过大量的仿真数据验证,表明所构建的分类器具有较强的泛化能力和较高的分类识别准确性,同时程序运行时间可满足工程需要。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-12-09

    授权

    授权

  • 2013-07-10

    实质审查的生效 IPC(主分类):G06N99/00 申请日:20130307

    实质审查的生效

  • 2013-06-05

    公开

    公开

说明书

技术领域

本发明涉及电力系统技术领域,尤其是涉及一种基于支持向量机SVM的配电网运行状态 分类识别方法。

背景技术

配电网密布城乡及山区,终年处于户外,经受风雨冰霜、雷电及日益严酷的环境污染等 恶劣环境影响,加上不可预测的人为因素,发生故障的概率很高,尤其是架空线路。统计数 据表明,电网的故障大多发生在配电网,而配电网故障中80%是单相接地故障。所以配电网 运行中的故障选线、故障巡查、故障排除,是供电企业面临的常见又重要的生产管理工作。 智能电网技术的兴起,将信息技术、通信网络技术、先进电子传感技术等融为一体,为解决 生产问题带来新的技术思路。故障运行过程中,电压跌落、浪涌、瞬时故障、盗电等引起电 流、电压等重要参数的运行信号曲线变化,蕴含着众多的因素,这些因素能体现此时电网的 运行状态。

支持向量机(Support Vector Machine,SVM)是由贝尔实验室的Vapnik等提出了一种新 的机器学习算法,它是基于统计学习理论基础上发展起来的[1]。SVM方法较好地解决了传统 机器学习方法存在的小样本、非线性和高维数等实际难题,并克服了神经网络等方法中网络 结构难以确定、局部极值、过学习与欠学习以及训练时需要大量数据样本等不足,即使在样 本数量较少的情况下依然能够获得较好的推广效果。支持向量机分类器(Support Vector  Classifier,SVC)的训练等价于解决一个线性约束的二次规划问题,存在唯一解,解中只有一 部分不为零,对应的样本就是支持向量。支持向量实际上是训练集的子集,对支持向量的最 低分类等价于对训练集的分类。SVM可用来解决模式识别问题,目的是发现泛化性能好的决 策规则。随着Vapnik的ε松弛因子的引入,SVM已经扩展为解决非线性回归估计问题,而 且与神经网络方法相比,有着显著的优越性,在大量领域应用,被认为是人工神经网络方法 的替代方法[2-8]

参考文献:

[1]V.Vapnik著,张学工译,统计学习理论的本质,北京:清华大学出版社,2000,2~3.

[2]杨光正,吴岷,张晓莉.模式识别[M].合肥:中国科学技术出版社,2001:26-29.

[3]El-Gamal,Mohamed A.. Fault location and parameter identification in analog  circuits[phDdissertation].USA:Ohio University(the college of Engineering and  Technology),1990.

[4]B.Boser,I.Guyon,V.vapnik,A training algorithm for optimal margin classifiers, Proceedings of the5th Annual ACM Conference on Computational Learning Theory, Pittsburgh,PA,USA.ACM Press,1992:144~152.

[5]张全明,刘会金.最小二乘支持向量机在电能质量扰动分类中的应用[J].中国电机工 程学报,2008,28(1):106-110.

[6]李天云,陈昌雷,周博,等.奇异值分解和最小二乘支持向量机在电能质量扰动识别 中的应用[J].中国电机工程学报,2008,28(34):124-128.

[7]李庚银,王洪磊,周明,等.基于改进小波能熵和支持向量机的短时电能质量扰动识 别[J].电工技术学报,2009,24(4):161-167.

[8]张学工.关于统计理论与支持向量机[J].自动化学报,2000,26(1):32-42.

[9]贾清泉,陈丽,袁野.应用相平面和分层聚类的配电网单相接地故障特征分类[J].电 力系统自动化,2009,33(8):68-71.

[10]HANNINEN S,L EHTONEN M.Characteristics of earth faults in electrical distribution  networks with high impedance earthing.Electric Power Systems Research,1998,44(3): 155-161.

[11]董长虹.Matlab小波分析工具箱原理与应用[M].北京:国防工业出版社2004.

[12]罗仕乾.雷电波的频谱及能量分布[J].高电压技术,1995,21(1):85-86.

[13]林湘宁,刘沛,程时杰.电力系统振荡中轻微故障识别的小波算法研究[J].中国电机 工程学报,2000,20(3):39-44

发明内容

本发明针对配电网小电流接地系统运行状态预测现状,根据小波包分析提取出各配电网 运行状态信号标量小波特征量的不同,提出一种应用SVM理论的配电网运行状态预测方法。

本发明的技术方案为一种基于支持向量机的配电网运行状态分类识别方法,包括训练阶 段和诊断阶段,

所述训练阶段构建两个混合支持向量机多类分类器,一个面向故障相电流提取特征,记 为SVC-I,另一个面向零序电流提取特征,记为SVC-II;针对每个混合支持向量机多类分类 器分别执行以下步骤,

步骤1.1,针对各种配网运行状态,建立包括多个训练样本的训练样本集;

步骤1.2,对训练样本集中所有训练样本进行特征提取,得到每个训练样本的原始标量小波特 征集合;

步骤1.3,构建混合支持向量机多类分类器;

步骤1.4,基于混合支持向量机多类分类器,对原始标量小波特征集合中的标量小波系数特征 元素进行训练和评估,提取最优特征子集;

所述诊断阶段进行配网运行状态在线诊断,包括判断是否有零序电流,没有则进入步骤 a,有则进入步骤b,

步骤a,采集故障相电流得到待测样本,对待测样本进行特征提取得到待测样本的原始标量 小波特征集合,根据步骤1.4所得最优特征子集从待测样本的原始标量小波特征集合提取相 应元素并导入SVC-I,由此得到配网所属运行状态;

步骤b,基于零序电流得到待测样本,对待测样本进行特征提取得到待测样本的原始标量小 波特征集合,根据步骤1.4所得最优特征子集从待测样本的原始标量小波特征集合提取相应 元素并导入SVC-II,由此得到配网所属运行状态。

而且,步骤1.3的实现方式包括以下步骤,

步骤1.3.1,根据每个训练样本的原始标量小波特征集合得到相应特征向量,设定混合支持向 量机多类分类器的核函数采用径向基核函数K(A,B)=(φ(A)·φ(B))=exp(-||A-B||22),其中A,B 采用不同样本所对应的特征向量,σ2为核参数;

步骤1.3.2,若训练样本集中某训练样本的特征向量xc对应的Lagrange乘子λc=0,则特征向 量xc为支持向量;训练求解每一个二元支持向量机分类器参数,包括先求得支持向量所对应 的Lagrange乘子λc,然后计算最后计算 bc=1/yc-ω·xc=1/yc-Σd=1nsvλdyd<xd,xc>=1/yc-Σd=1nsvλdydK(xd,xc),其中xc、yc表示支持向量及对应 的类别标签,bc表示由该支持向量计算得到的分类偏差,nsv为支持向量的数目,λd,yd,xd分别为第d个支持向量所对应的Lagrange乘子,类别标签以及样本,1≤d≤nsv

得到配电网运行特征基因库,包括分类字典CD1、CD2、CD3, 分类字典CD1包含各个分类模式的训练样本中心,设分N个分类模式,每个分类模式对应一 种配网运行状态,每种分类模式的训练样本数为L个,设Ce为第e类分类模式的训练样本中 心,xe[h]为第e类分类模式中的第h个训练样本的特征向量,1≤e≤N,1≤h≤L,其中, Ce=1LΣh=1Lxe[h];

分类字典CD2包含混合支持向量机多类分类器中所有二元支持向量机分类器的训练参数;

分类字典CD3包含混合支持向量机多类分类器中所有二元支持向量机分类器中最优分类法向 量模||ωe||的大小;

步骤1.3.3,基于核空间距离分析构造混合SVM多类分类器,包括以下子步骤,

步骤1.3.3.1,输入待测样本的特征向量x*,初始化数组Index[N]=0,变量Temp=0,K=1, m=0;定义训练样本中样本所对应类别标签Flag=+1为有效,将所有分类模式进行排序,包 括根据分类字典CD1依次计算待测样本和分类字典CD1中第e类模式类中心Ce的欧式距离 Ed(e)=||x*-Ce||,并按大小进行升序排列,随后把对应类标号e按顺序依次存储到数组Index[N] 中的第n位,即Index(n)=e,n=1,…,N;

步骤1.3.3.2,根据排序的顺序,调用一类对应的决策函数De(x*)进行计算,同时将计算 得到的决策函数输出值赋给临时变量Temp,即Temp=De(x*);

步骤1.3.3.3,根据当前Temp的符号Sign(Temp)判断是否Sign(Temp)>0;

如果是,则再计算下一个决策函数的输出,包括令K=K+1、m=m+1、e=Index(K),Temp=De(x*), 再次判断是否Sign(Temp)>0;若否则判断是否m=1,m=1时待测样本属于当前e所对应类别 并显示分类结果,m不等于1时认为该样本落入误分类区,进入步骤1.3.3.4;如果仍然 Sign(Temp)>0,继续计算下一个决策函数的输出,直到出现负标签;

如果否,则K=K+1,然后判断是否K大于或等于N,否则返回步骤1.3.3.2,根据排序的顺序 调用下一类对应的决策函数De(x*)继续处理,是则样本落入了拒绝识别区,进入步骤1.3.3.4;

其中,计算Temp=De(x*)根据分类字典CD2实现;

步骤1.3.3.4,根据待测样本落入误分类区或拒绝识别区分别处理:

当待测样本落入拒绝识别区时,计算所有二元支持向量机分类器的分类超平面的函数值 随后计算待测样本到所有分类超平面的几何距离 dp(x*)为待测样本和第p个分类超平面的空间几何距离大小,p=1,…,N, 以空间距离最小对应的类作为待测样本的归属,

x*arg(minp(dp))

当待测样本落入误分类区时,计算使待测样本决策函数输出值为有效的分类超平面与它的几 何距离v表示使待测样本决策函数输出值为有效的类别号;以空间距离最 大对应的类作待测样本的归属,

x*arg(maxv(dv))

其中,计算dp(x*)=|Dp(x*)|||ωp||dv(x*)=|Dv(x*)|||ωv||根据分类字典CD3实现。

而且,步骤1.4的实现方式包括以下步骤,

步骤1.4.1,基于标量小波特征重要性评价准则对于步骤1.2所得原始标量小波特 征集合中每个标量小波系数特征元素fr(r=1,2,…,R)进行重要性评估,R表示原始标量小 波特征集合的标量小波系数特征元素个数;随后按重要性评估结果对各个特征元素进行降序 排序,如f1J>f2J>...>fRJ,其中frJ表示准则下的第r个特征元素;

步骤1.4.2,初始化特征子集S={frJ},以及下标变量r=1;

步骤1.4.3,把所有训练样本的特征子集S随机划分为训练子集Strain和测试子集Stest,利 用Stest对基于核空间距离的混合支持向量机多类分类器进行训练,并利用Stest进行性能评估, 同时记录该多类分类器的预测准确率Accuracy;

步骤1.4.4,r=r+1,如果r>R,评估结束,转向步骤1.4.5;否则S=S∪{frJ}并跳转至 步骤1.4.3,;

步骤1.4.5,选择最大Accuracy所对应的特征子集作为最优特征子集并输出;如果有多个 Accuracy均为最大,选择对应特征数目最少的特征子集。

而且,所述核参数选取方式如下,

设e取值范围为1,2,…,N,N表示分类模式总数;设e的初始值为1,对第r个特征元 素执行以下步骤:

步骤1.3.1.1,把第e类运行状态模式中的所有训练样本的第r个特征元素复制至集合 class(r)_I,其余类运行状态模式中的所有训练样本的第r个特征元素复制至集合class(r)_II;

步骤1.3.1.2,若e≤N,使e=e+1且跳转至步骤1.3.1.1;否则,顺序执行步骤1.3.1.3;

步骤1.3.1.3,计算所有核参数下第r个特征元素的标量小波特征重要性评估系数,

包括设任一核参数为第g个核参数,计算在第g个核参数下的标量小波特征重要性评估 准则对第r个特征元素的度量结果

步骤1.3.1.4,对各核参数下第r个特征元素的标量小波特征重要性评估系数进行排序并 求最大值如下,

JMg=arg(max(φJg(r)r))

选择最大值JMg相应的核参数为最优核参数。

而且,设有N类分类模式,每种分类模式的训练样本数均为L,每种分类模式对应一个 二元支持向量机分类器,每个二元支持向量机分类器对应两类训练样本,该类记为类别I,余 类记为类别II;其中,类别I训练样本数为L,类别II训练样本数为M=(N-1)L;

所述基于标量小波特征重要性评价准则如下,

φJ(r)=(1NΣe=1NφJe(r))·(min(φJe(r)e))

φJe(r)=1L2Σu=1LΣt=1LK(fIur,fItr)-2LMΣt=1LΣz=1MK(fItr,fIIzr)+1M2Σa=1MΣz=1MK(fIIar,fIIzr)L(L-1)-1L(L-1)Σu=1LΣt=1LK(fIur,fItr)+M(M-1)-1M(M-1)Σa=1MΣz=1MK(fIIar,fIIzr)

其中,和分别表示类别I中第t个、第u个训练样本的第r个特征元素,t、u的取 值为1,2…L;和分别表示类别II中第a个、第z个训练样本的第r个特征元素,a、z 的取值为1,2…M。

本发明所提出方法主要基于SVM理论,同时对传统的SVM算法进行了改进。该方法从 大量的数据样本中提取相似数据创建训练样本,采用小波包分解技术将故障信号分解成低频 趋势信号和高频随机信号,采用SVM理论建模,合成得到配网运行状态分类数据,并训练 得到基于核空间距离混合支持向量分类器,建立配电网运行特征基因库,从而去建立一种可 靠的判别机制,甄别配电网的正常和异常及故障状态,从根本上提高配电网可靠性,经济性, 安全性。通过大量的仿真数据验证,表明模型具有较强的泛化能力,同时程序运行时间可满 足工程需要。

附图说明

图1为本发明实施例的BSVC参数的训练求解流程图;

图2为本发明实施例的基于核空间距离分析的混合支持向量机分类器;

图3为本发明实施例的基于标量小波系数特征选择算法流程图;

图4为最优超平面示意图;

图5为普通超平面示意图;

图6为本发明实施例的非线性情况分类模型;

图7为本发明实施例的基于支持向量机SVM的配电网运行状态分类方法流程图。

具体实施方式

以下结合附图详细说明本发明实施例技术方案。

实施例流程图如图7所示:

本发明实施例提供的一种基于支持向量机的配电网运行状态分类识别方法,包括训练阶 段和诊断阶段,

所述训练阶段构建两个混合支持向量机多类分类器,一个面向故障相电流提取特征,记 为SVC-I,另一个面向零序电流提取特征,记为SVC-II;针对每个混合支持向量机多类分类 器分别执行以下步骤,

步骤1.1,针对各种配网运行状态,建立包括多个训练样本的训练样本集;

步骤1.2,对训练样本集中所有训练样本进行特征提取,得到每个训练样本的原始标量小波特 征集合;

步骤1.3,构建混合支持向量机多类分类器;

步骤1.4,基于混合支持向量机多类分类器,对原始标量小波特征集合中的标量小波系数特征 元素进行训练和评估,提取最优特征子集;

所述诊断阶段进行配网运行状态在线诊断,包括判断是否有零序电流,没有则进入步骤 a,有则进入步骤b,

步骤a,采集故障相电流得到待测样本,对待测样本进行特征提取得到待测样本的原始标量 小波特征集合,根据步骤1.4所得最优特征子集从待测样本的原始标量小波特征集合提取相 应元素并导入SVC-I,由此得到配网所属运行状态;

步骤b,基于零序电流得到待测样本,对待测样本进行特征提取得到待测样本的原始标量小 波特征集合,根据步骤1.4所得最优特征子集从待测样本的原始标量小波特征集合提取相应 元素并导入SVC-II,由此得到配网所属运行状态。

为便于说明本发明实施方式起见,首先提供本发明的理论分析。

1.配网运行信号特征提取

1.1相似数据的提取

配网各类故障波形(电压或电流)具有各自的特点,甚至故障发生的不同时段,波形的 变化也是有规律的[9-10]。本发明利用这一特征,从大量的数据中选择相似数据(同一类故障 或运行状态)创建训练样本,采用小波包分解技术将其分解为近似信号和细节信号,得到配 网运行状态特征子集。

1.2基于小波包技术的信号特征的提取

作为一种常用的信号处理方法,小波在数据处理技术领域的地位十分重要[11-13]。相对于 傅里叶变换反映的只是信号的整体特征,小波(包)变换能够体现信号的局部特征和细节描 述。小波分析中的多分辨率分析可以对信号进行有效的时频分解,但由于其尺度是按二进制 变化的,所以在高频段其频率分辨率较差,而在低频段其时间分辨率较差。小波包分析能够 为信号提供一种更加精细的分析方法,将频带进行多层次划分,因此能对小波分析没有细分 的高频部分作进一步分解,并能够根据被分析信号的特征,自适应地选择相应频带,使之与 信号频谱相匹配,从而提高了时频分辨率,具有更广泛的应用价值。

与标准傅里叶变换相比,小波分析中所用到的小波函数具有不唯一性,即小波函数的选 择具有多样性。用不同的小波基分析同一问题会产生不同的效果,所以目前并没有一个公认 的原则来选择小波函数,一般采用实际中定性分析结合实验比较的办法进行选择。dbN小波 系是工程上应用较多的小波函数,这一小波系的特点是能量无损性和功率互补性。通过采用 多种小波进行多次仿真试验比较,再根据以往的经验,决定选用db4小波基。

对从零序电流互感器或零序电流滤过器获得的故障暂态电流进行小波包分解,其实质是 让信号通过一组高低同组合的共轭正交滤波器组,不断地信号划分到不同的频段上,滤波器 组每作用一次,采样将增加一倍,数据点数则减半。对于相同频段,小波分解系数的个数的 多少与分解层数有关,分解层数越多,则得到的小波系数个数越多,由此得到的标量小波特 征量越多,越有利于分类。但考虑到后续最优特征子集的选择,特征量的增加使计算量增大, 同时加大了数据处理的难度,使分类器的训练时间增加。

2、支持向量机基本原理

支持向量机是基于统计学理论的新型机器学习方法,它通过用内积函数定义的非线性变 化将输入样本空间映射到高维线性特征空间,在特征空间中,构建最优超平面,使分类器的 分类距离达到最大,使真实样本风险最小,具有全局最优性和最大的泛化能力,在解决小样 本、非线性以及高维模式识别问题中表现出很大的优势。最基本的支持向量机分类器(SVC) 可以实现二元分类,即二元支持向量机分类器(BSVM),能够实现对带正、负标签的数据进 行分类。但绝大部分的实际应用都属于多模式分类问题。多类SVC的构建主要包括两种类型: 直接设计一个多类SVC,这种方法因优化时包含较多的变量,计算复杂,且分类模式较多时 较前者也不占优势,在实际工程领域罕有应用。另一类型是集成多个二元支持向量机分类器 以形成一个多类SVC;包括one-against-rest SVC、one-against-one SVC和决策树SVC等。本 发明实施例采用one-against-rest SVC以实现对配网运行状态模式的分类。

2.1最优分类超平面

对于前面所述,训练的目的就是找到多个超平面将训练样本完全分开。现假设两类模式 分类问题(记为类别I和类别II),即训练一个BSVC(二元支持向量机分类器),该分类超平 面可描述为:

H:<ω·x>+b=0    (1)

其中,ω为分类超平面法向量,x为训练样本所对应的特征向量,b为分类超平面偏差,·为 向量的点积运算。设定类别I中训练样本的特征向量xI满足<ω·xI>+b≥0,样本特征标签 yI=+1;类别II中训练样本的特征向量xII满足(ω·xII)+b<0,样本特征标签yII=-1。 超平面H能够把两类训练样本完全分开。显然能完全正确分开训练点的分类超平面不止一个。 为了能得到最优的分类结果,往往选取这样的超平面:训练样本可以被无误差地划分,而且 每一类数据与超平面距离最近的向量与超平面之间的距离最大,则称这个超平面为最优超平 面。如图4、5所示最优超平面和普通超平面,其中,H为分类超平面,H1、H2分别为类别 I与类别II中离分类超平面最近的训练样本所在平面且平行于分类超平面的平面,它们之间 的距离就是所谓的分类间隔(Margin)。

下面计算两个分类面H1、H2之间的距离Margin;

对(ω,x)进行如下约束(归一化操作):

min|<ω·x>+b|=1    (2)

则:

H1:<ω·x>+b=+1,

                   (3)

H2:<ω·x>+b=-1,

因此,对于类别I和类别II的训练样本需满足如下关系:

<ω·xI>+b≥1,yI=+1    (4)

<ω·xII>+b≤-1,yII=-1

上式可合并为:

y·(ω·x+b)≥1    (5)

其中,y的含义为特征向量x对应的类别标签。

由空间几何知识可知,H1、H2到H的距离都为1/||ω||,所以分类间隔为2/||ω||。

2.2线性可分及线性不可分情况

对于线性可分的情况,寻求最优超平面就是使分类间隔Margin最大,而求解该值的最 大值,等价于求||ω||2/2的最小值。同时求该极值存在约束条件:yi·(ω·xi+b)≥1。因此可以引 入拉格朗日(Lagrange)函数L(ω,b,λ)求解得到最优超平面,λ为Lagrange乘子:

L(ω,b,λ)=12||ω||2-Σi=1lλi(yi·(ω·xi+b)-1)---(6)

s.t.λi≥0i=1,2,...,l

其中l为训练样本总数;λi为第i个训练样本的Lagrange乘子;xi、yi分别为第i个训 练样本的特征向量和所对应的类别标签。对两个变量ω和b依次求偏导,得到:

Lω=ω-Σi=1lλiyixi=0

(7)

Lb=Σi=1lλiyi=0

将式(7)的结果代回式(6),并根据Karush-Kuhn-Tucker最优化条件,产生如下对偶式:

maxλW(λ)=Σi=1lλi-12Σi,j=1lλiλjyiyj<xi,xj>

s.t.Σi=1lλiyi=0λi0i=1,2,...,l---(8)

此时,最优超平面转化为通过求解函数W(λ)的最大值得到。其中l仍为训练样本总数;λj为第j个训练样本的Lagrange乘子;xj、yj分别为第j个训练样本的特征向量和所对应的类 别标签,j=1,2,...,l。

该函数的解需满足:

λi[yi(ω·xi+b)-1]=0    (9)

在所有训练样本中,大部分样本(一般样本),所对应的Lagrange乘子为0,解中只有一 小部分Lagrange乘子不为0。若某训练样本的特征向量xc对应的λc=0,特征向量xc就是支 持向量(Support Vector,SV),1≤c≤l。假设某待分类的待测样本的特征向量为x*,通过求 解式(8)得到Lagrange乘子λc(不等于0)和分类超平面偏差b。同时由式(7)可知各支持向量 的相应分类超平面法向量nsv为支持向量的数目,1≤d≤nsv;λd,yd分别 为第d个支持向量xd所对应的Lagrange乘子,类别标签。则最优分类决策函数为:

D(x*)=sign(ω·x*+b)=sign(Σd=1nsvλdyd<xd,x*>+b)---(10)

其中,sign(·)表示符号判别函数;第d个支持向量所对应的分类偏差bd由式(9)可得:

bd=1/yd-Σk=1nsvλkyk<xd,xk>---(11)

其中,λk,yk分别为第k个支持向量xk所对应的Lagrange乘子,类别标签,1≤k≤nsv。 最后分类偏差b为所有支持向量SV对应分类偏差bd的平均值。

对于线性不可分的情况,不同类别模式之间的训练样本相互重叠,不可能建立一个不具 有分类误差的分类超平面。此时,需引入松弛因子ξ,以允许某些训练样本出现在分类间隔 (Margin)内。仿照线性可分情况,正负标签的训练样本需满足以下关系式:

yi·(ω·xi+b)≥1-ξi,ξi≥0    (12)

当第i个训练样本的松弛因子ξi大于0时,将会出现错误分类的训练样本。因此,可把对应为训练集中错分训练样本的数目。实际中应尽量减小训练样本的误分数。因此,需 写入优化函数,变为:

||ω||22+CΣi=1lξi---(13)

其中,C为惩罚因子(惩罚错误分类训练样本数目,又称为惩罚系数)。

优化该函数的步骤与上述线性可分的情况基本一致,首先需建立拉格朗日(Lagrange) 函数:

L(ω,b,λ)=12||ω||2+CΣi=1lξi-Σi=1lλi[yi·(ω·xi+b)-1+ξi]-Σi=1lγiξi---(14)

s.t.λi≥0  i=1,2,...,l

其中l为训练样本总数;λi为第i个训练样本的Lagrange乘子;xi、yi分别为第i个训 练样本的特征向量和所对应的类别标签。

对上述函数的三个参数(ω、b和松弛因子ξi)求偏导。类似的,我们也能够得到如 下对偶式:

maxλW(λ)=Σi=1lλi-12Σi,j=1lλiλjyiyj<xi,xj>

s.t.Σi=1lλiyi=00λiCi=1,2,...,l---(15)

最终得到的分类决策函数D(x*)为:

D(x*)=sign(Σd=1nsvλdyd<xd,x*>+b)---(16)

分类偏差b的求法与线性可分的情况相同。

2.3非线性情况及核函数

当在输入空间无法用上述的线性判别函数来分类样本时,就不能简单地在原始输入空间 来构造最优分类超平面了。此时必须通过一个非线性函数将训练集中所有训练样本映射到一 个高维线性特征空间,在这个维数可能为无穷大的线性空间中构造最优超平面,并得到分类 器的决策函数,如图6所示。

设有非线性变换φ,某样本的特征向量为x,将该样本从n维输入空间Rn映射到高维空 间为φ(x)。以特征向量φ(x)代替输入的特征向量x。此时,无论目标函数还是决策函数都只 涉及到训练样本之间的内积运算,避免了复杂的高维运算。同时,这种内积运算可以用原空 间中的函数实现,这个函数就是所谓的“核函数”。此时的核函数对应着某一变换空间的内积 K(xi,xj)=φ(xi)·φ(xj),由于这种内积运算可以转换为原空间中的函数运算,所以计算复杂度 没有增加,不会出现“维数灾难”的现象。研究中发现在SVM中使用的有效核函数都必须满足 Mercer条件,所谓Mercer条件,是指核函数矩阵必须为对称且半正定矩阵。下面给出了半正 定矩阵的定义。

定义1(半正定矩阵)一个对称矩阵A是半正定的(positive semi-definite),如果它的特征值 都是非负数。即当且仅当对于所有的向量v都有v'Av≥0,

v'Av≥0    (17)

v'表示向量v的转置。

比较常见的核函数有:

·线性核函数:

K(A,B)=A·B    (18)

·q阶多项式核函数:

K(A,b)=(1+A·B)q    (19)

·径向基RBF核函数:

K(A,B)=exp(-||A-B||22)    (20)

(18)(19)(20)中,A和B为输入变量,q、σ为函数参数。

本发明采用RBF核函数。此时,式(15)所示的二次规划的目标函数变为:

maxλW(λ)=Σi=1lλi-12Σi,j=1lλiλjyiyjK<xi,xj>

s.t.Σi=1lλiyi=00λiCi=1,2,...,l---(21)

对应的分类决策函数(16)也变为:

D(x*)=sign(Σd=1nsvλdydK(xd,x*)+b)---(22)

面对实际问题,SVM算法的一般流程是1)数据特征提取;2)SVM类型的选择3)SVM 中核函数和已知参数(如惩罚系数C)的选择。这一流程称为模型选择。特征选择主要是指用 何种参数表征训练样本集合的特征问题,而在训练样本集合特征和核函数的类型确定以后, 模型选择则等价于SVC中各个参数的调整,即SVC的训练问题。

3.基于核空间距离分析的混合SVM多类分类器

一个基本的BSVC只能对两种类别数据进行分类,但实际的配网运行状态分类中是多种 模式的分类问题。因此,需要设计多类SVC才能满足分类的需求。本发明采用 one-against-restSVM多类分类器,此分类器基于核空间距离分析的混合SVC。在本方法中, 如果待测样本对应的两个或多个决策函数的输出均为有效值,则表示待测样本落入了误分类 区,落入该区域的待测样本可能会引起误诊断;如果待测样本对应的所有决策函数的输出均 为无效值,则表示待测样本落入了拒绝识别区。为了解决待测样本落入不可分类区(包括误 分类区和拒绝识别区)造成的分类器性能下降问题,提出了基于核空间距离判别分析方法。 该方法的基本思想如下:当仅有一个决策函数有效时,进行正常的故障决策;当多个决策函 数有效或所有决策函数都无效时,即当待测样本落入不可分类区时,计算待测样本和对应决 策面的空间距离,根据空间距离大小进行故障决策,具体如下:

(1)假设待测样本的特征向量为x*,当待测样本落入误分类区时,需要计算待测样本和输出 值为有效值所对应的分类面的空间距离d(x*)。待测样本和第p个最优分类超平面的空间 距离大小记为dp(x*),则根据空间几何知识,有:

dp(x*)=|Dp(x*)|||ωp||---(23)

其中,||ωp||为第p个最优分类面法向量模,Dp(x*)为第p个最优分类面的决策函数, 由通用的SVC决策公式给出:

Dp(x*)=Σs=1npsvλpsypsK(xps,x*)+bp---(24)

其中,npsv表示第p个最优分类超平面所对应支持向量的数目;λps表示第p个超平面 上第s个支持向量所对应的Lagrange乘子(不等于0),1≤s≤npsv;xps、yps分别表示第p 个最优分类超平面上第s个支持向量所对应的特征向量和类别标签;bp表示第p个最优分 类超平面所对应分类超平面偏差;K(xps,x*)表示待测样本的特征向量x*与支持向量xps之间 的核函数值。

一般的,待测样本距离某个决策面越近,则代表待测样本的分类不确定性越大;反之, 当距离越大时,表示该待测样本属于对应测试类的概率也越大。因此,此处应该以空间距离 最大对应的类作为该待测样本的归属:

x*arg(maxp(dp))---(25)

(2)当待测样本落入拒绝识别区时,仍然采用空间距离分析方法。此时,需要计算待测样本和 所有超面的空间距离。一般的,待测样本越靠近某个分类面,表示该待测样本越接近超面 另外一侧的故障模式类,该待测样本属于那一类的概率也越大。因此,此处应该以空间距 离最小值作为判决该待测样本的归属依据:

x*arg(maxp(dp))---(26)

大部分情况下,对某个待测样本而言,其归属仅和其中一个或几个决策函数有关,对于 其他决策函数而言,不需要参与计算。简而言之,常规的one-against-rest SVC的决策方法存 在部分冗余计算。如果在决策阶段开始就知道哪些决策函数符号相同就可以避免这种冗余计 算,这种情况只能通过计算所有的决策函数才行,但这样做又需要较高的计算复杂度,失去 了本方法的意义。为了能够快速定位需要计算的决策函数,本文采用一个分类字典(称为 CD1)计算待测样本和所有模式类的中心距离,根据距离远近粗略确定需要计算的决策函数, 这是一种启发式方法,即待测样本总和自己的归属类具有较近的距离。CD1的构建十分简单, 其中的内容是由各个运行状态模式类的训练样本中心组成。假设需要区分N种运行状态模式, 每种状态模式的训练样本数目为L个,此处第e种运行状态模式的样本中心定义为: Ce=1LΣh=1Lxe[h]

其中,Ce为第e类运行状态模式的训练样本中心,xe[h]为第e类运行状态模式中的第 h个训练样本的特征向量,1≤e≤N,1≤h≤L。

4标量小波特征重要性评价标准

现假设有N类分类模式,每种分类模式的训练样本数均为L,现定义第e类运行状态模 式中的第h个训练样本的特征向量集统一为:Fe[h]={feh1,feh2,…,fehR},fehr为该集合中第 r个特征元素,r=1,2,...,R,R为集合元素总数,1≤h≤L。

由上文所述,每种分类模式对应一个BSVC,对每个BSVC而言,共需两类样本-该类和 余类(记为类别I和类别II)。其中,类别I训练样本数为L,类别II训练样本数为M=(N-1)L。 在低维线性可分的情况下,现定义第e个BSVC中第r个特征元素的重要性评价准则系数Je(r) 如下:

Je(r)=|mIr-mIIr|σIr+σIIr---(27)

其中,和依次为类别I和类别II所有训练样本的特征向量集 中第r个特征元素的样本均值,和依次为类别I和类别 II所属训练样本的特征向量集中第r个特征元素的样本标准方差。一个好的特征应能使两类 样本具有较大的类间距离和较小的类内方差,所以Je(r)值越大越好。

对于低维线性不可分的情况,BSVC可以利用非线性函数φ(·)把标量小波特征映射到高 维,使其线性可分。因此,有必要借助φ(·)把特征选择准则同时映射至高维空间,变为:

φJe(r)=|1LΣt=1Lφ(fItr)-1MΣa=1Mφ(fIIar)|1(L-1)Σt=1L(φ(fItr)-1LΣu=1Lφ(fIur))2+1(M-1)Σa=1M(φ(fIIar)-1MΣz=1Mφ(fIIzr))2---(28)

其中,和分别表示类别I中第t个、第u个训练样本的第r个特征元素,t、u的取 值为1,2…L;和分别表示类别II中第a个、第z个训练样本的第r个特征元素,a、z 的取值为1,2…M。

考虑到核函数K(A,B)=(φ(A)·φ(B))=exp(-||A-B||22),上式最终可化简为:

φJe(r)=1L2Σu=1LΣt=1LK(fIur,fItr)-2LMΣt=1LΣz=1MK(fItr,fIIzr)+1M2Σa=1MΣz=1MK(fIIar,fIIzr)L(L-1)-1L(L-1)Σu=1LΣt=1LK(fIur,fItr)+M(M-1)-1M(M-1)Σa=1MΣz=1MK(fIIar,fIIzr)---(29)

上式反映的是某一个BSVC内的标量小波系数的重要性评估。为了体现某一个标量小波 特征对多类分类器中所有BSVC的一个整体性影响,现定义标量小波系数重要性评估准则如 下:

φJ(r)=(1NΣe=1NφJe(r))·(min(φJe(r)e))---(30)

指标融合了多类分类器中所有BVSC的结构信息,值越大表明该特征的类别区分能 力越强,提高了后续分类器的泛化性能。

以下在理论基础上进一步详细说明实施例的具体实现以供实施参考:

本领域技术人员可根据配电网实际运行情况和SVM的特点构造两个SVC。其中SVM分 类器I:以故障相电流来构建特征向量,实施例构建的特征向量主要包括大电机启动、变压器 励磁涌流、过负荷运行、雷击故障、相间短路(包括两相和三相短路)、断线故障、以及正常 (当成一种特殊故障)7类。其中SVM分类器II:以零序电流来构建特征向量,实施例构建 的特征向量主要为单相接地故障,包括稳定型故障、电弧型故障、高阻电弧型故障、放电型 故障、和高阻放电型故障6类。

具体实现包括以下部分:

S1配电网运行状态多类分类器的训练

S1-1建立配网运行状态电流数据库

该步骤可以预先完成。建议通过在仿真软件PSCAD中搭建典型配网模型,模拟配 网运行中的正常、异常(如大电机的启动,过负荷运行,以及变压器的励磁涌流)、不同 故障(如雷击,短路,相间故障,接地故障,断线)状态,仿真得到大量电流数据样本 (其中接地故障采集零序电流,其他采集故障相电流);同时采用配电网自动化系统运行 故障在线监测录波数据库作为补充和校验;并通过以后实际在线运行录波装置不断添加 更新数据;完成配网运行状态电流数据库的建立。

S1-2标量小波系数特征的提取

对训练样本集中所有训练样本和待测样本进行特征提取采用一致的方式。本领域技 术人员可自行设定小波系数特征提取方式。实施例采用db4小波包分解技术,对所有均 匀采样的样本数据分别进行4层小波变换和分解,并对第4层每个系数的能量值进行开 方并组成一个16维特征的训练样本。第4层小波包分解可产生8个细节系数(依次记为 d1,d2,…,d8)和8个粗系数(依次记为a1,a2,…,a8),假设每个系数经过小波分解之 后的维数为Wdim,则取每个系数的能量值的开方作为故障信息特征。因此,产生16个 故障特征量:

f1=[Σw=1Wdim(Xw,al)2]/Wdim

f2=[Σi=1Wdim(Xw,al)2]/Wdim

...(S1-1)

f15=[Σi=1Wdim(Xw,a8)2]/Wdim

f16=[Σw=1Wdim(Xw,a8)2]/Wdim

其中,Xw,U表示某系数U中的第w个数据点大小,例如Xw,a1表示第1个粗系 数a1中的第w个数据点大小;Xw,d1表示第1个细节系数d1中的第w个数据点大小。 故原始的运行状态特征集合为:F={f1,f2,...,f16},即r=1,2,...,16,R=16。(注意: 在进行后续SVC的训练中,还需对这些特征量进行归一化操作,样本均值为0,方差为 1)。

S1-3基于SVM配网运行特征多类分类器的设计

S1-3-1SVC核函数参数的选择

本发明采用径向基核函数K(A,B)=(φ(A)·φ(B))=exp(-||A-B||22),其中A,B采用不 同样本所对应的特征向量,σ2为核参数。一般的,不同的核参数σ2可能会导致不同的特 征选择结果,同时为了能得到最佳的分类精确度,因此可以预先确定一个较优的核参数, 它不但关系到分类特征的选择结果,将来也需作为后续SVC的核参使用,能够使所有 BSVC均能发挥较好的性能。针对于此,实施例进一步设计了以下的核参数寻优策略:

设定核参数σ2的选择范围为:{0.01,0.1,1,2,4,8,16,32,64,128},共10个核参数。

e取值范围为1,2,…,N,N表示分类模式总数;设e的初始值为1,对第r个特征 元素执行以下步骤:

Step1:把第e类运行状态模式中的所有训练样本的第r个特征元素复制至集合 class(r)_I,其余类运行状态模式中的所有训练样本的第r个特征元素复制至集合 class(r)_II;

Step2:若e≤N,使e=e+1且跳转至Step1;否则,顺序执行下一步Step3;

Step3:计算所有核参数下第r个特征元素的标量小波特征重要性评估系数,

包括根据式(30)计算在第g个核参数下的标量小波特征重要性评估准则对第r个特 征元素的度量结果实施例中1≤g≤10;

Step4:对各核参数下第r个特征元素的标量小波特征重要性评估系数进行排序并求 最大值:

JMg=arg(max(φJg(r)r))---(S1-2)

此式为最大特征准则系数,选择最大值JMg相应的核参数为最优核参数。

这种选取是一次性的、离线的,当最优核函数参数确定后,后续工作就不再重复此类步 骤了。

S1-3-2基于径向基核二元支持向量机分类器(Binary Support Vector Classifier,BSVC)的训 练

在配电网运行特征分类中,各类运行状态模式往往是非线性不可分的。由SVM的 理论分析可知,对线性可分的情况,寻求最优分类超平面的过程可以转换成一个二次规 划的问题。考虑非线性可分的情况,利用非线性变换φ(x)将原始特征量映射到高维,使 其线性可分;同时考虑非线性不可分的情况,引入松弛因子ξi(ξi≥0),当划分出现错 误时,ξi大于零。所以每种故障模式的BSVC的训练对应的二次规划问题为:

minω,b,ξi12||ω||2+CΣi=1lξi    (S1-3)

s.t.yi((ω·xi)+b)≥1-ξi   i=1,2,...,l

式中,ω为分类超平面法向量,b为分类超平面偏差,表示训练集中划分错误 的相量的上界;C为惩罚因子,作用是使分类间隔和分类错误达到某种折中,C值越大 对错误惩罚越重。

式(S1-3)是一个凸规划问题,采用Lagrange乘子法,引入Lagrange乘子λii=1,2,...,l,同时引入核函数K(A,B)=(φ(A)·φ(B))=exp(-||A-B||22)并根据 Karush-Kuhn-Tucker最优化条件产生如下对偶式:

maxλW(λ)=Σi=1lλi-12Σi,j=1lλiλjyiyjK<xi,xj>

s.t.Σi=1lλiyi=00λiCi=1,2,...,l---(S1-4)

相应的配电网各类故障模式BSVC分类决策函数为:

D(x*)=sign(Σd=1nsvλdydK(x*,xd)+b)---(S1-5)

其中,nsv为支持向量的数目,λd,yd,xd分别为第d个支持向量所对应的Lagrange 乘子,类别标签以及样本,1≤d≤nsv

每一个BSVC参数的训练求解过程如图1所示:

先求得支持向量SV所对应的Lagrange乘子λc≠0,然后计算最后计 算bc=1/yc-ω·xc=1/yc-Σd=1nsvλdyd<xd,xc>=1/yc-Σd=1nsvλdydK(xd,xc),其中xc、yc表示支持向量 及其对应的类别标签,bc表示由该支持向量计算得到的分类偏差。

通过实验表明选择惩罚因子C=100时可以得到较好的结果。得到配电网运行特征 基因库—分类字典CD1、CD2、CD3。

分类字典CD1(Classify Dictionary)(内容由各个分类模式类的训练样本中心组成。 假设需要分区N类分类模式,每个分类模式对应一种配网运行状态,每个分类模式即一 种运行状态模式。每种故障模式训练样本数为L个,设Ce为第e类运行状态模式的训练 样本中心,xe[h]为第e类运行状态模式中的第h个训练样本的特征向量,1≤e≤N, 1≤h≤L。其中,Ce=1LΣh=1Lxe[h]).

分类字典CD2(该字典包含one-against-restSVC中所有BSVC的训练参数,包括支 持向量和对应标签、拉氏系数、偏差等);

分类字典CD3(该字典包含了one-against-restSVC中所有BSVC中最优分类法向量 模(2-范数)||ωe||的大小)。

S1-3-3基于核空间距离分析的混合SVM多类分类器的构造

参见图2,实施例的构造具体实现包括以下子步骤:

Step1,输入待测样本的特征向量x*;初始化数组Index[N]=0(即建立一个长度为 N的数组Index[N]),变量Temp=0,K=1,m=0;定义训练样本中样本所对应类别标 签Flag=+1为有效(即属于该类)。将所有分类模式进行排序,包括根据分类字典CD1 依次计算待测样本和分类字典CD1中第e类(e=1,2,…,N)模式类中心Ce的欧式距 离Ed(e)=||x*-Ce||。并按大小进行升序排列,随后把对应的类标号e按顺序存储到数 组Index[N]中第n位,即Index(n)=e,n=1,…,N。该步骤中利用分类字典CD1 对各候选决策函数进行排列(粗略定位有效决策函数)。

Step2,根据排序的顺序,调用一类对应的BSVC决策函数De(x*)进行计算,同时 将计算得到的决策函数输出值赋给临时变量Temp,记为Temp=De(x*);

Step3,根据当前Temp的符号Sign(Temp)判断是否Sign(Temp)>0。

如果是,则当前计算得到的决策函数输出为正标签(有效标签),则再计算下一 个决策函数的输出,包括K=K+1、m=m+1,令e=Index(K)(Index(K)为数组第K 个元素的值),Temp=De(x*),再次判断是否Sign(Temp)>0。若否则判断是否m=1,m=1 时待测样本属于当前e所对应类别并显示分类结果,m不等于1时认为该样本落入误 分类区,进入Step4。如果仍然为正标签(即仍然Sign(Temp)>0),继续计算下一个决 策函数的输出,即返回执行K=K+1、m=m+1,令e=Index(K),Temp=De(x*),再次 判断是否Sign(Temp)>0,直到出现负标签。

如果否,则K=K+1,然后判断是否K大于或等于N,否则返回步骤2,根据排 序的顺序调用下一类对应的BSVC决策函数De(x*)继续处理,是则说明全部决策函数 计算完毕,但所有的函数输出均为负标签(无效标签),则表示样本落入了拒绝识别 区(此步骤3利用到了分类字典CD2),进入Step4。

Step4,如果待测样本落入了误分类区或拒绝识别区,则算法进入Step4。在本步骤 中,用到了分类字典CD3。

当待测样本落入拒绝识别区时:计算所有BSVC的分类超平面的函数值 随后计算该待测样本到所有分类超平面的几何距离 dp(x*)为待测样本和第p个分类超平面的空间几何距离大小。 p=1,…,N,样本x*离某个类的决策面越近,则表示样本属于该类的概率越大。因此, 此处以空间距离最小对应的类作为该待测样本的归属:

x*arg(minp(dp))---(S1-6)

当待测样本落入误分类区时:计算使该待测样本决策函数输出值为有效的分类超平 面与它的几何距离v表示使该样本决策函数输出值为有效的类别 号。待测样本离某个类的决策面越远,则表示样本属于该类的概率也越大。因此,此 处应以空间距离最大对应的类作为该待测样本的归属:

x*arg(minv(dv))---(S1-7)

S1-4基于标量小波系数最优特征子集的选择

最优特征子集的选择算法如下:

(1)借助于式(30)所示标量小波特征重要性评价准则对于式(S1-1)所得原始 标量小波特征集合中每个标量小波系数特征元素fr(r=1,2,…,R)进行重要性评估,R 表示特征向量的维数(即原始标量小波特征集合的标量小波系数特征元素个数)。随后按 重要性对各个特征元素进行降序排序,如f1J>f2J>...>fRJ,其中frJ表示准则下 的第r个特征元素。

(2)初始化特征子集S={frJ},以及下标变量r=1。

(3)把所有训练样本的特征子集S随机划分为训练子集Strain和测试子集Stest,利用 Stest对基于核空间距离的混合SVM多类分类器进行训练,并利用Stest进行性能评估,同 时记录该多类分类器的预测准确率Accuracy(定义为:分类正确的样本数目与全部待测 样本数目之比值)。

(4)r=r+1,如果r>R,评估结束,转向第5步;否则S=S∪{frJ}并跳转至第3步。

(5)选择最大Accuracy所对应的特征子集作为最优特征子集并输出;如果有多个 Accuracy均为最大,只需选择对应特征数目最少的一组即可(目的是使后面分类器训练 以及样本分类识别耗时最少),整个基于标量小波系数最优特征子集选择算法的流程如图 3所示。

对于待测样本,按S1-2提取标量小波系数特征后,按以上流程所得最优特征子集 的特征元素组合选择出对应的特征元素组合作为待测样本的特征集(向量)输入分类器。

S2配电网运行状态分类器的构造

根据电流突变量启动配电网录波装置,由第一步得到的分类字典CD1-3构造得到两个 基于核空间距离分析的混合SVC-I、SVC-II。构造流程见S1-3-3(基于核空间距离分析的混 合SVM多类分类器的构造)。

S3配电网运行状态的诊断

配网运行状态诊断过程如下:

(1)判断是否有零序电流,如果没有,则采集故障相电流并把数据导入SVC-I,由此得到 分类结果;否则进入第2步。

(2)将零序电流导入SVC-II,得到此时配网所属运行状态。

将数据导入SVC-I或SVC-II时,都是根据S1-2提取标量小波系数特征,然后根据S1-4 基于标量小波系数特征选取最优特征子集得到待测样本的特征向量,输入根据步骤S1-3-3基 于核空间距离分析所得混合SVM多类分类器,即可得到分类结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技 术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不 会偏离本发明的精神或者超越所附权利要求书所定义的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号