首页> 中国专利> 基于K-means和支持向量回归的电力用户分类方法、装置及系统

基于K-means和支持向量回归的电力用户分类方法、装置及系统

摘要

本发明公开了一种基于K‑means和支持向量回归的电力用户分类方法、装置及系统,所述方法包括获取历史负荷数据;选用K‑means方法对所述历史负荷数据进行聚类,其中,聚类类别数通过轮廓系数法确定,聚类中心通过层次聚类法确定;利用聚类结果训练获得支持向量回归模型;将获得的实时负荷数据输入至所述支持向量回归模型,获得电力用户分类。本发明能够有效提高K‑means的聚类效果,减少聚类所用的时间和复杂度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本发明属于电力系统负荷预测分析与计算领域,具体涉及一种基于K-means和支持向量回归的电力用户分类方法、装置及系统。

背景技术

随着我国电力市场改革的深化和智能电网技术的持续发展,风电、光伏、储能等分布式电源及柔性负荷逐步接入负荷侧,传统负荷结构发生巨大变化,形成电力市场条件下可实现多能互补的新型负荷结构;同时,需求侧资源在竞争市场中的作用被重新认识,用户主动参与电网互动的意愿越来越强烈,如何引导用户主动参与电力市场交易,改变传统高能耗的用电方式,实现电力系统资源的优化配置等变得尤为关键。

目前,各类智能电能测量设备逐步渗透到电力用户,电力用户不同时间尺度下的用电信息、负荷曲线等大量数据可以很方便地获得。随着用户用电量快速增长,用户用电行为对电网影响也越来越大。在此背景下,资源互补的工业、商业、居民负荷等用电行为产生了新的海量用电数据,对传统用户用电行为分析提出了更高的要求。如何有效利用上述数据分析电力用户的总体负荷水平和负荷曲线形状、用电行为特征等,对电力用户需求侧响应的开展和节能政策的制定具有重要意义。

因此,需要对电力用户用电行为开展系统研究,而用户负荷分类即为其中的一个重要方面。用户负荷的海量数据分析提取过程中,数据降维可能会丢失部分有效信息,且数据量较大时,降维效率并不理想;当前的用户聚类研究中,大都利用某一类聚类方法,未有效考虑聚类中心对精度的影响,且针对用电大数据,仍需要考虑减少聚类数据挖掘的计算复杂度。

发明内容

针对上述问题,本发明提出一种基于K-means和支持向量回归的电力用户分类方法、装置及系统,能够有效提高K-means的聚类效果,减少聚类所用的时间和复杂度。

为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:

第一方面,本发明提供了一种基于K-means和支持向量回归的电力用户分类方法,包括:

获取历史负荷数据;

选用K-means方法对所述历史负荷数据进行聚类,其中,聚类类别数通过轮廓系数法确定,聚类中心通过层次聚类法确定;

利用聚类结果训练获得支持向量回归模型;

将获得的实时负荷数据输入至所述支持向量回归模型,获得电力用户分类。

可选地,在所述获取历史负荷数据步骤之后还包括:

采用三次指数平滑法对所述历史负荷数据进行补齐处理。

可选地,三次指数平滑处理后的负荷数据的表达形式为:

式中,X

可选地,所述聚类类别的确定方法包括:

将历史负荷数据以列的形式存储在数据库中,构成样本集,其中,每列构成一个向量点,作为组成集合的一个子集;

按样本集自身具有的数据差异性,采用层次聚类法进行初始的类划分,构成簇;

分别计算簇中各向量点的向量轮廓系数;所述向量轮廓系数的计算公式为:

式中,A(i)为向量i到同一簇内其他点不相似程度的平均值,B(i)为向量i到其他簇的平均不相似程度的最小值,Z(i)为轮廓系数,介于[-1,1];

选择轮廓系数更接近1的类别数作为K-means聚类的类别数。

可选地,所述聚类中心的确定方法包括:

先利用层次聚类算法进行初始的类划分,获得多个类;

计算各个类内对象的均值,并将它作为K-mean算法的初始聚类中心。

第二方面,本发明提供了一种基于K-means和支持向量回归的电力用户分类装置,包括:

获取模块,用于获取历史负荷数据;

聚类模块,用于选用K-means方法对所述历史负荷数据进行聚类,其中,聚类类别数通过轮廓系数法确定,聚类中心通过层次聚类法确定;

训练模块,用于利用聚类结果训练获得支持向量回归模型;

分类模块,用于将获得的实时负荷数据输入至所述支持向量回归模型,获得电力用户分类。

可选地,在所述获取历史负荷数据步骤之后还包括:

采用三次指数平滑法对所述历史负荷数据进行补齐处理;

三次指数平滑处理后的负荷数据的表达形式为:

式中,X

可选地,所述聚类类别的确定方法包括:

将历史负荷数据以列的形式存储在数据库中,构成样本集,其中,每列构成一个向量点,作为组成集合的一个子集;

按样本集自身具有的数据差异性,采用层次聚类法进行初始的类划分,构成簇;

分别计算簇中各向量点的向量轮廓系数;所述向量轮廓系数的计算公式为:

式中,A(i)为向量i到同一簇内其他点不相似程度的平均值,B(i)为向量i到其他簇的平均不相似程度的最小值,Z(i)为轮廓系数,介于[-1,1];

选择轮廓系数更接近1的类别数作为K-means聚类的类别数。

可选地,所述聚类中心的确定方法包括:

先利用层次聚类算法进行初始的类划分,获得多个类;

计算各个类内对象的均值,并将它作为K-mean算法的初始聚类中心。

第三方面,本发明提供了一种基于K-means和支持向量回归的电力用户分类系统,包括存储介质和处理器;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的方法。

与现有技术相比,本发明的有益效果:

本发明提出的基于K-means和支持向量回归的电力用户分类方法、装置及系统,基于轮廓系数和层次聚类法的K-means算法将居民用电负荷曲线聚类,确定出居民用电行为的种类;其中用轮廓系数法确定分类数,用层次分析法确定初始聚类中心;进一步考虑到居民数量会随时间增加,将新增居民用户的用电行为用支持向量机回归法进行分类,并划分到已知的负荷曲线簇,不需要每次都将全部负荷曲线进行聚类分析。

附图说明

为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明,其中:

图1为本发明一种实施例的电力用户分类方法的流程图;

图2为本发明不同类别对应的平均轮廓图;

图3为本发明2、3、4、5类时的轮廓值;

图4为本发明层次聚类法的结果;

图5为本发明居民总的负荷曲线;

图6为本发明K-means类别I结果;

图7为本发明K-means类别II结果;

图8为本发明K-means类别III结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明的保护范围。

下面结合附图对本发明的应用原理作详细的描述。

实施例1

本发明实施例中提供了一种基于K-means和支持向量回归的电力用户分类方法,具体包括以下步骤:

(1)获取历史负荷数据;

(2)选用K-means方法对所述历史负荷数据进行聚类,其中,聚类类别数通过轮廓系数法确定,聚类中心通过层次聚类法确定;

(3)利用聚类结果训练获得支持向量回归模型;

(4)将获得的实时负荷数据输入至所述支持向量回归模型,获得电力用户分类。

在本发明实施例的一种具体实施方式中,若采集到的负荷数据出现数据缺失,则会对后面的负荷聚类的准确度产生影响。由于负荷数据本身是一个时间序列,可以通过分析历史负荷数据得出一定的变化规律,从而对未来的变化规律进行预测。总负荷曲线在局部区域表现为平滑的二次曲线趋势,因此,本发明实施例中提出,针对空缺数据可采用三次指数平滑法进行补齐,即在所述获取历史负荷数据步骤之后,采用三次指数平滑法对所述历史负荷数据进行补齐处理,三次指数平滑处理后的负荷数据的表达形式为:

式中,X

为了验证三次指数平滑处理的效果,在具体实施过程中,首先计算三次指数平滑法的预测值:

式中,m为预期超前值;a

预测精度采用均方误差MS进行三次指数平滑处理效果评价:

式中,N表示时间,为变量t在迭代过程中的最终值。

在本发明实施例的一种具体实施方式中,所述选用K-means方法对所述历史负荷数据进行聚类,具体包括以下子步骤:

步骤1:选择k个类初始中心;

步骤2:进行迭代过程,即对任意一个负荷数据,求其到k个中心的距离,将该负荷数据归到距离最短的中心所在的类;

步骤3:计算均值以更新该类的中心值,计算公式为:

式中:c为中心值,i为属于该类的样本数量,X

步骤4:对于所有的k个聚类中心,若经过步骤2与步骤3迭代法更新后,中心值收敛,则迭代结束,否则继续迭代。

由于K-means算法对一些离散点和初始K值敏感,不同的距离初始值对同样的数据样本影响很大。为此,本发明提出采用轮廓系数法确定聚类类别,层次聚类法确定聚类中心,以提高K-means的聚类效果,并减少聚类所用的时间。

所述聚类类别k的确定方法具体包括以下步骤:

补齐后的历史负荷数据以列的形式存储在数据库中,构成样本集;其中,每列构成一个向量点,作为组成集合的一个子集;

按样本集自身具有的数据差异性,采用层次聚类法进行初始的类划分,构成簇;

分别计算簇中各向量点的向量轮廓系数;所述向量轮廓系数的计算公式为:

式中,A(i)为向量i到同一簇内其他点不相似程度的平均值,B(i)为向量i到其他簇的平均不相似程度的最小值,Z(i)为轮廓系数,介于[-1,1];

选择轮廓系数更接近1的类别数作为K-means聚类的类别数,轮廓系数是来计算不同的分类的量化值。例如,采用轮廓系数法确定出来2个分类,第一个分类的轮廓系数是0.3、0.4、0.55;第二个分类的轮廓系数是0.88、0.86,则第二个分类(即分为2类)作为最终的类别数,因为其轮廓系数更接近1。

所述聚类中心的确定方法具体包括以下步骤:

先利用层次聚类算法进行初始的类划分,获得多个类;

计算各个类内对象的均值,并将它作为K-mean算法的初始聚类中心。

作为支持向量机的一种扩展,支持向量回归(support vector regression,SVR)模型可以利用核函数将原始输入空间转化为新的高维特征空间,从而将非线性回归问题转化为线性回归问题。SVR模型具有较强的泛化能力,可以有效地预测未知输出。SVR模型由训练模型和预测模型两部分组成。本发明实施例采用SVR模型中的训练模型来学习训练负荷历史数据与预测值之间的关系,然后将学习的关系应用到SVR的预测模型中,得到每个输入测试数据的回归值。

首先,设定训练样本相量CV

接着,函数f:x→y可由特征空间估计φ得出;通过这种方式,SVR模型提供了一种将未知输入推广到训练集中观察到结果的方法,并且将均方误差最小化的线性回归模型如下所示:

式中:

为了限制新的高维空间中出现的过拟合现象,在目标函数中引入了一个软边界和一个正则化项,然后将优化问题表述为

上式的约束条件为:

式中:ε为边界阈值;

拉格朗日可以用来表示对偶最大化问题,其公式如下:

上式的约束条件为:

然后,通过求解上述二元最大化问题,得到二者之间的关系,回归预测函数式g(x)为:

式中:X为输入的测试数据,K(s,t)=<φ(s),φ(t)>定义为高维空间中的核函数。在空间变换中,SVR往往更适合于表示复杂的关系,而这种关系往往不能线性地实现。本发明选取径向基函数(RBF)作为核函数,并将其公式化为

K(x,x

式中:γ为是控制高斯核宽度的参数。

在支持向量回归分类时,惩罚参数C的选取是不确定的,它的取值会影响分类结果。当训练集的数据特点不同时,使用不同的核函数的分类效果也不相同。针对多项式核函数,径向基核函数和S形核函数还会涉及到γ参数的设置。

为了可以达到更好的分类效果,分别试验不同的核函数,如表1所示。确定某一种特定的核函数后,给定参数C和参数γ范围较大的取值区间,这样就可以在由参数C和参数γ划分出网格区间,然后用枚举的方法寻找最优的参数C和参数γ,这样就可以得到精度更高的分类结果。

表1

选取某地区1600户居民用户的负荷数据,负荷数据为每半小时采集一次用电量。空缺数据位置按照三次指数平滑法补齐,之后按照列的维度进行数据归一化。计算K-means聚类不同类别时的平均轮廓值,如图1和2所示。

对于聚类问题,既希望聚类的数量比较适中,也希望每个样品的轮廓值尽量高,而通过图1可以发现,类别2或者类别3时平均轮廓值较大。但如果只分为两类,分级效果不明显。由图1可以看出,分两类时,轮廓值较小的数据点相对较多,而分为3类时,轮廓值的分布效果更好。其中2、3、4、5类的轮廓图如图2所示。

1600个数据点按照层次聚类法聚类,应用层次聚类算法,如图3所示得到一个初始的划分,计算每个类内对象的均值,并将它作为K-mean算法的初始聚类中心,这样加速了K-means算法的收敛速度,也可以避免陷入局部最优。其中图4为1600户居民总的负荷曲线,图5、图6、图7为K-means聚类的结果,分别对应类别I、类别II、类别III。

由图5、图6、图7可知:

(1)当居民用电行为类别II时负荷曲线趋势平稳,但由曲线稀疏度可以看出,用户数量并不多。

(2)类别I在上午7点半,类别III在上午7时出现一个负荷高峰。下午4时以后,类别I和类别III用电负荷开始增加,类别I增加更为明显。类别I在晚上7时出现一个高峰。由1600户总的负荷曲线可以看出负荷在上午7时开始增加,在上午8时出现用电高峰,随后负荷开始下降,下午4时以后负荷开始增加,晚上大约7时达到用电高峰,随后负荷开始下降,凌晨1时降低到谷底。

(3)类别I和类别III对总的负荷曲线影响较大,其中类别I在晚上7时到9时曲线要比类别III密集,用电量更高,说明类别I对总负荷曲线的峰值调节能力更强。

(4)聚类结果显示1600户居民用户,类别I为573户,类别II为57户,类别III为970户。将类别I的用户作为标签1,类别II的用户作为标签2,类别III的用户作为标签3。

1600个数据点标签化后作为改进支持向量回归进行分类的训练数据和验证数据,1400个数据作为训练数据,200个数据作为验证数据。选取320户居民24h用电量作为测试数据,可以得到关于这320个数据点的一个分类,按照改进的支持向量机,寻找到最优的参数r=0.03,C=18,采用S形内核函数。其中类别I为117户,类别II为13户,类别III为190户,分类准确率为88.75%。

实施例2

本发明实施例中提供了一种基于K-means和支持向量回归的电力用户分类装置,包括:

获取模块,用于获取历史负荷数据;

聚类模块,用于选用K-means方法对所述历史负荷数据进行聚类,其中,聚类类别数通过轮廓系数法确定,聚类中心通过层次聚类法确定;

训练模块,用于利用聚类结果训练获得支持向量回归模型;

分类模块,用于将获得的实时负荷数据输入至所述支持向量回归模型,获得电力用户分类。

在本发明实施例的一种具体实施方式中,在所述获取历史负荷数据步骤之后还包括:

采用三次指数平滑法对所述历史负荷数据进行补齐处理;

三次指数平滑处理后的负荷数据的表达形式为:

式中,X

在本发明实施例的一种具体实施方式中,所述聚类类别的确定方法包括:

将历史负荷数据以列的形式存储在数据库中,构成样本集,其中,每列构成一个向量点,作为组成集合的一个子集;

按样本集自身具有的数据差异性,采用层次聚类法进行初始的类划分,构成簇;

分别计算簇中各向量点的向量轮廓系数;所述向量轮廓系数的计算公式为:

式中,A(i)为向量i到同一簇内其他点不相似程度的平均值,B(i)为向量i到其他簇的平均不相似程度的最小值,Z(i)为轮廓系数,介于[-1,1];

选择轮廓系数更接近1的类别数作为K-means聚类的类别数。

在本发明实施例的一种具体实施方式中,所述聚类中心的确定方法包括:

先利用层次聚类算法进行初始的类划分,获得多个类;

计算各个类内对象的均值,并将它作为K-mean算法的初始聚类中心。

实施例3

本发明实施例中提供了一种基于K-means和支持向量回归的电力用户分类系统,包括存储介质和处理器;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号