首页> 中国专利> 一种基于两阶段插补模型的智能用电缺失数据修正方法

一种基于两阶段插补模型的智能用电缺失数据修正方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于两阶段插补模型的智能用电缺失数据修正方法，其特征包括：首先在第一阶段选择出最多只有一个缺失项的电力用户，使用基于链式方程多重插补的PMM回归模型，为电力用户的每个缺失项计算出多个候选插补值，再利用线性回归模型计算出唯一的最终插补值；然后在第二阶段，对剩余电力用户的缺失数据采用线性插值法计算插补值；最后，综合两个阶段的结果，获得所有电力用户完整的智能用电数据。本发明能够实现更精确的智能用电缺失数据修正，有效降低计算复杂度，并且能快速完成对多变量缺失的稀疏数据集的插补，具有良好的稳定性。

著录项

公开/公告号CN106384298A

专利类型发明专利
公开/公告日2017-02-08

原文格式PDF
申请/专利权人合肥工业大学;
展开▼

申请/专利号CN201610831540.3
发明设计人周开乐;孙莉;杨善林;邵臻;陆信辉;张弛;陈雯;王琛;
展开▼

申请日2016-09-19
分类号G06Q50/06;G06F17/30;
代理机构安徽省合肥新安专利代理有限责任公司;
代理人陆丽莉
地址 230009 安徽省合肥市包河区屯溪路193号
入库时间 2023-06-19 01:28:23

法律信息

法律状态公告日

法律状态信息

法律状态
2019-05-31

授权

授权
2017-03-08

实质审查的生效 IPC(主分类):G06Q50/06 申请日:20160919

实质审查的生效
2017-02-08

公开

公开

说明书

技术领域

本发明涉及电力系统缺失数据修正技术领域，具体地说是一种基于两阶段插补模型的智能用电缺失数据修正方法。

背景技术

当前，我国电力行业已经初步建成了国内领先、国际一流的信息集成平台，基本形成了以交互性、集成性、数字化和智能化为特征的坚强智能电网。智能电网是一个能够实时监控发电、输电、配电、变电及用电等环节的自动化供用电网络，能够实现从发电端到用电端电流和信息流的双向流动。智能电网中的海量、实时数据愈发凸显出大数据的特性，大数据分析挖掘也越来越广泛地应用在电力行业。

随着先进量测体系(Advanced Metering Infrastructure,AMI)的广泛部署和智能电表的迅速普及，电力用户的大规模动态实时用电数据已经能够被采集和存储。然而，由于受到系统内外部复杂因素的影响，这些智能用电数据在采集、传输和存储过程中不可避免的会出现缺失。缺失数据往往意味着有用信息的丢失，容易使电力大数据挖掘过程陷入混乱，导致不可靠的结果输出。此外，缺失数据的大量存在增加了电力大数据分析的复杂性，从而使得智能用电服务和管理的不确定性显著增加。如何快速、有效地处理智能用电缺失数据已成为电力大数据分析挖掘中的一个关键问题。

电力系统中常用的缺失数据处理方法有删除法和插补法。删除法会导致有用信息的丢失，尤其不适用于有大量复杂缺失数据的情形。而均值插补、回归插补、热卡插补、末次观测值结转(LOCF)等传统的简单插补方法精确度不高，对智能用电缺失数据修正效果较差。此外，多重插补方法不仅存在稳定性缺陷，对稀疏数据集中的多变量缺失数据无法完全插补，而且在面对海量的智能用电数据时计算复杂度较高，处理效率较低。因此，急需智能用电缺失数据修正的高效稳定方法。

发明内容

本发明是为了克服现有技术存在的不足之处，提供一种基于两阶段插补模型的智能用电缺失数据修正方法，以期能够实现更精确的智能用电缺失数据修正，有效降低计算复杂度，并且能快速完成对多变量缺失的稀疏数据集的插补，具备良好的稳定性，从而能快速、有效地修正智能用电缺失数据。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于两阶段插补模型的智能用电缺失数据修正方法的特点是：

将收集的智能用电数据中的电力用户数目记为N，所述N个电力用户记为U＝{U₁,U₂,...,U_i,...,U_N}，1≤i≤N，U_i表示第i个电力用户；

将收集的智能用电数据中的时间点数目记为M，所述各时间点间的间隔均匀，M个时间点构成的时间区域记为T＝{T₁,T₂,...,T_j,...,T_M}，1≤j≤M，T_j表示第j个时间点；

将第i个电力用户U_i在第j个时间点T_j上的智能用电数据记为e_ij，所述第i个电力用户U_i在时间区域T上的智能用电数据记为所述第j个时间点T_j上N个电力用户U的智能用电数据记为所述N个电力用户U在时间区域T上的智能用电数据构成N×M的矩阵，记为

所述基于两阶段插补模型的智能用电缺失数据修正方法是按如下步骤进行：

步骤1：所述第i个电力用户U_i的智能用电数据在某时间点上缺失时，将缺失的智能用电数据记为缺失项；从N个电力用户U中选取出最多只有一个缺失项的n个电力用户，记为U′＝{U′₁,U′₂,...,U′_p,...,U′_n}，U′_p表示第p个最多只有一个缺失项的电力用户，1≤p≤n，1≤n≤N；计算第p个电力用户U′_p在时间区域T上的智能用电数据平均值，记为所述第p个电力用户U′_p在时间区域T上若有缺失项，则忽略缺失项计算p个电力用户U′_p在剩余时间点上的智能用电数据平均值，从而获得所述n个电力用户U′的智能用电数据平均值组成的列向量，记为

步骤2：将n个电力用户中不含缺失项的电力用户数目记为n₁；将所述n-n₁个电力用户的缺失项所在的时间点构成的时间区域记为T′＝{T′₁，T′₂,...,T′_q,...,T′_t}，T′_q表示第q个缺失项所在的时间点，1≤q≤t，1≤t≤n-n₁；将第p个电力用户U′_p在第q个时间点T′_q上的智能用电数据记为e′_pq，所述第p个电力用户U′_p在时间区域T′上的智能用电数据记为所述时间点T′_q上n个电力用户的智能用电数据记为所述n个电力用户在时间区域T′上的智能用电数据构成n×t矩阵，记为

步骤3：对所述步骤2中的矩阵E′使用基于链式方程多重插补的PMM回归模型，为每个缺失项计算m个候选插补值，m＞1；

步骤4：利用线性回归模型，并根据所述m个候选插补值和列向量为每个缺失项计算出唯一的最终插补值，从而获得n-n₁个最终插补值；将所述n-n₁个最终插补值填入矩阵E′，得到不含缺失项的矩阵E₁^*；

步骤5：将剩余N-n个电力用户在时间区域T上的智能用电数据构成的(N-n)×M矩阵记为E″，使用线性插值法对矩阵E″中的所有缺失项计算插补值，并将所述计算的插补值填入矩阵E″，得到不含缺失项的矩阵E₂^*；

步骤6：将矩阵E₁^*和矩阵E₂^*合并，获得全部N个电力用户U在时间区域T上不含任何缺失项的智能用电数据构成的完整矩阵E^*。

本发明所述的智能用电缺失数据修正方法的特点也在于，所述步骤4是按如下过程进行：

步骤4.1：利用如式(1)所示的线性回归模型，获得第k组回归系数的最小二乘估计量λ_qk和λ′_qk，从而获得m组最小二乘估计量；

$e_{T_{q}^{'} k}^{'} = λ_{q k} + λ_{q k}^{'} {\overline{e}}^{'} - - - (1)$

式(1)中，表示n个电力用户在第q个时间点T′_q上为相应缺失项代入第k个候选插补值后的智能用电数据所构成的列向量，1≤k≤m；

步骤4.2：对m组最小二乘估计量分别取平均值后获得平均最小二乘估计量和从而利用式(2)得到n-n₁个电力用户在第q个时间点T′_q上相应缺失项的最终插补值从而获得n-n₁个电力用户在t个时间点上相应缺失项的最终插补值：

${\hat{e}}_{T_{q}^{'}}^{'} = {\overline{λ}}_{q} + {\overline{λ}}_{q}^{'} {\overline{e}}^{'} - - - (2)$

与已有技术相比，本发明有益效果体现在：

1、本发明是一种能快速、有效修正智能用电缺失数据的稳定方法，基于两阶段插补模型进行智能用电缺失数据修正，相比于直接采用线性插补等传统方法，能取得精度更高的插补效果；相比于直接采用多重插补方法，能有效降低计算复杂度并克服了稳定性缺陷。

2、本发明基于两阶段插补模型进行智能用电缺失数据修正，通过在第一阶段中选择特定电力用户，并对所选的电力用户采用多重插补方法计算候选插补值，克服了在整个数据集上采用多重插补时容易遭受的稳定性缺陷，且有效降低了计算复杂度。

3、本发明基于两阶段插补模型进行智能用电缺失数据修正，采用线性回归模型综合多重插补方法计算的多组候选插补值，得到唯一的最终插补值，比起常规随机选择一组候选插补值作为最终插补值的方法，降低了插补值计算中的偶然性偏差。

附图说明

图1为本发明方法流程图；

图2是本发明方法与线性插值法的实施结果图。

具体实施方式

本实施例中，如图1所示，将收集的智能用电数据中的电力用户数目记为N，N个电力用户记为U＝{U₁,U₂,...,U_i,...,U_N}，1≤i≤N，U_i表示第i个电力用户；

将收集的智能用电数据中的时间点数目记为M，各时间点间的间隔均匀，M个时间点构成的时间区域记为T＝{T₁,T₂,...,T_j,...,T_M}，1≤j≤M，T_j表示第j个时间点；

将第i个电力用户U_i在第j个时间点T_j上的智能用电数据记为e_ij，第i个电力用户U_i在时间区域T上的智能用电数据记为第j个时间点T_j上N个电力用户U的智能用电数据记为N个电力用户U在时间区域T上的智能用电数据构成N×M矩阵，记为

本实施例中，一种基于两阶段插补模型的智能用电缺失数据修正方法，包括以下步骤：

步骤1：当第i个电力用户U_i的智能用电数据在某时间点上缺失时，将缺失的智能用电数据记为缺失项；从N个电力用户U中选取出最多只有一个缺失项的n个电力用户，记为U′＝{U′₁,U′₂,...,U′_p,...,U′_n}，U′_p表示第p个最多只有一个缺失项的电力用户，1≤p≤n；计算第p个电力用户U′_p在时间区域T上的智能用电数据平均值，记为若第p个电力用户U′_p在时间区域T上有缺失项，则忽略缺失项计算p个电力用户U′_p在剩余时间点上的智能用电数据平均值，从而获得所述n个电力用户U′的智能用电数据平均值组成的列向量，记为

步骤2：将n个电力用户中不含缺失项的电力用户数目记为n₁；将n-n₁个电力用户的缺失项所在的时间点构成的时间区域记为T′＝{T′₁,T′₂,...,T′_q，...,T′_t}，T′_q表示第q个缺失项所在的时间点，1≤q≤t，1≤t≤n-n₁；将第p个电力用户U′_p在第q个时间点T′_q上的智能用电数据记为e′_pq，第p个电力用户U′_p在时间区域T′上的智能用电数据记为将时间点T′_q上n个电力用户的智能用电数据记为则n个电力用户在时间区域T′上的智能用电数据构成n×t矩阵，记为

步骤3：对步骤2中的矩阵E′使用基于链式方程多重插补的PMM回归模型，为每个缺失项计算m个候选插补值，m＞1，通常情况下m取5；

使用PMM回归模型计算m个候选插补值的过程如下所示：

首先，对于时间点T′₁，确定线性回归模型：

$e_{T_{1}^{'}}^{'} = β_{0} + β_{1} e_{T_{2}^{'}}^{'} + β_{2} e_{T_{3}^{'}}^{'} + ... + β_{t - 1} e_{T_{t}^{'}}^{'} + ϵ - - - (1)$

从n₁个不含缺失项样本中得到回归系数的最小二乘估计量和残差方差估计值将以下3个步骤重复m次，为时间点T′₁中的每个智能用电缺失数据计算出m组候选插补值：

步骤3.1：从自由度为n₁-t的卡方分布中抽取随机数g[k]，k＝1,2,...,m，得到随机观测

步骤3.2：从均值为方差为的正态分布中抽取随机数其中I是值为1的n₁维列向量；

步骤3.3：由计算智能用电缺失数据的估计值Y_k，选择智能用电数据中最接近估计值Y_k的值作为计算的第k个候选插补值；

然后，为时间点T′₂中的每个智能用电缺失数据计算m组候选插补值，确定线性回归模型：

$e_{T_{2}^{'}}^{'} = γ_{0} + γ_{1} e_{T_{1}^{'}}^{'} + γ_{2} e_{T_{3}^{'}}^{'} + ... + γ_{t - 1} e_{T_{t}^{'}}^{'} + ϵ - - - (2)$

按照所述步骤3.1、步骤3.2、步骤3.3获取时间点T′₂中每个智能用电缺失数据的m组候选插补值；

继续为时间点T′₂中的智能用电缺失数据计算m组候选插补值，直到完成所有t个时间点上缺失数据候选插补值的计算。

步骤4：利用线性回归模型，并根据m个候选插补值和列向量为每个缺失项计算出唯一的最终插补值，从而获得n-n₁个最终插补值；将n-n₁个最终插补值填入矩阵E′，得到不含缺失项的矩阵E₁^*；

具体的，步骤4计算最终插补值的过程按如下进行：

步骤4.1：利用如式(1)所示的线性回归模型，获得第k组回归系数的最小二乘估计量λ_qk和λ′_qk，从而获得m组最小二乘估计量；

$e_{T_{q}^{'} k}^{'} = λ_{q k} + λ_{q k}^{'} {\overline{e}}^{'} - - - (3)$

式(3)中，表示n个电力用户在第q个时间点T′_q上为相应缺失项代入第k个候选插补值后的智能用电数据所构成的列向量，1≤k≤m；

步骤4.2：对m组最小二乘估计量分别取平均值后获得平均最小二乘估计量和从而利用式(4)得到n个电力用户在第q个时间点T′_q上相应缺失项的最终插补值从而获得n个电力用户在t个时间点上相应缺失项的最终插补值：

${\hat{e}}_{T_{q}^{'}}^{'} = {\overline{λ}}_{q} + {\overline{λ}}_{q}^{'} {\overline{e}}^{'} - - - (4)$

若智能用电数据e_ij缺失，步骤5中使用线性插值法计算该智能用电缺失数据插补值的公式，如式(5)：

$e_{i j} = e_{i a} + (j - a) \frac{e_{i b} - e_{i a}}{(b - a)} - - - (5)$

式(5)中，e_ia和e_ib分别表示最靠近智能用电缺失数据e_ij的观测值，a和b分别代表第a个和第b个时间点。

步骤6：由矩阵E₁^*和矩阵E₂^*，获得全部N个电力用户U在时间区域T上不含任何缺失项的智能用电数据构成的完整矩阵E^*。

具体的应用实例：

采用R语言在智能用电数据样本中模拟缺失数据，此样本为100名电力用户在2014年7月份的真实用电数据，从而N＝100，M＝31。分别使用本发明方法与线性插值法计算插补值，并采用公式(6)定义的平均绝对偏差MAD对比线性插值法与本发明方法的精确性：

$M A D = Σ_{v = 1}^{Q} | y_{v} - {\hat{y}}_{v} | / Q - - - (6)$

式(6)中，Q表示缺失项个数，代表对第v个缺失值计算的插补值，y_v代表所模拟第v个缺失值的真实取值。容易看出，MAD值越小，说明计算的插补值与真实值越近似，方法的精度也就越好。图2中，以横坐标代表实验模拟缺失的次数，纵坐标代表计算的MAD值，两条折线分别代表本发明方法与线性插值法的MAD值情况，结果表明本发明方法能够实现更精确的智能用电缺失数据修正。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于两阶段插补模型的智能用电缺失数据修正方法 [P] . 中国专利： CN106384298B . 2019.05.31
2. 一种基于两阶段插补模型的智能用电缺失数据修正方法 [P] . 中国专利： CN106384298A . 2017-02-08
3. Multiple imputation of missing data in multi-dimensional retail sales data sets via tensor factorization [P] . 美国专利： US8818919B2 . 2014-08-26

机译：通过张量分解对多维零售数据集中的缺失数据进行多次插补
4. MULTIPLE IMPUTATION OF MISSING DATA IN MULTI-DIMENSIONAL RETAIL SALES DATA SETS VIA TENSOR FACTORIZATION [P] . 美国专利： US2013036082A1 . 2013-02-07

机译：通过张量因子化在多维零售销售数据集中对缺失数据进行多次插补
5. METHOD, APPARATUS AND COMPUTER PROGRAM FOR REGISTERING CODING COURSE BASED ON ARTIFICIAL INTELLIGENCE CLASS MODEL VALIDATION [P] . KR20210066244A . 2021-06-07

机译：基于人工智能级模型验证的基于人工智能类模型验证的编码课程的方法，装置和计算机程序