首页> 中国专利> 一种基于多模型联合的备件数量预测方法和系统

一种基于多模型联合的备件数量预测方法和系统

摘要

本发明公开了一种基于多模型联合的备件数量预测方法和系统,该方法包括:构建备件历史使用数量数据库,选择训练集,对每个训练样本构建时序特征,对训练集分别训练GPR模型、GMR模型、RBFN模型,根据样本预测偏差对训练样本进行最优模型标签标定,对标定后的数据集分别进行GMM模型训练,将待测样本的时序特征输入到不同GMM模型中,得到三个概率值,比较概率值选择最优模型标签,将待测样本的时序特征输入到对应的最优模型进行再训练,使用再训练的最优模型预测待测样本下个月的使用数量。本发明通过时序特征提高数据鲁棒性,并提出基于GMR模型、RBFN模型的备件预测方法,其实现简单,通过从多个模型中选出最优预测模型,能够有效的提高预测精度。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-16

    未缴年费专利权终止 IPC(主分类):G06K 9/62 专利号:ZL2018104417712 申请日:20180510 授权公告日:20200710

    专利权的终止

  • 2020-07-10

    授权

    授权

  • 2018-11-20

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20180510

    实质审查的生效

  • 2018-10-26

    公开

    公开

说明书

技术领域

本发明属于人工智能领域,更具体地,涉及一种基于多模型联合的备件数量预测方法和系统。

背景技术

备件是设备备用的零件,缺少对备件的采购和储备数量进行合理的规划,可能会对企业业务及发展造成很大的困扰乃至损失。备件储备数量过多,将会占用企业的大量周转资金与储存仓库空间,不利于企业的长期发展;备件储备数量过少,将会造成维修或生产业务无法及时完成,造成企业经济损失。

现有的备件数量预测方法中主要包括两类,一类是基于ARMA等统计学模型,一类是基于SVM、GPR等机器学习模型。但这些预测方法存在一些缺陷:(1)不同备件之间使用规律不具有相似性,比如某种零件容易发生周期性故障而有些零件基本上不发生故障,因此选定的模型不适用于所有零件;(2)在预测模型选择上依赖于人工经验,而非备件样本本身反映出的规律;(3)备件生产过程中可能会对工艺进行调整,备件采购过程中可能会对来源进行调整,上述调整将导致备件前后不一样,旧的模型无法适用于新的备件。

发明内容

针对现有技术的上述缺陷,本发明提供了一种基于多模型联合的备件数量预测方法和系统,其目的在于,提供一种高鲁棒性、适应备件数量变换规律的预测方法。

为实现上述目的,一方面,本发明提供一种基于多模型联合的备件数量预测方法,该方法包括以下步骤:

(1)构建备件历史使用数量数据库,该数据库包括多种备件的历史使用数量,每种备件对应一个样本;

(2)按照备件种类从所述数据库中选择训练样本,构成训练集;

(3)对所述训练集中的每个训练样本,基于所述训练样本除最后一个月的所有历史使用数量构建时序特征,构成训练集的时序特征数据集;

(4)对训练集的时序特征数据集,分别训练预测模型高斯过程回归GPR 模型、混合高斯回归GMR模型、径向基神经网络回归RBFN模型;

(5)对所述训练集中的每个训练样本,用训练好的三个预测模型分别预测所述训练样本最后一个月的使用数量,并根据样本预测偏差对所述训练样本进行最优模型标签标定,得到三个标定后的数据集,其中,每个标定后的数据集中的样本的最优模标签相同;

(6)对标定后的三个数据集分别进行GMM模型训练,得到三个不同的 GMM模型;

(7)对待测样本,基于所述待测样本的所有历史使用数量构建时序特征,将该时序特征输入到三个不同的GMM模型中,得到三个概率值,其反映了所述待测样本使用该GMM对应的预测模型预测效果最佳的概率;

(8)比较三个概率值选择最优模型标签,将所述待测样本的时序特征输入到对应的最优模型进行再训练拟合,得到再训练的最优模型;

(9)使用再训练的最优模型预测所述待测样本下个月的使用数量。

优选地,步骤(2)还包括:选择完训练样本后,数据库中剩余的样本均为测试样本,构成测试集,测试样本用于优化预测模型,可使用希尔系数或均根方差进行预测效果的度量。

优选地,构建时序特征的过程如下:若待预测的是某备件第N年第M 月的备件数量,则24维时序特征的后12维依次取该备件第N-1年第M月到第N年第M月的前一个月的使用数量;根据该备件第N-1年第M月之前的历史使用数量计算每个月的月均值avr′1,avr′2,...,avr′12,24维时序特征的前12>M开始依次循环取值avr′1,avr′2,...,avr′12,M=1,2,…,12。

优选地,月均值计算公式为

优选地,进行最优模型标签标定时,标定0标识针对当前样本高斯过程回归模型预测效果最佳,标定1标识混合高斯回归模型预测效果最佳,标定2标识径向基神经网络回归模型预测效果最佳;若存在多种模型样本预测偏差是最小,按照GPR>GMR>RBFN的优先级顺序进行标签标定。

另一方面,本发明提供一种基于多模型联合的备件数量预测系统,该系统包括:

备件历史使用数量数据库,该数据库包括多种备件的历史使用数量,每种备件对应一个样本;

预测模型训练模块,该模块按照备件种类从所述数据库中选择训练样本,构成训练集;对所述训练集中的每个训练样本,基于所述训练样本除最后一个月的所有历史使用数量构建时序特征,构成训练集的时序特征数据集;对训练集的时序特征数据集,分别训练预测模型高斯过程回归GPR 模型、混合高斯回归GMR模型、径向基神经网络回归RBFN模型;

标定模块,该模块对所述训练集中的每个训练样本,用训练好的三个预测模型分别预测所述训练样本最后一个月的使用数量,并根据样本预测偏差对所述训练样本进行最优模型标签标定,得到三个标定后的数据集,其中,每个标定后的数据集中的样本的最优模标签相同;

GMM模型训练模块,该模块对标定后的三个数据集分别进行GMM模型训练,得到三个不同的GMM模型;

预测模块,该模块对待测样本,基于所述待测样本的所有历史使用数量构建时序特征,将该时序特征输入到三个不同的GMM模型中,得到三个概率值,其反映了所述待测样本使用该GMM对应的预测模型预测效果最佳的概率;比较三个概率值选择最优模型标签,将所述待测样本的时序特征输入到对应的最优模型进行再训练拟合,得到再训练的最优模型;使用再训练的最优模型预测所述待测样本下个月的使用数量。

优选地,所述系统还包括预测模型的优化模块,该模块在预测模型训练模块选择完训练样本后,数据库中剩余的样本均为测试样本,构成测试集,测试样本用于优化预测模型,可使用希尔系数或均根方差进行预测效果的度量。

优选地,构建时序特征的过程如下:若待预测的是某备件第N年第M 月的备件数量,则24维时序特征的后12维依次取该备件第N-1年第M月到第N年第M月的前一个月的使用数量;根据该备件第N-1年第M月之前的历史使用数量计算每个月的月均值avr′1,avr′2,...,avr′12,24维时序特征的前12>M开始依次循环取值avr′1,avr′2,...,avr′12,M=1,2,…,12。

优选地,月均值计算公式为

优选地,进行最优模型标签标定时,标定0标识针对当前样本高斯过程回归模型预测效果最佳,标定1标识混合高斯回归模型预测效果最佳,标定2标识径向基神经网络回归模型预测效果最佳;若存在多种模型样本预测偏差是最小,按照GPR>GMR>RBFN的优先级顺序进行标签标定。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:

(1)本发明通过构建时序特征的数据集,提取反映备件数量变化的平均规律与近一年使用规律作为特征,有效解决了备件前后不一致造成的预测不准确的问题,提取的特征更加具有鲁棒性;

(2)本发明提出一种基于GMR模型的备件数量预测方法和一种RBFN 模型的备件数量预测方法,其具有能够处理小样本、非线性、参数自适应获取、实现过程简单的优势;

(3)本发明通过对待测样本进行多模型预测,从多个模型中选出最优预测模型,使用最优预测模型来预测未来使用量,能够有效的提高预测精度。

附图说明

图1为本发明实施例提供的一种基于多模型联合的备件数量预测方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明的基本思路在于,提出一种基于多模型联合的备件数量预测方法。通过平均年+最近一年的预处理有效的提取历史数据中的表现特征,既保留了历史数据变化情况,又抓住最近一年的数据变化,使得特征更具有鲁棒性以及预测的稳定性。通过多个混合高斯(GMM)模型进行特征分类,选择更加适合的预测方法。对于测试样本使用最优预测方法进行预测,能够显著提高预测的精度与准确率。

图1为本发明实施例提供的一种基于多模型联合的备件数量预测方法流程示意图,如图1所示,该方法包括以下步骤:

(1)构建备件历史使用数量数据库,该数据库包括多种备件的历史使用数量,每种备件对应一个样本;

(2)按照备件种类从所述数据库中选择训练样本,构成训练集;

(3)对所述训练集中的每个训练样本,基于所述训练样本除最后一个月的所有历史使用数量构建时序特征,构成训练集的时序特征数据集;

(4)对训练集的时序特征数据集,分别训练预测模型高斯过程回归GPR 模型、混合高斯回归GMR模型、径向基神经网络回归RBFN模型;

(5)对所述训练集中的每个训练样本,用训练好的三个预测模型分别预测所述训练样本最后一个月的使用数量,并根据样本预测偏差对所述训练样本进行最优模型标签标定,得到三个标定后的数据集,其中,每个标定后的数据集中的样本的最优模标签相同;

(6)对标定后的三个数据集分别进行GMM模型训练,得到三个不同的 GMM模型;

(7)对待测样本,基于所述待测样本的所有历史使用数量构建时序特征,将该时序特征输入到三个不同的GMM模型中,得到三个概率值,其反映了所述待测样本使用该GMM对应的预测模型预测效果最佳的概率;

(8)比较三个概率值选择最优模型标签,将所述待测样本的时序特征输入到对应的最优模型进行再训练拟合,得到再训练的最优模型;

(9)使用再训练的最优模型预测所述待测样本下个月的使用数量。

以下以空调备件为例,阐述时序特征的构建过程。

按配件编码和销售公司对空调备件的历史使用量进行分类和合并,形成不同种类空调备件使用数量的样本记录。计算备件样本记录中不同年份、相同月份的备件使用数量的平均值,作为该备件使用数量各月平均值。如表1所示的某销售公司某备件的历史数据,统计历史月份平均值如表2所示;

表1历史数据

表2统计历史数据中各月平均值

对于备件样本记录中没有记录的月份,采用月均值填充。如表1所示,备件样本记录中缺少2012年10月的记录。如表2所示,10月均值为11.33,因此,备件样本记录应填充[2012,10,11.33]数据,表示2012年10月用了 11.33个该备件。

若待预测的是某备件第N年第M月的备件数量,则24维时序特征的后 12维依次取该备件第N-1年第M月到第N年第M月的前一个月的使用数量;根据该备件第N-1年第M月之前的历史使用数量计算每个月的月均值>1,avr′2,...,avr′12,24维时序特征的前12维从avr′M开始依次循环取值>1,avr′2,...,avr′12,M=1,2,…,12。

月均值计算公式为

待预测的是某备件2016年3月的使用量。如表3所示,对应的时序特征——时序特征后12维是2015.3的使用总量、2015.4的使用总量,……,2016.2的使用总量;时序特征前12维是2015.3前年月的3月数据平均值,2015.3前年月4月数据平均值,……,2015.3前年月的1月数据平均值;表4为2016年3月的实际使用数量。

表3预测2016年3月使用数量时时序特征

表4实际使用数量

例如,2015.03前年月的3月数据平均值计算的是2013.03、2014.03 的平均值,2015.03前年月的1月数据平均值计算的是2013.01、2014.01、 2015.01的平均值。

测试样本用于优化预测模型时,可使用希尔系数或均根方差等评价标准进行预测效果的度量。

步骤(4)具体地包括以下步骤:

(4.1)对步骤(3)得到的训练集的时序特征数据集,训练高斯过程回归模型(Gaussian Process Regression Model,简称GPR),并进行样本偏差计算,训练过程包括以下子步骤:

(4.1.1)处理输入格式为:X=[x1,x2,……,x24],输出结果为形式>1,y2,……,y24];

(4.1.2)定义高斯过程模型核函数使用高斯核函数核,核函数形式为其中||x-x′||2=xTx+(x′)Tx′-2xTx′,δ代表步长;并假定样本中存在满足高斯分布N(0,σ2)的噪声,回归模型在训练时需要训练超参数即为δ(步长),σ2(噪声方差);

(4.1.3)计算协方差矩阵,使用最大似然估计法求解超参数;

对于表3中训练数据进行训练,可得参数训练结果如下所示:δ=2.4439,σ=-2.278。

(4.1.4)预测时,根据联合密度后验分布,在xN+1处的概率分布满足:其中,CN=k(X,X)+σ2IN,>*=k(X,xN+1),C=k(xN+1,xN+1),那么xN+1处值即为

将步骤4.1.3训练得到的参数带入模型后,对于表3预测数据进行预测,预测结果为18.72,按照四舍五入取整的方式,可得2016年3月的预测使用量为19,样本预测偏差为5。

(4.2)对步骤(3)得到的训练集的时序特征数据集,训练混合高斯回归模型(Gaussian Mixture Regression Model,简称GMR),并进行样本偏差计算,训练过程包括以下子步骤:

(4.2.1)定义X=[x1,x2,……,x24],Y=[y1,y2,……,y24],处理模型的输入为>T,YT];

(4.2.2)假定数据的输入和输出的联合概率密度函数满足GMM模型,

其中,

因此模型在训练阶段需要指定高斯分量的个数K,需要训练第i分量的权重系数ωi,均值矩阵μi,方差矩阵∑i

(4.2.3)计算GMM模型的似然函数,使用EM算法对参数进行训练。

对于表3训练数据进行试训练,选定高斯分量个数为6,实际模型训练时根据样本特性可选择多个不同的个数进行评估,训练结果如下所示:

(4.2.4)预测时,在xN+1处的后验概率分布推导结果为:

最终对于未来的预测值为:

将步骤4.2.3训练得到的参数带入模型后,对于表3预测数据进行预测,预测结果为12.75,按照四舍五入取整的方式,可得2016年3月的预测使用量为13,样本预测偏差为1。

(4.3)对步骤(3)得到的训练集的时序特征数据集,训练径向基神经网络回归模型(Radial Basis Function Network Regression Model,简称RBFN)并进行偏差计算,训练过程包括以下子步骤:

(4.3.1)处理输入格式为:X=[x1,x2,……,x24],输出结果为形式>1,y2,……,y24];

(4.3.2)设定输出层神经元的输出为G(x|μii)是高斯核函数,具体表达式为:G(x|μii)=exp(βi||x-μi||2),其中ωii分别代表到输出层权重、每个隐含层神经元的径向基核函数的中心,而βi等价于σi2是高斯核函数的标准差,K表示隐含层神经元的个数;

(4.3.3)训练时,首先使用聚类方法确定中心μi,然后使用BP反馈调节方式训练ωii

对于表3训练数据进行试训练,选定隐含层个数为5,输入层输出层神经元个数均为1,实际模型训练时根据样本特性可选择多个不同的隐含层个数进行评估,训练结果如下所示:

(4.3.4)预测时,由步骤(4.3.2)模型带入即可,将步骤4.3.3训练得到的参数带入模型后,对于表3预测数据进行预测,预测结果为15.88,按照四舍五入取整的方式,可得2016年3月的预测使用量为16,样本预测偏差为2。

步骤(4)结束后,对所述训练集中的每个训练样本,用训练好的三个预测模型分别预测所述训练样本最后一个月的使用数量,并根据样本预测偏差对所述训练样本进行最优模型标签标定,得到三个标定后的数据集,其中,每个标定后的数据集中的样本的最优模标签相同。

进行最优模型标签标定时,标定0标识针对当前样本高斯过程回归模型预测效果最佳,标定1标识混合高斯回归模型预测效果最佳,标定2标识径向基神经网络回归模型预测效果最佳;若存在多种模型样本预测偏差是最小,那么考虑训练所需时间按照GPR>GMR>RBFN的优先级顺序进行标签标定。对于表3的预测情况,因GMR偏差为1,RBFN偏差为2,GPR偏差为 5,因此该样本的最优模型标签标定为1。

对标定后的三个数据集分别进行GMM模型训练,得到三个不同的GMM 模型;每个GMM的训练过程包括以下步骤:

(6.1)处理输入格式为时序特征X=[x1,x2,……,x24];

(6.2)定义高斯混合模型的密分布,其中该分布由K个混合成分组成,每个混合成分对应一个高斯分布,其中多元高斯分布概率密度函数为:

其中μi,∑i分别为其分布均值向量与协方差矩阵,n是输入向量维度,本实施例中n为24。

定义λi={ωii,∑i},表明对于单个GMM模型,需要学习的参数是λi

(6.3)计算GMM模型的似然函数;

(6.4)使用EM算法对参数进行训练,得到λi

(6.5)按照此策略,分别对每一类样本训练其概率密度函数对应的GMM 模型,对于每类的GMM模型,设置高斯分量个数为16。

对待测样本,基于所述待测样本的所有历史使用数量构建时序特征,将该时序特征输入到三个不同的GMM模型中,得到三个概率值,其反映了所述待测样本使用该GMM对应的预测模型预测效果最佳的概率;

比较三个概率值选择最优模型标签,将所述待测样本的时序特征输入到对应的最优模型进行再训练拟合,得到再训练的最优模型;

使用再训练的最优模型预测所述待测样本下个月的使用数量。

以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号