首页> 中国专利> 一种基于半监督集成学习的干旱灾害天气预测方法

一种基于半监督集成学习的干旱灾害天气预测方法

摘要

本发明涉及半监督、集成学习技术领域,具体涉及一种基于半监督集成学习的干旱灾害天气预测方法,在基于自训练的半监督学习算法中构建动态选择样本数据算法,可以根据模型在训练样本过程中对无标签数据预测的置信度水平动态选择样本数据,在保证准确率较高的同时有效的提高模型训练效率。提出的基于目标最大化布谷鸟优化的选择性集成学习剪枝算法可以最大程度的满足基学习器的精度以及基学习器之间的差异性,采用了多角度进行选择性集成,泛化性能更好,并且算法运行效率更快,模型精度更高。本发明可以用于气象领域中干旱灾害天气的预测问题。

著录项

  • 公开/公告号CN114841064A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 沈阳工业大学;

    申请/专利号CN202210455860.9

  • 发明设计人 段勇;王鑫炎;

    申请日2022-04-28

  • 分类号G06F30/27(2020.01);G06F119/02(2020.01);

  • 代理机构沈阳智龙专利事务所(普通合伙) 21115;

  • 代理人宋铁军

  • 地址 110870 辽宁省沈阳市铁西区经济技术开发区沈辽西路111号

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06F30/27 专利申请号:2022104558609 申请日:20220428

    实质审查的生效

说明书

技术领域

本发明涉及半监督、集成学习领域,尤其涉及一种基于半监督集成学习的干旱灾害天气预测方法。

背景技术

气象灾害中干旱天气对自然环境和人类生活及社会经济等造成严重影响,对气象干旱进行有效的预测,对于流域自然资源条件、地区水资源规划管理、缓解旱情的有害影响等具有重要作用,也有助于相关部门优化水资源系统的运行,做好相应的防旱减灾措施及决策分析,所以如何使干旱灾害天气预测更为客观化、定量化、准确化已成为干旱灾害天气预测业务中至关重要的内容,目前半监督集成学习方法是干旱灾害天气预测中经常使用的方法。

半监督学习的主要问题就是使用无标签样本数据的问题,目前,国内外的研究主要集中于打伪标签算法,现有的打伪标签算法在选择无标签样本数据时固定了需要选择的无标签样本数量,并没有考虑模型训练前期的置信度水平较低,并且固定选择无标签样本数量会导致模型训练时间很长。集成学习的主要问题就是选择性集成问题,目前,国内外的研究集中在度量和优化算法,现有的度量算法仅仅使用排序等单角度进行度量,不能对基学习器的整体进行综合考虑,泛化性能较差,此外,一些优化算法进行选择性集成时,收敛速度很慢,模型训练时间很长。

发明内容

发明目的

本发明提出一种基于半监督集成学习的干旱灾害天气预测方法,其目的在于解决目前基于半监督集成学习的干旱灾害天气预测存在的置信度水平低、训练速度慢和泛化性能差的问题。

技术方案

一种基于半监督集成学习的干旱灾害天气预测方法,其特征在于,按以下步骤执行:

步骤(1):建立用于预测干旱灾害天气的数据样本集;

步骤(2):对干旱灾害天气数据做数据平衡处理,并进行特征构造以及特征选取;

步骤(3):利用自训练半监督学习使用干旱灾害天气数据集中的标签样本数据和无标签样本数据,并在自训练过程中构建动态选择样本数据算法,将无标签样本数据打上伪标签;

步骤(4):根据Kappa测度和标准化互信息构建目标函数,对用于训练干旱灾害天气数据的基学习器进行差异性和准确性衡量;

步骤(5):利用布谷鸟算法对目标函数进行优化,构建基于目标最大化布谷鸟优化的选择性集成学习剪枝算法,根据构建的算法对集成学习做选择性集成,针对初始基学习器集合使用构建的算法求出最优子集,并将最优子集作为Stacking集成学习的基学习器,训练干旱灾害天气预测模型。

所述步骤(1)中,旱灾害天气数据具体为10米的最低风速、2米的相对湿度、2米的温度范围、10米风速、2米的温度、50米时的最小风速、2米的最高温度、50米的风速、地球皮肤温度、50米的风速范围、50米时的最大风速、10米时的最大风速、10米时的风速范围、表面压力、2米露点/冰点、2米最低温度、2米的湿球温度、降水量以及干旱级别的历史实况数据。

所述步骤(2)中,干旱灾害天气数据做数据平衡处理,采用合成少数类的过采样算法与多数类噪声样本删除的欠采样算法相结合的算法,将过采样和欠采样技术相结合进行混合重采样,增加数据集中少数类样本数据的个数,减少数据集中多数类样本数据的个数。

所述步骤(2)中,对干旱灾害天气数据进行特征构造,在干旱灾害天气数据的18个气象属性中,每个属性特征都涉及90天的数据,统计各个属性30天、60天、90天数据的均值,并将各个属性数据的最大值、最小值、中位数进行分类汇总,得到新的特征集合。

所述步骤(2)中,对干旱灾害天气数据进行特征选取,使用梯度提升算法得到干旱灾害天气数据各属性特征的权重得分,并选取大于平均权重的特征;使用相关系数计算数据各个属性特征与标签的线性相关性,相关系数值介于-1与1之间,值为0表示没有线性相关性,对相关系数绝对值排序并选取前50%的属性特征;最后将基于梯度提升权重和相关系数选择出的两个属性特征集合取并集得到新的属性特征集合;

所述步骤(3)中,构建动态选择样本数据算法,算法根据迭代次数的变化动态选择最优的无标签样本数据,过程如下:

将干旱灾害天气数据中的标签样本数据使用K近邻监督学习方法训练,在之后每一轮的训练过程中反复运用已经训练的模型对无标签样本数据进行预测并打上伪标签,预测完毕后,在下一轮中将这一轮由公式(1)动态选择样本数据算法选择的最优无标签样本数据和它的伪标签一起加入到当前训练样本数据集中,用自己产生的结果再次训练自己,直到所有的无标签样本数据都被打上伪标签;

其中S为每次迭代选择的无标签样本数据总量,D为干旱灾害天气数据集类别的集合,g为干旱灾害天气数据集具体的类别,Itea为当前迭代次数,MaxItea为最大迭代次数,Num

所述步骤(4)中,基于Kappa测度和标准化互信息构建目标函数,过程如下:

使用Kappa测度和标准化互信息构建目标函数,利用Kappa测度衡量选择性集成学习中基学习器之间的差异性,利用标准化互信息衡量选择性集成学习中基学习器的准确率;Kappa测度使用两个基学习器的预测标签值进行计算,标准化互信息使用一个基学习器的预测标签值和当前样本数据的真实标签值进行计算,将二者进行结合构建的目标函数为公式(7);

其中G为决策树、逻辑回归、K近邻等初始基学习器预测标签值的集合,h

所述步骤(5)中构建基于目标最大化布谷鸟优化的选择性集成学习剪枝算法,过程如下:

将初始基学习器集合进行随机选取得到多个基学习器子集,把每一个基学习器子集作为目标函数的一组解,然后以目标函数作为布谷鸟算法的适应度函数并对各个基学习器子集计算适应度值,根据计算的适应度值对各个基学习器子集排序,舍弃适应度值差的基学习器子集,并使用莱维飞行算法生成新的基学习器子集,经过反复的迭代找到适应度值最大的基学习器子集,将这个基学习器子集作为目标函数的最优解,为用于选择性集成的基学习器子集;其中针对目标函数优化计算得到公式(8);

其中T为初始基学习器集合,P为在初始基学习器集合中寻找的一个最优子集,h

优点及效果:

1、本发明通过在基于自训练的半监督学习算法中构建动态选择样本数据算法,可以根据模型在训练样本数据过程中对无标签样本数据预测的置信度水平动态选择样本数据,在保证最终结果准确率较高的同时提高模型训练效率。

2、构建的基于目标最大化布谷鸟优化的选择性集成学习剪枝算法可以最大程度的满足基学习器的精度以及基学习器之间的差异性,利用Kappa测度和NMI标准化互信息构建目标函数进行多角度剪枝,提高了泛化性能、运行效率和最终结果准确率。可以用于气象领域中干旱灾害天气的预测问题。

附图说明

图1为本发明所述的基于半监督集成学习的干旱灾害天气预测方法流程总图;

图2为本发明所述的动态选择样本数据变化曲线图;

图3为本发明所述的基于目标最大化布谷鸟优化的选择性集成学习剪枝算法适应度值变化折线图。

具体实施方式

一种基于半监督集成学习的干旱灾害天气预测方法,其特征在于,包括以下步骤:

步骤(1):建立用于预测干旱灾害天气的数据样本集,具体包括了WS10M_MIN最低风速10米(m/s)、QV2M 2米的相对湿度(g/kg)、T2M_RANGE 2米的温度范围(℃)、WS10M风速10米(m/s)、T2M 2米的温度(℃)、WS50M_MIN 50米时的最小风速(m/s)、T2M_MAX 2米的最高温度(℃)、WS50M 50米的风速(m/s)、TS地球皮肤温度(℃)、WS50M_RANGE 50米的风速范围(m/s)、WS50M_MAX 50米时的最大风速(m/s)、WS10M_MAX 10米时的最大风速(m/s)、WS10M_RANGE 10米时的风速范围(m/s)、PS表面压力(kPa)、T2MDEW 2米露点/冰点(℃)、T2M_MIN 2米最低温度(℃)、T2MWET 2米的湿球温度(℃)、PRECTOT降水量(mm day-1)以及干旱级别的历史实况数据;

步骤(2):对干旱灾害天气数据做数据平衡处理,并进行特征构造以及特征选取;

步骤(3):利用自训练半监督学习合理的使用干旱灾害天气数据集中的标签样本数据和无标签样本数据,并在自训练过程中构建动态选择样本数据算法,将无标签样本数据打上伪标签;

步骤(4):根据Kappa测度和标准化互信息构建目标函数(Normalized MutualInformation,NMI),对用于训练干旱灾害天气数据的基学习器进行差异性和准确性衡量;

步骤(5):利用布谷鸟算法对目标函数进行优化,进而构建基于目标最大化布谷鸟优化的选择性集成学习剪枝算法,根据构建的算法对集成学习做选择性集成,针对初始基学习器集合使用构建的算法求出最优子集,并将最优子集作为Stacking集成学习的基学习器,训练干旱灾害天气预测模型。

所述步骤(2)中干旱灾害天气数据做数据平衡处理,采用SMOTE(SyntheticMinority Oversampling Technique)与Tomek Link相结合的算法,SMOTH算法是合成少数类的过采样算法,Tomek Link算法是将多数类噪声样本删除的欠采样算法,将过采样和欠采样技术相结合进行混合重采样,增加数据集中少数类样本数据的个数,减少数据集中多数类样本数据的个数。使用SMOTE与Tomek Link相结合的算法能够有效的平衡训练数据集,并提高模型分类的精度。

所述步骤(2)中对干旱灾害天气数据进行特征构造,在干旱灾害天气数据的18个气象属性中,每个属性特征都涉及90天的数据,统计各个属性30天、60天、90天数据的均值,并将各个属性数据的最大值、最小值、中位数进行分类汇总,得到新的特征集合。新的特征集合更能反映出数据集整体的分布,其中的特征能被用来更好的挖掘数据信息,具有更高的价值。

所述步骤(2)中对干旱灾害天气数据进行特征选取,使用梯度提升算法(ExtremeGradient Boosting,XGBoost)算法得到干旱灾害天气数据各属性特征的权重得分,并选取大于平均权重的特征。使用相关系数Spearman计算数据各个属性特征与标签的线性相关性,Spearman相关系数是利用两变量的秩次大小作线性相关分析,其值介于-1与1之间,值为0表示没有线性相关性,对Spearman相关系数绝对值排序并选取前50%的属性特征。最后将基于XGboost权重和Spearman相关系数选择出的两个属性特征集合取并集得到新的属性特征集合。使用XGBoost和Spearman相结合对特征进行选取有效的降低了训练过程中的计算量,并提高模型预测的准确率。

所述步骤(3)中构建动态选择样本数据算法,算法可以根据迭代次数的变化动态选择最优的无标签样本数据,过程如下:

将干旱灾害天气数据中的标签样本数据使用K近邻(K-Nearest Neighbors,KNN)监督学习方法训练,在之后每一轮的训练过程中反复运用已经训练的模型对无标签样本数据进行预测并打上伪标签,预测完毕后,在下一轮中将这一轮由公式(1)动态选择样本数据算法选择的最优无标签样本数据和它的伪标签一起加入到当前训练样本数据集中,用自己产生的结果再次训练自己,直到所有的无标签样本数据都被打上伪标签。使用动态选择样本数据算法能够使训练总时长大幅缩短,训练得到的模型准确率较高,有效的提高自训练半监督学习的训练效率;

其中S为每次迭代选择的无标签样本数据总量,D为干旱灾害天气数据集类别的集合,g为干旱灾害天气数据集具体的类别,Itea为当前迭代次数,MaxItea为最大迭代次数,Num

所述步骤(4)中基于Kappa测度和NMI标准化互信息构建目标函数,过程如下:

使用Kappa测度和NMI标准化互信息构建目标函数,利用Kappa测度衡量选择性集成学习中基学习器之间的差异性,利用NMI标准化互信息衡量选择性集成学习中基学习器的准确率。Kappa测度使用两个基学习器的预测标签值进行计算,NMI标准化互信息使用一个基学习器的预测标签值和当前样本数据的真实标签值进行计算,将二者进行结合构建的目标函数为公式(7)。利用Kappa测度和NMI标准化互信息多角度构建目标函数使得模型的泛化性更好;

其中G为决策树、逻辑回归、K近邻等初始基学习器预测标签值的集合,h

所述步骤(5)中构建基于目标最大化布谷鸟优化的选择性集成学习剪枝算法,过程如下:

将初始基学习器集合进行随机选取得到多个基学习器子集,把每一个基学习器子集作为目标函数的一组解,然后以目标函数作为布谷鸟算法的适应度函数并对各个基学习器子集计算适应度值,根据计算的适应度值对各个基学习器子集排序,舍弃适应度值差的基学习器子集,并使用莱维飞行算法生成新的基学习器子集,莱维飞行在寻找最优解过程中能够增加算法的全局搜索能力,较大的步长可以避免算法陷入局部极值,较小的步长能使得个体加速收敛,提升算法效率以及寻优精度。经过反复的迭代找到适应度值最大的基学习器子集,将这个基学习器子集作为目标函数的最优解,即为用于选择性集成的基学习器子集。其中针对目标函数优化计算得到公式(8)。基于目标最大化布谷鸟优化的选择性集成学习剪枝算法相较其他剪枝算法能够有效提高选择性集成学习的训练效率,并且算法选择的基学习器泛化性能更好,收敛速度更快,准确率更高。

其中T为初始基学习器集合,P为在初始基学习器集合中寻找的一个最优子集,h

以下介绍的是作为本发明所述内容的具体实施方式,下面通过具体实施方式对本发明所述内容作进一步的解释说明。

所描述下列具体实施方式只为示例本发明的不同的内容,不应理解为限制本发明的范围。

半监督集成学习的干旱灾害天气预测是将基于历史相应时间段内的干旱灾害天气数据通过半监督集成学习进行训练构造的预测模型,并以此模型为依据分析预测干旱灾害天气。

如图1所示,提出了一种基于半监督集成学习的干旱灾害天气预测方法,该方法对干旱灾害天气数据进行数据平衡、特征构造和特征选择,并构建了动态选择样本数据算法和基于目标最大化布谷鸟优化的选择性集成学习剪枝算法。针对自训练半监督学习,在训练过程中使用动态选择样本数据算法,算法可以根据自训练半监督学习中迭代次数的变化动态选择最优的无标签样本数据。此外,对集成学习进行选择性集成,使用基于目标最大化布谷鸟优化的选择性集成学习剪枝算法,既可以利用Kappa测度来衡量基学习器之间的差异性,又可以利用NMI标准化互信息来衡量基学习器的准确率,并且通过布谷鸟优化算法寻找到用于集成学习的最优基学习器子集,最终以最优基学习器子集作为集成学习的基学习器来训练干旱灾害天气预测模型,实现干旱灾害天气预测。

基于自训练的半监督学习方法可以将大量的无标签数据加入到有限的有类标签的样本中进行训练和学习,并且能够对学习性能起到改进作用。基于自训练的半监督学习方法需要迭代地训练模型数次,不断采纳模型预测结果并扩大标签训练数据集规模。针对自训练的半监督学习训练开始阶段,模型对无标签样本数据预测置信度较差,而随着迭代次数的增加,模型的预测能力逐渐增强,提出动态选择样本数据算法,算法获取当前迭代次数Itea,干旱灾害天气数据集类别集合D,计算第g类别的无标签样本数据的数量Num

集成学习作为一类组合优化的学习方法,不仅能通过组合多个简单模型以获得一个性能更优的组合模型,而且可以针对具体的机器学习问题设计组合方案以得到更为强大的解决方案,进而构造一个更精准的干旱灾害预测模型。集成学习也称为多分类器学习系统,它是结合多个分类学习器来完成学习任务来构建的,弱模型以得到一个预测效果好的强模型。同时在集成学习中进行选择性集成,构建了基于目标最大化布谷鸟优化的选择性集成学习剪枝算法,算法在选择性集成过程中既考虑了基学习器之间的差异性,又满足了基学习器的准确率,并且通过多角度对基学习器进行衡量。首先利用Kappa测度和NMI标准化互信息构建目标函数,Kappa测度用来衡量基学习器之间的差异性,NMI标准化互信息用来衡量基学习器的准确率。然后通过布谷鸟算法优化目标函数并寻找到用于集成学习的最优基学习器子集,布谷鸟算法具有易实现、搜索能力强等优势。最终以最优基学习器子集作为集成学习的基学习器来训练干旱灾害天气预测模型,实现干旱灾害天气预测。

在构建目标函数过程中,首先计算样本总数量n、第1类真实样本数量a

然后计算基学习器i,j的联合分布概率P(i,j),i的概率分布函数P(i),j的概率分布函数P(j),由公式(4)计算NMI标准化互信息。

之后通过两个不同的基学习器预测值h

利用公式(5)对初始基学习器集合中任意两个不同的基学习器做计算可以得到目标函数公式(6),式中的H为决策树、逻辑回归、K近邻等初始基学习器预测值集合,h

公式(6)可进一步求解得到公式(7),式中G是决策树、逻辑回归、K近邻等初始基学习器预测值集合,h

最后通过公式(7)构建目标最大化布谷鸟优化的选择性集成学习剪枝算法,如公式(8),式中T为初始基学习器集合,P为在初始基学习器集合中寻找的一个最优子集,h

使用目标最大化布谷鸟优化的选择性集成学习剪枝算法进行选择性集成,建立干旱灾害天气预测模型的具体步骤为:

Step 1:生成初始基学习器集合

Step 2:对生成的初始基学习器随机选取,获取多组基学习器子集p=(p

Step 3:将公式(7)作为布谷鸟算法的适应度函数,并对基学习器子集p

Step 4:利用莱维飞行算法对当前基学习器子集p

Step 4:根据适应度值对所有的基学习器子集排序,通过多次迭代得到最大适应度值对应的基学习器子集,即为选择性集成学习的最优解。

Step 5:以最优解基学习器子集作为Stacking集成学习的基学习器来训练干旱灾害天气预测模型,实现干旱灾害天气预测。

根据美国干旱监测机构90天的WS10M_MIN最低风速10米(m/s)、QV2M 2米的相对湿度(g/kg)、T2M_RANGE 2米的温度范围(℃)、WS10M风速10米(m/s)等实况数据对干旱灾害天气预测能力和和综合灾害预警能力进行评估。提出的动态选择样本数据算法能够使自训练半监督学习总时长大幅缩短,克服了置信度水平较差的问题,有效的提高自训练半监督学习的训练效率,定量的说明了本算法的优势。提出的基于目标最大化布谷鸟优化的选择性集成学习剪枝算法明显优于其他选择性集成算法,能够有效提高选择性集成学习的训练效率,并且算法选择的基学习器泛化性能更好,收敛速度更快,准确率更高。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号