首页> 中国专利> 一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法

一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法，包括以下步骤：1）样本流域特征提取与参数化；2）流域洪水响应特性分析；3）生成流域特征样本集合；4）基于流域特征样本集合生成分类树；5）基于树节点生成训练数据集；6）基于分类树与数据驱动模型的洪水预报；7）对分类树及训练集的更新。利用机器学习算法分析流域的洪水响应特性，基于流域特征与洪水响应特性，建立流域间的关联关系，本发明基于流域特征和洪水响应相似性生成样本数据集，进而依据样本数据集训练数据驱动模型，模拟中小河流降雨、洪水响应关系，从而实现中小河流洪水实时预报。本发明所提供的方法可实现将数据驱动模型应用于径流资料缺乏流域的洪水预报中，改变以往参数移植的方式对于模型结构和模型参数的依赖性，从而提高洪水预报的精度。

著录项

公开/公告号CN111027764A

专利类型发明专利
公开/公告日2020-04-17

原文格式PDF
申请/专利权人中国水利水电科学研究院;
展开▼

申请/专利号CN201911243638.7
发明设计人王帆;
展开▼

申请日2019-12-06
分类号
代理机构北京国林贸知识产权代理有限公司;
代理人李瑾
地址 100048 北京市海淀区车公庄西路20号
入库时间 2023-12-17 08:51:25

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-31

授权

授权
2020-05-12

实质审查的生效 IPC(主分类):G06Q10/04 申请日:20191206

实质审查的生效
2020-04-17

公开

公开

说明书

技术领域

本发明属于水利工程技术领域，尤其涉及防洪预报技术领域，具体为一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法。

背景技术

目前，我国大江大河及其主要支流已经形成以堤防、水库和蓄滞洪区为主的防洪工程体系，防汛预警预报系统等非工程措施也逐步得到加强，基本能防御主要江河常遇洪水。然而对于5万多条中小河流，其分布广、数量多，自然地理、气候条件复杂多样，防洪能力总体落后，特别是近年来极端天气事件增多，中小流域暴雨事件增加，常常造成严重的洪涝灾害。中小河流洪水灾害造成的损失已成为我国洪涝灾害损失的主体。

洪水预报是非工程措施的重要组成部分，能够有效提高流域和区域的防灾减灾能力。但对于资料稀缺的中小河流，传统的经验方法往往不再适用，对于模型方法，由于缺乏用于率定的径流资料，目前广为采取的洪水预报方法是依据相似性和区域化的预报模型参数移植方法，其基本思想是通过相似性分析将有资料流域的径流资料或模型参数移植给缺资料流域。参数移植的方式主要有三种：基于流域物理特征的相似性移植模型参数，基于流域的空间距离移植模型参数，通过建立回归方程移植模型参数。

通过水文模型参数区域化和参数移植的方式进行缺资料流域的洪水预报主要存在以下弊端：1.概念性模型往往是针对特定流域开发而形成(如新安江模型、陕北模型及河北雨洪模型等)，不同流域的水文响应往往受到不同物理特征的主导，因而并不具有普适性，为流域间参数移植造成了障碍；2.由于其结构和参数难以真实的或者完全的反映流域自然物理特征，参数不确定性及异参同效问题导致流域物理特征的相似、水文的相似与模型参数的相似之间并不存在必然性，也为参数的移植带来隐患；3.目前所采取的三类参数移植方式存在主观性强、特征选择片面化、不确定性高、针对性差等问题。

数据驱动模型并不具有显性的模型结构和明确的参数意义，能够根据训练数据集灵活的适配，若训练集具有代表性，即能保证模型的代表性，因而其具有在缺资料流域进行径流预报的潜力。但数据驱动模型往往需要大量的降雨、径流数据对模型进行训练，因而尚未被应用于径流资料缺乏流域的洪水预报中。

发明内容

针对上述问题，本发明的目的在于提出一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法。

本发明的目的是通过以下技术方案实现的：

一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法，包括以下步骤：

1)样本流域特征提取与参数化：根据我国气候分区，选取位于同一分区内的有径流资料流域作为样本流域；收集各样本流域的DEM、土地利用、土壤类型以及植被覆盖数据，对流域特征进行提取并参数化；

2)流域洪水响应特性分析：2-1.收集待分析流域径流、降雨数据并进行处理，获得等时段流域出口流量时间序列数据和等时段流域面雨量时间序列数据保存至数据库中，并使用流域编码进行标识；2-2.读取各流域面雨量时间序列及各流域出口流量时间序列，并划分为独立的场次降雨及独立的场次洪水；2-3.将场次降雨与场次洪水进行匹配关联，依次寻找洪水序列所关联的降雨事件，筛选掉无法找到关联事件的场次洪水事件，得到元素一一关联的降雨事件集合与洪水事件集合；2-4.生成降雨事件相似性矩阵，矩阵大小为(n×n)，n为降雨事件个数，矩阵的元素(i，j)为降雨事件i与降雨事件j的相似度，使用DTW距离作为相似性度量标准，距离越小则相似性越强；2-5.基于降雨相似性矩阵搜索洪水事件并分析相似性：设定距离阈值Th_dis，遍历搜索降雨事件相似性矩阵中的每个元素，若元素(i，j)小于距离阈值Th_dis，认为降雨事件i与降雨事件j相似；寻找集合中与降雨事件i所关联的洪水事件i以及降雨事件j所关联的洪水事件j，计算关联洪水事件i与洪水事件j的DTW距离，设定距离阈值Th_dis′，若洪水事件的DTW距离小于阈值Th_dis′，认为洪水事件i与洪水事件j相似；查询洪水事件i与洪水事件j所发生流域的流域编码；完成遍历搜索计算，并记录各降雨、洪水事件的关联流域编码及相似性；2-6.生成流域相似性评价矩阵，矩阵大小为(N×N)，N为流域个数，该矩阵元素(i，j)表示流域i与流域j的相似度；通过该矩阵元素判断流域间的相似性并为相似的流域生成相同的洪水响应特性标记；

3)生成流域样本集合：流域样本集合包括两个部分：各流域特征向量集合及洪水响应特性标记向量；流域特征向量集合的元素为步骤1)中提取的流域特征值向量，洪水响应特性标记向量的元素为步骤2)中根据流域洪水响应特性分析得到的相似性标记；根据流域样本个数N设定值n，从流域样本集合中随机抽取n个样本作为验证集，其余N-n个样本作为训练集；

4)基于流域特征样本集合生成分类树：以训练集为基础，采用贪心策略，自顶而下构建流域洪水响应特性分类树；使用子树序列中各分类树分别对验证集进行分类预测，选取误报率最小的子树作为最优子树，以T_B表示；

5)基于树节点生成训练数据集：设步骤4)中生成的最优分类树T_B的叶子节点个数为N_B，搜索每一个节点内所包含的流域编码，根据此编码查询步骤2)2-3步中生成的降雨事件集合与洪水事件集合中属于该流域的降雨、洪水事件，将位于同一叶子节点的样本流域的降雨、洪水事件合并，成为一个训练数据集，N_B个节点即得到N_B个训练数据集；

6)基于分类树与数据驱动模型的洪水预报：对于新增流域的洪水预报，需进行该流域的流域特征提取并参数化，利用提取的流域特征生成特征向量，将特征向量输入至步骤4)中生成的分类树T_B，得到次流域所归属的叶子节点；若该流域有可用的降雨、洪水数据，则按照步骤2)中的方法进行场次划分，将划分的场次降雨、洪水加入到该叶子节点的训练数据集中，对训练数据集进行更新，利用更新后的数据集训练数据驱动模型；若该流域无可用的降雨、洪水数据，则利用该叶子节点已有的训练数据集训练数据驱动模型，以此实现对径流资料缺乏流域的洪水预报；

7)对分类树及训练集的更新：当新增流域超过生成当前分类树所采用的样本流域数量的10％时，则需要对分类树进行更新，重复步骤4)的工作，生成新的分类树及叶子节点训练数据集。

进一步的，步骤2)2-3步中关联匹配方法为：以场次洪水的开始时间为基准向前后延伸，设定时间窗口，若降雨事件的质心落入窗口中，则认为降雨事件与洪水事件为关联事件，视为一次雨洪事件。

进一步的，步骤2)2-5步中DTW距离计算方法如下：

对时间序列X＝{x₁，x₂，...，x_i，...，x_m}和Y＝{y₁，y₂，...，y_i，...，y_n}，通过扭曲路径W来表示时间序列X与Y间的映射关系，W＝{w₁，w₂，...，w_k，...，w_K}，max(n，m)≤K≤n+m-1，其中：m、n为时间序列X和时间序列Y的长度，K为扭曲距离的长度；W的第k个元素记为w_k＝(i，j)，表示时间序列X的第i个元素与时间序列Y的第j个元素的对应关系；构建一个m×n阶矩阵，矩阵元素(i，j)为两个时间序列点x_i和点y_j之间的距离d(x_i，y_j)＝(x_i-y_j)²，定义点(i，j)的累积距离计算公式为：γ(i,j)＝d(x_i,y_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}

其中，i＝1,…,m；j＝1,…n；为矩阵元素索引；给定初始条件γ(1，1)＝d(x₁，y₁)，以迭代计算得到累积距离矩阵，即为时间序列X与Y的DTW距离。

进一步的，步骤2)2-6步中判断流域间的相似性的具体方法为：

2-6-1.当i＝j时，S为流域i的相似性度量基准，基于对降雨相似性矩阵的搜索以及对洪水事件的相似性分析记录，设发生于流域i的降雨事件中相似事件个数为N_r，N_r个降雨事件所关联的洪水事件中有N_f个为相似事件，则S(i,i)＝S(j,j)＝N_f/N_r；

2-6-2.当i≠j时，S为流域i与流域j的相似性度量，基于对降雨相似性矩阵的搜索以及对洪水事件的相似性分析记录，若发生于流域i的降雨事件与发生于流域j的降雨事件中有N_r个为相似事件，N_r个降雨相似事件中有N_f个关联的洪水事件为相似事件，则S(i,j)＝S(j,i)＝N_f/N_r；

2-6-3.流域洪水响应相似性评价：搜索流域相似性评价矩阵的元素，对于流域i与流域j(i≠j)，相似度为S_(i，j)，相似性度量基准为设定系数ρ，若S_(i，j)＞ρ·S′，则认为流域i与流域j具有相似的洪水响应。

进一步的，步骤3)中流域特征向量集合为{S₁，S₂，S₃，...，S_i，...，S_N}，S_i为样本流域的流域特征值向量,S_i＝[A_i，Slp_i，D_i，Shp_i，E_i，CN_i，NDVI_i]，其中A_i为流域i的面积、Slp_i为流域i的平均坡度、D_i为流域i的河网密度、Shp_i为流域i的形状系数、E_i为流域i的平均高程、CN_i为流域i的CN值、NDVI_i为流域i的NDVI年均值；洪水响应特性标记向量为[C₁，C₂，C₃，...，C_i，...，C_N]，C_i为流域i相似性标记，若流域i与流域j为相似性流域，则C_i＝C_j。

进一步的，步骤4)中自顶而下构建流域洪水响应特性分类树，分类树的划分依据为信息熵增益、增益率或者基尼指数中任意一项。

进一步的，步骤4)中生成的分类树进行剪枝以避免过拟合；分类树剪枝的方法分为预剪枝和后剪枝两类；预剪枝通过设定停止条件来进行预剪枝；后剪枝的方法包括错误率降低剪枝法、悲观剪枝法和代价复杂度剪枝法。

进一步的，步骤6)中的数据驱动模型为神经网络模型或支持向量回归模型。

本发明的有益效果：

本发明提出一种基于机器学习算法和数据驱动模型的洪水预报方法。首先利用机器学习算法分析流域的洪水响应特性，基于流域特征与洪水响应特性，建立流域间的关联关系，基于流域特征和洪水响应相似性生成样本数据集，进而依据样本数据集训练数据驱动模型，模拟中小河流降雨、洪水响应关系，从而实现中小河流洪水实时预报。依照此发明所提供的方法可实现将数据驱动模型应用于径流资料缺乏流域的洪水预报中，改变以往参数移植的方式对于模型结构和模型参数的依赖性，从而提高洪水预报的精度。

下面结合附图及具体实施方式对本发明作进一步详细说明。

附图说明

图1本发明整体流程示意图；

图2泰森多边形法示意图；

图3降雨洪水关联示意图；

图4时间序列的动态扭曲路径。

具体实施方式

实施例1

一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法，包括以下步骤：

1)样本流域特征提取与参数化

根据我国气候分区，选取位于同一分区内的有径流资料流域作为样本流域，样本流域需具有相似的气候条件。

收集各样本流域的DEM、土地利用、土壤类型以及植被覆盖数据，对流域特征进行提取并参数化。提取的流域特征有：基于DEM数据提取的流域面积、平均坡度、河网密度、形状系数、平均高程等地形地貌特征；基于土地利用、土壤类型数据分析得到的各流域的SCSCurve Number(CN值)；基于植被覆盖数据分析得到的流域汛期归一化植被指数(NDVI)多年均值。各参数的意义及推求方法见表1。

表1流域特征参数列表

2)流域洪水响应特性分析

2-1数据的收集、处理与保存

收集待分析流域出口水文站点的洪水数据，获得流域出口流量时间序列；收集待分析流域内各个雨量站点的降雨数据，计算流域的面雨量，获得流域面雨量时间序列；收集的洪水数据及降雨数据需要覆盖10年或10年以上；对流域出口流量时间序列和流域面雨量时间序列进行等时段处理获得等时段流域出口流量时间序列数据和等时段流域面雨量时间序列数据保存至数据库中，并使用流域编码进行标识。

本实施例采用线性内插法进行等时段处理获得等时段流域出口流量时间序列数据，利用原始序列{Q₁，Q₂，Q₃，...，Q₇}插值获得等时段流量时间序列{Q′₁，Q′₂，Q′₃，....，Q′₁₂}；本实施例采用根据降雨量累积曲线插值进行等时段处理获得等时段流域面雨量时间序列数据，首先利用原始序列获得降雨量累积曲线，进而差分获得等时段降雨时间序列{P′₁，P′₂，P′₃，...，P′₁₂}。

本实施例采用泰森多边形法进行面雨量的计算，如图2所示，具体的计算方法为：将流域划分泰森多边形，根据站点对应的多边形面积占流域总面积的百分比计算雨量站的权重；设雨量站R_i对应的降雨时间序列为{P_i1，P_i2，P_i3，...，P_ij}，对应的多边形面积为AREA_i，流域总面积为AREA，则流域面雨量时间序列{P₁，P₂，P₃，...，P_j}的计算方法如下式：

其中m为流域内雨量站点个数，j为降雨时间序列的长度。

2-2降雨与洪水场次自动划分

根据流域编码依次读取数据库中各流域的面雨量时间序列，并将流域面雨量时间序列划分为独立的场次降雨。以面雨量时间序列{P₁，P₂，P₃，...，P_t}及其对应的时间标识序列{T₁，T₂，T₃，...，T_t}为例，划分方法为：设定时间阈值ΔT，当降雨过程的间歇时间T_j-T_i超过阈值ΔT则视为两次降水过程，不足阈值ΔT则视为一次降水过程，从而实现自动连续的降雨场次划分，得到n个场次降雨序列{P_i1，P_i2，...，P_ik}及其时间标识序列{T_i1，T_i2，...，T_ik}，其中i＝1，...，n，n为降雨场次个数，k为该场降雨对应的时段个数。

根据流域编码依次读取数据库中各流域的出口流量时间序列，以洪水的起涨和消落过程作为洪水事件的划分标准将其划分为独立的场次洪水。由于机器学习对数据量的要求较大，依靠人工划分效率较低，因而采用算法从连续时间序列中自动提取洪水事件。通过基流分割、平滑处理、转折点提取、开始与结束点识别以及事件筛选等步骤自动划分洪水场次。依据上述步骤，得到n′个场次洪水序列{Q_i1，Q_i2，...，Q_ik′}及其时间标识序列{T_i1，T_i2，...，T_ik′}，其中i＝1，...，n′，n′为洪水场次个数，k′为该场洪水对应的时段个数。

2-3降雨洪水事件匹配关联并生成样本集合

将上一步骤中的场次降雨与场次洪水进行匹配关联。以场次洪水的开始时间T_i1为基准，设定窗口，设开始时间向前窗口大小为L_a，开始时间至洪水事件最后一个峰值(极大值)的窗口大小为L_b，则窗口大小L_n＝L_a+L_b。若降雨事件的质心落入窗口中，则认为降雨事件与洪水事件为关联事件，视为一次雨洪事件，如图3所示，通过调整L_a及步骤2-2中的阈值ΔT提高匹配关联效果。

依次寻找n′个场次洪水序列{Q_i1，Q_i2，...，Q_ik}(i＝1，...，n)所关联的降雨事件，视为一次雨洪事件。筛选掉无法找到关联事件的场次洪水事件，从而得到元素一一关联的降雨事件集合{E_P1，E_P2，...，E_Pi，...，E_Pn}与洪水事件集合{E_Q1，E_Q2，...，E_Qi，..，E_Qn}，其中n为2-2步中自动划分的并且在本步中成功关联的雨洪事件的个数，E_Pi为第i场降雨事件，为一个降雨时间序列，E_Qi为第i场洪水事件，为一个洪水时间序列。

2-4生成降雨事件相似性矩阵

生成降雨事件相似性矩阵Matrix_P，矩阵大小为(n×n)，n为降雨事件个数，矩阵的元素(i，j)为降雨事件i与降雨事件j的相似度，因而主对角线元素为0且为对称矩阵。使用DTW距离作为相似性度量标准，距离越小则相似性越强，DTW距离计算方法如下：

对时间序列X＝{x₁，x₂，...，x_i，...，x_m}和Y＝{y₁，y₂，...，y_i，...，y_n}，通过扭曲路径W来表示时间序列X与Y间的映射关系，如图4所示，W＝{w₁，w₂，...，w_k，...，w_K}，max(n，m)≤K≤n+m-1，W的第k个元素记为w_k＝(i，j)，表示时间序列X的第i个元素与时间序列Y的第j个元素的对应关系。扭曲路径的选取有三个约束条件：扭曲路径始于矩阵的起始元素，结束于对角元素，即w₁＝(1，1)，w_K＝(m，n)；扭曲路径每一步都是连续的，即对于w_k＝(a，b)，w_k-1＝(a′，b′)，要求a-a′≤1且b-b′≤1；扭曲路径在时间轴上是单调的，即对于w_k＝(a，b)，w_k-1＝(a′，b′)，要求a-a′≥0且b-b′≥0。

具体步骤为：首先构建一个m×n阶矩阵，矩阵元素(i，j)为两个时间序列点x_i和点y_j之间的距离d(x_i，y_j)＝(x_i-y_j)²。定义点(i，j)的累积距离计算公式：

γ(i，j)＝d(x_i，y_j)+min{γ(i-1，j-1)，γ(i-1，j)，γ(i，j-1)}

给定初始条件γ(1，1)＝d(x₁，y₁)，可以迭代计算得到累积距离矩阵。即为时间序列X与Y的DTW距离，从点γ(m，n)出发反向搜索累积距离矩阵即可得到最佳匹配路径。

2-5基于降雨相似性矩阵搜索洪水事件并分析相似性

具体步骤为：

设定距离阈值Th_dis，遍历搜索降雨事件相似性矩阵中的每个元素，若元素(i，j)小于阈值Th_dis，认为降雨事件i与事件j相似；

寻找生成的集合中与降雨事件i所关联的洪水事件i以及降雨事件j所关联的洪水事件j，计算关联洪水事件i与事件j的DTW距离，设定阈值Th_dis′，若洪水事件的DTW距离D_DTW(i，j)小于阈值Th_dis′，认为洪水事件i与事件j相似；

查询事件i与事件j所发生流域的流域编码；

完成遍历搜索计算，对每个元素均进行步骤上述的计算、查询并记录各降雨、洪水事件的关联流域编码及相似性。

2-6流域洪水响应相似性评价

生成流域相似性评价矩阵Matrix_s，矩阵大小为(N×N)，N为流域个数，矩阵的主对角线元素(即i＝j时)为流域i的相似性度量基准，当i≠j时，矩阵元素(i，j)为流域i与流域j的相似性度量指标，因而Matrix_s为对称矩阵。矩阵元素(i，j)值S的计算方法为：

当i＝j时，S为流域i的相似性度量基准，基于降雨相似性矩阵的搜索以及对洪水事件的相似性分析记录，设发生于流域i的降雨事件中相似事件个数为N_r，N_r个降雨事件所关联的洪水事件中有N_f个为相似事件，则S((i，i)＝S(j，j)＝N_f/N_r；

当i≠j时，S为流域i与流域j的相似性度量，基于步骤7)中对降雨相似性矩阵的搜索以及对洪水事件的相似性分析记录，若发生于流域i的降雨事件与发生于流域j的降雨事件中有N_r个为相似事件，N_r个降雨相似事件中有N_f个关联的洪水事件为相似事件，则S(i，j)＝S(j，i)＝N_f/N_r。

流域洪水响应相似性计算：搜索流域相似性评价矩阵的元素，对于流域i与流域j(i≠j)，相似度为S_(i，j)，相似性度量基准为设定系数ρ，若S_(i，j)＞ρ·S′，则认为流域i与流域j具有相似的洪水响应。

3)生成流域样本集合

生成流域样本集合，流域样本集合包括两个部分：各流域特征向量集合{S_{i，i＝1，...，N}}及洪水响应特性标记向量[C_{i，i＝1...，N}]，其中i为流域索引，N为流域个数。流域特征向量集合的元素为步骤1)中提取的流域特征值向量，洪水响应特性标记向量的元素为步骤2)中根据流域洪水响应特性分析得到的相似性标记，二者一一对应。设已收集到N个流域的相关资料，流域特征向量集合为{S₁，S₂，S₃，...，S_i，...，S_N}，S_i为样本流域的流域特征值向量，S_i＝[A_iSlp_i，D_i，Shp_i，E_i，CN_i，NDVI_i]，其中A_i为流域i的面积、Slp_i为流域i的平均坡度、D_i为流域i的河网密度、Shp_i为流域i的形状系数、E_i为流域i的平均高程、CN_i为流域i的CN值、NDVI_i为流域i的NDVI年均值；洪水响应特性标记向量为[C₁，C₂，C₃，...，C_i，...，C_N]，C_i为流域i相似性标记，若流域i与流域j为相似性流域，则C_i＝C_j，设步骤2)中对流域的标记共有K类，则洪水响应特性标记向量中的元素也为K类。

根据流域样本个数N设定值n，从流域样本集合中随机抽取n个样本作为验证集，其余N-n个样本作为训练集，根据样本总量不同，n可以为10％至30％的样本总量。

4)基于流域特征样本集合生成分类树

以训练集为基础，采用贪心策略，自顶而下构建流域洪水响应特性分类树，分类树的划分依据可以为信息熵增益、增益率或者基尼指数，这里以基尼指数为例介绍，具体步骤为：由根节点出发，递归计算节点样本集合的基尼指数，以基尼指数作为选择最优特征以及该特征的最优二值切分点的指标，对于样本集合，设有K个类标记(即步骤2)中得到的洪水响应特性标记)，样本属于第k类的概率为p_k，则概率分布的基尼指数为：

则对于给定的流域特征样本集合D，其基尼指数为：

其中，C_k为D中属于第k类洪水响应特性标记的样本子集。

若样本集合D根据某一流域特征A的取值a可以划分为D₁和D₂两个部分，则划分后的基尼指数为：

对于流域特征A，计算样本集合在其所有可能取值条件下的基尼指数，其中的最小值为流域特征A的最优二分方案。对于节点集合D′，计算所有流域特征的最优二分方案，选取其中的最小值作为样本集合D′的最优切分点，该流域特征即为最优特征。依据最优特征和最优切分点将节点集合划分为两个子节点，同时生成子节点样本集合。

对子节点递归进行上述计算，直至满足停止条件，从而生成一棵完整的分类树。

为避免过拟合现象，需对前步中生成的分类树进行剪枝，剪枝方法分为预剪枝和后剪枝两类。其中预剪枝通过设定停止条件来进行预剪枝，停止条件为子节点中样本个数小于给定的阈值，或者子节点样本集合的基尼指数小于给定的阈值，或者样本集合中只存在单一标记。后剪枝可以采用错误率降低剪枝(REP)、悲观剪枝(PEP)和代价复杂度剪枝(CCP)等方法。此处以CCP剪枝为例介绍，其方法为：设生成的完整分类树为T₀，其子树序列为{T₁，T₂，T₃，...，T_i，...，T_n}，其中1，2，3...i...n代表T₀的非叶子节点，T_i为以i为根节点的子树。子树序列中的每一子树T_i+1为根据前一棵T_i剪掉其某一个节点得到，因而对于子树序列，T₀＞T₁＞T₂＞…＞T_n，T_n即为T₀根节点单独组成的子树。子树序列的生成方法具体步骤为：

对于T_i，遍历计算其每个内部节点t由非叶子节点变为叶子节点时整体损失函数减少的程度g(t)：

其中，C(t)为节点t作为叶子节点时的误差代价，C(t)＝r(t)·p(t)，r(t)为节点的错误率，p(t)为节点数据量的占比；C(T_t)为节点t作为非叶子节点时的误差代价，其中m为子树T_t对应叶节点个数，r_i(t)为叶节点i的错误率，p(t)为叶节点i数据量的占比。

遍历计算所有非叶子节点后，将g(t)最小的内部节点t的子树T_t剪去，得到T_i+1。由T₀出发，循环上述计算至根节点，得到子树序列。

使用子树序列中各分类树分别对验证集进行分类预测，选取误报率最小的子树作为最优子树，以T_B表示。

5)基于树节点生成训练数据集

设步骤4)中生成的最优分类树T_B的叶子节点个数为N_B，搜索每一个节点内所包含的流域编码，根据此编码查询步骤2)中生成的降雨事件集合{E_P1，E_P2，...，E_Pi，...，E_Pn}与洪水事件集合{E_Q1，E_Q2，...，E_Qi，...，E_Qn}中属于该流域的降雨、洪水事件，将位于同一叶子节点的样本流域的降雨、洪水事件合并，成为一个训练数据集，N_B个节点即得到N_B个训练数据集。

6)基于分类树与数据驱动模型的洪水预报

对于新增流域的洪水预报，需进行该流域的流域特征提取并参数化，提取的特征如表1中所示。利用提取的流域特征生成特征向量S＝[A，Slp，D，Shp，E，CN，NDVI]，将特征向量输入至步骤4)中生成的分类树T_B，得到次流域所归属的叶子节点。若该流域有可用的降雨、洪水数据，则按照步骤2)中的方法进行场次划分，将划分的场次降雨、洪水加入到该叶子节点的训练数据集中，对训练数据集进行更新，利用更新后的数据集训练数据驱动模型，此数据驱动模型可以为神经网络模型、支持向量回归模型。若该流域无可用的降雨、洪水数据，则利用该叶子节点已有的训练数据集训练数据驱动模型，此数据驱动模型可以为神经网络模型、支持向量回归模型，以此实现对径流资料缺乏流域的洪水预报。

7)对分类树及训练集的更新

当新增流域超过生成当前分类树所采用的样本流域数量的10％时，则需要对分类树进行更新，即重复步骤4)中的工作，生成新的分类树及叶子节点训练数据集。

上述的实施例仅是本发明的部分体现，并不能涵盖本发明的全部，在上述实施例以及附图的基础上，本领域技术人员在不付出创造性劳动的前提下可获得更多的实施方式，因此这些不付出创造性劳动的前提下获得的实施方式均应包含在本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法 [P] . 中国专利： CN111027764B . 2020.07.31
2. 一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法 [P] . 中国专利： CN111027764A . 2020-04-17
3. A SYSTEM, A METHOD FOR TRAINING A MACHINE LEARNING BASED PROCESSOR CIRCUITRY SUITABLE FOR CHARACTERIZING AN ENVI-RONMENT OF A VEHICLE [P] . EP3789907A1 . 2021-03-10

机译：一种系统，一种用于训练基于机器学习的处理器电路的方法，适用于表征车辆的envi-Ronment
4. GRID BASED LONG TERM RAINFALL RUNOFF MODEL FOR LARGE SCALE WATERSHEDS [P] . 韩国专利： KR20130039191A . 2013-04-19

机译：大型流域基于网格的长期降雨径流模型
5. GRID BASED LONG TERM RAINFALL RUNOFF MODEL FOR LARGE SCALE WATERSHEDS [P] . 韩国专利： KR101319477B1 . 2013-10-17

机译：大型流域基于网格的长期降雨径流模型