技术领域
本发明涉及地震工程技术领域,具体为基于NGBoost和SHAP值的可解释地震动参数概率密度分布预测方法。
背景技术
地震造成的人员伤亡和财产损失主要是由强地面运动引起的建筑结构的破坏和倒塌造成的。强地面运动也是滑坡等次生灾害的直接诱因。地震后,强地面运动参数(峰值加速度(PGA)、峰值速度(PGV)、峰值位移(PGD)和加速度反应谱(SA))的快速估算,可用于判定震后造成的损失,指导应急救援工作。地震前,对于危险断层上可能发生的假想地震产生的地震动的预测,可用于地震危险性概率分析,指导城市规划和重大工程(例如核电站、水库大坝、跨海大桥等)的设计和建设。
计算或预测地震动参数的方法主要有三种:数值模拟、地震动预测方程(也常被称作地震动衰减关系)和机器学习。基于有限差分、有限元、谱元或有限体积等的数值模拟方法,具有明确物理意义,但高频地震波场的模拟需要巨大的计算量,以及精确的震源和地下速度结构模型。地震动预测方程形式明确,计算速度快,在地震动图以及概率地震危险性分析中通常使用这种方法。但现代地震动预测方程形式复杂,函数形式和特征变量的选取没有统一标准,具有很强的主观性,且无法考虑各项之前的非线性耦合作用。
随着人工智能技术的发展,利用数据驱动的机器学习算法来预测地震动参数受到越来越多的重视。目前利用机器学习进行地震动参数预测的方法主要可以分为两类。一类是通过演化建模等方法获取可以进行地震动参数预测的函数方程式。与地震动预测方程不同,这类机器学习算法不需要预先假定泛函形式,函数方程通过学习获得。另一类机器学习方法是通过训练决策树、神经网络等模型进行地震动参数预测。但是目前这两类算法都存在一些问题:例如,学习地震动参数预测函数方程的方法,会为保证方程的合理性限制方程的复杂度,预测精度通常较低。基于决策树和神经网络(特别是深度学习)的方法,模型复杂,预测精度高,但是可解释性较差。并且目前用于地震动参数预测的机器学习方法无法给出预测结果的不确定度,而这对于后续的震后震害评估以及概率地震危险性分析来说更加重要。
发明内容
本发明的目的在于克服现有技术的不足,提供基于NGBoost和SHAP值的可解释地震动参数概率密度分布预测方法,为解决地震动参数预测结果的不确定度问题,提出采用自然梯度提升(NGBoost)算法。为解决地震动参数预测机器学习模型的可解释性问题,提出计算SHAP(SHapley Additive exPlanations)值,来研究各个特征的重要性和如何影响预测结果,进行机器学习模型解释。
本发明的目的是通过以下技术方案来实现的:
基于NGBoost和SHAP值的可解释地震动参数概率密度分布预测方法,包括以下步骤:
步骤1,确定研究区域,收集研究区域内地震事件波形和元数据信息,并进行分析处理,建立强震动数据库;
步骤2,对强震动数据进行数据清洗,挑选用于机器学习模型训练的数据;
步骤3,利用挑选的强震动记录和自然梯度提升算法,训练出用于地震动参数概率密度分布预测的机器学习模型;
步骤4,计算所有样本所有特征的SHAP值,并根据SHAP值分析各个特征的重要性,以及如何影响地震动参数预测,解释机器学习模型;
步骤5,利用训练好的机器学习模型,对新发生或假想地震的地震动参数概率密度分布进行预测。
优选的,所述元数据信息包括矩震级M
优选的,所述地震动参数包括峰值加速度、峰值速度和峰值位移。
优选的,所述步骤3中训练机器学习模型的基础学习器采用分类与回归树,评分规则采用对数分数。
优选的,采用K-折交叉验证和网格搜索搜寻机器学习模型训练的最佳超参数。
优选的,所述步骤4还包括以下内容:
对于每个样本,计算每个特征i的SHAP值φ
其中M表示输入特征的个数;
本发明的有益效果是:
1、通过引入自然梯度(NGBoost)算法实现了对地震动参数概率密度分布的预测。相比于预测值,地震动参数的概率密度分布对于后续地震危险性分析更加重要。
2、通过计算SHAP值实现了机器学习模型解释,利用SHAP值可以研究各个特征如何影响地震动参数预测,评估机器学习模型的合理性。
附图说明
图1是本发明的流程图;
图2是对于测试集数据,实际观测到的峰值加速度(PGA)与机器学习模型预测值的比较;
图3是对于测试集数据,实际观测到的峰值速度(PGV)与机器学习模型预测值的比较;
图4是对于测试集数据,实际观测到的峰值位移(PGD)与机器学习模型预测值的比较;
图5是对于2009年美国加州地区的一次M
图6是对于2009年美国加州地区的一次M
图7是对于2009年美国加州地区的一次M
图8是峰值加速度(PGA)预测机器学习模型的SHAP摘要图;
图9是峰值速度(PGV)预测机器学习模型的SHAP摘要图;
图10是峰值位移(PGD)预测机器学习模型的SHAP摘要图;
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,本实施方式基于NGBoost和SHAP值的可解释地震动参数概率密度分布预测方法按照以下步骤实施:
步骤一:确定研究区域,收集研究区域内地震事件波形和元数据信息,并进行分析处理,建立强震动数据库;
根据需求,选定研究区域,利用研究区域内地震台网提供的地震目录,截取地震事件波形。若研究区域在国内,地震目录可采用《中国台网正式地震目录》,地震事件波形可根据地震目录从国家地震科学数据中心获取。若研究区域在国外,可采用国际地震中心(ISC)或美国地质调查局(USGS)提供地震目录,地震事件波形可从美国地震学研究联合会(IRIS)或当地地震台网网站下载。对于地震事件波形数据,只选取东西和南北分量。对地震波形数据进行去仪器响应、去均值、去趋势、基线校正和带通滤波处理(0.1~30Hz),并旋转两正交水平分量得到与观测仪器布设方向无关的非几何平均形式(RotD50),测量得到峰值加速度(PGA)、峰值速度(PGV)和峰值位移(PGD)。搜集相关文献资料,并分析得到强震动记录对应的震源、传播路径和场地信息元数据。震源信息至少包括矩震级(M
步骤二:清洗数据,从强震动数据库中挑选出用于机器学习模型训练的强震动数据;
选择发生在研究区域矩震级大于等于3.5并且包含必要元数据信息的强震动记录。去除波形不完整或异常的强震动记录。去除震中距过大(大于350km)可能存在系统误差的强震动记录。去除地下以及两层建筑物以上不能反映自由场地效应的强震动记录。去除余震记录。
步骤三:利用挑选的强震动记录和自然梯度提升(NGBoost)算法,训练出可用于地震动参数概率密度分布预测的机器学习模型;
机器学习算法采用基于自然梯度的提升(Boosting)算法,它通过提升算法将一组弱学习器(基础学习器)增强为强学习器。基础学习器采用分类与回归树。评分规则采用对数分数。将选择的强震动数据随机分成训练集(80%)和测试集(20%),训练集数据用于机器学习模型训练,测试集数据用于机器学习模型评价。输入特征包括矩震级(M
步骤四:计算所有样本的所有特征的SHAP值,并根据SHAP值分析各个特征的重要性,以及如何影响地震动参数预测,解释机器学习模型。
对于每个样本,计算每个特征i的SHAP值φ
其中M表示输入特征的个数;
步骤五:利用步骤三训练出的机器学习模型,对新发生或假想地震的地震动参数的概率密度分布进行预测;
当研究区域新发生地震时,输入特征参数,利用机器学习模型可获得新地震造成震动的峰值加速度(PGA)、峰值速度(PGV)和峰值位移(PGD),指导应急救援工作。当分析研究区域未来地震风险性时,利用机器学习模型可研究区域内危险断层一旦发生地震引起的地震动情况。
实施例:本实施例利用NGBoost和SHAP值构建基于NGA-WEST2强震动数据库的可解释地震动参数概率密度分布预测方法按照以下步骤实施:
步骤一:确定研究区域,收集研究区域内地震事件波形和元数据信息,并进行分析处理,建立强震动数据库;
NGA-WEST2强震动数据库是太平洋地震工程研究中心为发展下一代地震动预测方程而建立的数据库。它是目前最完备的强震动数据库。为训练出适合浅部地壳地震的地震动参数预测机器学习模型,我们选择NGA-WEST2强震动数据库。它包含599个地震的21529条地震记录,以及相应的元数据信息。
步骤二:清洗数据,从强震动数据库中挑选用于机器学习模型训练的数据;
对于NGA-WEST2强震动数据库,使用如下标准进一步清洗数据:(1)去除缺少必要元数据信息的强震动记录;(2)去除波形不完整或异常的强震动记录;(3)去除震中距过大(大于350km)可能存在系统误差的强震动记录;(4)去除地下以及两层建筑物以上不能反映自由场地效应的强震动记录;(5)去除余震记录。最终,282个地震的12107条记录被用于机器学习模型的训练。
步骤三:利用挑选的强震动记录和自然梯度提升(NGBoost)算法,训练出可用于地震动参数概率密度分布预测的机器学习模型;
将挑选的NGA-WEST2强震动数据随机分成训练集(80%)和测试集(20%),训练集数据用于机器学习模型训练,测试集数据用于机器学习模型评价。同时使用矩震级(M
步骤四:计算所有样本的所有特征的SHAP值,并根据SHAP值分析各个特征的重要性,以及如何影响地震动参数预测,解释机器学习模型。
对于峰值加速度(PGA)、峰值速度(PGV)和峰值位移(PGD)预测机器学习模型,计算每个样本每个特征的SHAP值。根据计算的SHAP值,绘制峰值加速度(PGA)、峰值速度(PGV)和峰值位移(PGD)预测机器学习模型的SHAP摘要图(图8、9和10)。SHAP摘要图中,各个特征按重要度由上至下排列,每一个点表示一个训练实例,X轴表示特征SHAP值的大小,色标表示特征值的大小。SHAP摘要图展示了各特征的重要性和对地震动的影响。由图8、9和10可见,矩震级(M
步骤五:利用步骤三训练出的机器学习模型,对新发生或假想地震的地震动参数的概率密度分布进行预测;
对于测试集数据,我们利用机器学习模型预测了峰值加速度(PGA)、峰值速度(PGV)和峰值位移(PGD)。机器学习模型的预测值与实际观测值的比较如图2、3和4所示。图2、3和4中所有点均位于斜率为1的虚线附近,说明训练出的机器学习模型可以给出准确预测。对于峰值加速度(PGA)、峰值速度(PGV)和峰值位移(PGD)预测机器学习模型,预测值与真实值的相关系数为0.972、0.984和0.990,高于目前已知的所有基于NGA-WEST2强震动数据库的地震动参数预测机器学习模型。对于2009年美国加州地区的一次M
以上所述仅是本发明的优选实施方式,应当理解所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
机译: 时间序列数据变化点检测方法和程序,用于未来时间序列数据值的概率密度分布预测方法和程序
机译: 当序列数据的变化点检测方法和程序时,时间序列数据值的概率密度分布预测方法和程序
机译: 基于半值概率密度分布的三维重建方法