首页> 中国专利> 一种基于随机森林的航空安全因果预测方法

一种基于随机森林的航空安全因果预测方法

摘要

本发明公开了一种基于随机森林的航空安全因果预测方法,包括步骤S1:构建基于Bow‑tie模型的航空安全致因变量关联辨识模型,确定关键致因变量;S2:建立航空安全规模数据采集清单,标签原始安全数据库中的不安全事件数据特征;S3:对不安全事件数据特征进行降维处理,得到航空公司的不安全事件建模数据;S4:构建基于随机森林模型的航空安全态势预测模型;S5:对航空安全态势预测模型的预测能力进行评价;S6:根据致因变量对航空安全态势预测结果的影响分析,对关键致因变量对航空安全不安全事件的贡献进行排序。本发明中的预测方法使得难以度量的航空安全态势定量可测,适用于当前状态的航空安全定量评估,未来航空安全态势的预测。

著录项

说明书

技术领域

本发明涉及航空安全技术领域,尤其涉及一种基于随机森林的航空安全因果预测方法。

背景技术

航空安全预测通过研究航空事故与致因因素内在关系,揭示事故发生规律,实现对未来安全趋势预测,精确航空安全预测模型对于实现航空安全智能管理、事前决策及应急管理等具有重要意义,多家航空公司已经充分认识到数据对安全管理的重要性,初步的数据分析结果(超限事件、免责信息分析、安全监控等)已经初步应用于航空安全管理中,提升了管理安全效率,减少了事故损失;

然而航空事故发生是由各种因素相互交织影响所造成,包含飞行环境、任务特点、飞机质量、维护管理机制和人员失误等诸多不确定性因素。航空事故诱因复杂,具有低频性、随机性、时变性和高维性等特点,预测建模难度大。目前航空安全预测主要是时间序列预测,研究先前时刻事故发生规律与未来事故发生趋势之间的影响关系;采用参数、非参数、贝叶斯网络、人工智能等方法建立航空安全时间序列开展预测;王衍洋凹用样条插值函数对航空安全综合指数进行预测分析,研究人为因素与航空安全的影响关系,提高了对非线性数据的适用性;丁松滨,甘旭升,吕雪梅等人利用BP神经网络,自回归移动平均等方法对飞行事故进行研究;

然而上述模型都属于“黑箱”模型,输入和输出内部机理未知,输入对输出影响难以确定,预测变量解释不清晰,无法实现根据输出预测结果的逆向分配,支持航空安全管理力度有限。

发明内容

针对上述存在的问题,本发明旨在提供一种基于随机森林的航空安全因果预测方法,将基于Bow-Tie模型组合的随机森林算法应用到航空安全因果预测中,完成安全预测模型参数优化、致因变量贡献排序,从而预测航空安全关键因素及航空安全态势的变化趋势。

为了实现上述目的,本发明所采用的技术方案如下:

一种基于随机森林的航空安全因果预测方法,其特征在于,包括以下步骤,

S1:利用航空公司的原始安全数据库,构建基于Bow-tie模型的航空安全致因变量关联辨识模型,确定航空安全不安全事件的关键致因变量;

S2:根据步骤S1中确定的关键致因变量,建立航空安全规模数据采集清单,标签原始安全数据库中的不安全事件数据特征;

S3:对步骤S2中不安全事件数据特征,考虑特定安全输出的特征约简,实现降维处理,得到航空公司的不安全事件建模数据;

S4:以随机森林模型结合特征选举和样本抽样法从步骤S3中得到的不安全事件建模数据中得到训练和测试样本子集,构建基于随机森林模型的航空安全态势预测模型;

S5:结合航空公司的原始安全数据库,对航空安全态势预测模型的预测能力进行评价;

S6:根据致因变量对航空安全态势预测结果的影响分析,对关键致因变量对航空安全不安全事件的贡献进行排序。

进一步的,步骤S1的具体操作包括,

S11:利用航空公司的原始安全数据库,确定航空安全不安全事件的致因变量X=(x

S12:将航空安全不安全事件的致因变量、可能后果及相应的控制措施与Bow-tie模型的基本事件BE、中间事件IE、顶事件CE、控制事件SE和后果事件OE一一对应;其中,航空安全不安全事件的致因变量对应Bow-tie模型的基本事件BE,航空安全不安全事件的控制措施对应Bow-tie模型的控制事件SE,航空安全不安全事件的可能后果对应Bow-tie模型的后果事件OE,航空安全不安全事件的可能后果的上一级轻微后果对应Bow-tie模型的中间事件IE;

S13:令每个基本事件发生的概率为p

式中,当某一分支上环节事件发生时,

S14:根据步骤S13的结果,将后果事件OE

S15:基于步骤S14中建立的航空安全致因变量关联辨识模型,从致因变量中确定航空安全不安全事件的关键致因变量。

进一步的,步骤S3的具体操作包括,

S31:利用互信息原理定义致因变量X与航空安全不安全事件Y之间的互信息

S32:对于任何一组样本大小为N的多元数据序列(X,Y),I(x,y)的计算方法为

S33:利用核密度估计结合低偏差确定抽样方法求解致因变量X与航空安全不安全事件Y之间的互信息;

S34:根据步骤S33中求解得到的互信息,确定致因变量X与航空安全不安全事件Y之间的因果关系强弱,根据致因变量X与航空安全不安全事件Y之间的因果关系强弱得到航空公司的不安全事件建模数据。

进一步的,步骤S4的具体操作包括,

S41:对所有的不安全事件建模数据进行归一化处理;

S42:通过有放回地随机抽样,从归一化处理后的不安全事件建模数据中有放回重复抽样得K个与不安全事件建模数据相等的训练样本N,根据训练样本构成决策树;

S43:对每棵决策树上每个分裂节点随机抽取所有致因变量中的M

S44:计算输入变量x

S45:计算输入变量x

S46:将输入变量x

S47:对回归航空安全态势预测模型参数进行优化。

进一步的,步骤S41中归一化处理的具体操作包括,

对所有事故致因变量利用

进一步的,步骤S5的具体操作包括,采用决定系数R

式中,X(i)表示验证数据集中第i个样本,X(i)P表示利用验证数据集中第i个样点预测变量所得到的模型预测航空安全态势。

本发明的有益效果是:

1、本发明设计了一种基于随机森林的航空安全预测方法,能够分析和预测航空安全不安全事件和关键致因因素之间的关系变化,是开展航空智能管理及辅助决策的重要手段,在诸多机器学习算法中,随机森林模型在参数优化、变量排序以及后续变量分析解释等方面优势明显,且相关系数和预测精度明显优于线性模型、相关向量机模型及神经网络模型等其他模型,更适用于航空安全趋势预测及关键致因因素确定;

2、本发明中基于Bow-Tie模型构建航空安全致因模型能较好反映航空安全内部运行机理,这一点在数据互信息指标上也有所证明,随机森林能较好预测航空安全,预测精度达到90%以上,表明随机森林能够很好地描述航空安全致因变量与航空安全之间的非线性关系;

3、本发明中的预测方法将传统针对单一事故开展时间序列预测转化为研究致因因素与事故之间的影响机理,通过研究致因因素(飞行强度、设备故障、环境、天气等)变化关系,进而研究事故变化规律,解决了事故样本少,难于度量的问题,使得难以度量的航空安全态势定量可测;

4、本发明中的预测方法采用互信息的方法对航空安全不安全事件数据进行处理,可以精准的衡量出航空安全不安全事件与致因变量之间的因果强弱关系,根据航空安全不安全事件与致因变量之间的因果强弱关系确定的不安全事件建模数据,利用该建模数据可以更加精准的对不安全事件与致因变量进行建模,从而使得建模精度更高,预测结果更加准确。

附图说明

图1为本发明Bow-tie模型示意图。

图2为本发明训练和验证数据库样本分布图。

图3为本发明基于随机森林的回归航空安全态势预测流程图。

图4为本发明航空安全随机森林模型图。

图5为本发明随机森林参数优化结果图。

图6为本发明航空安全随机森林模型的误差估计图。

图7为本发明随机森林回归模型变量筛选图。

图8为本发明基于随机森林模型航空安全预测估算情况图。

具体实施方式

为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。

一种基于随机森林的航空安全因果预测方法,包括以下步骤,

S1:利用航空公司的原始安全数据库,构建基于Bow-tie模型的航空安全致因变量关联辨识模型,确定航空安全不安全事件的关键致因变量;

Bow-tie模型继承安全分析工具故障树和事件树优点,将事故发生原因、防范措施、可能后果及相应控制措施等诸多因素综合起来,建了事前与事后,基本事件和事故后果的关系,解决了传统事故分析模型量化不足问题,展示事故发生前因后果领结图,Bow-tie模型示意图如附图1所示,该模型包括基本事件BE、中间事件IE、顶事件CE、控制事件SE和后果事件OE五类事件。

本发明中构建基于Bow-tie模型的航空安全致因变量关联辨识模型,确定航空安全不安全事件的致因变量的具体操作包括,

S11:利用航空公司的原始安全数据库,确定航空安全不安全事件的致因变量X=(x

S12:将航空安全不安全事件的致因变量、可能后果及相应的控制措施与Bow-tie模型的基本事件BE、中间事件IE、顶事件CE、控制事件SE和后果事件OE一一对应;其中,航空安全不安全事件的致因变量对应Bow-tie模型的基本事件BE,航空安全不安全事件的控制措施对应Bow-tie模型的控制事件SE,航空安全不安全事件的可能后果对应Bow-tie模型的后果事件OE,航空安全不安全事件的可能后果的上一级轻微后果对应Bow-tie模型的中间事件IE;

S13:令每个基本事件发生的概率为p

式中,当某一分支上环节事件发生时,

S14:根据步骤S13的结果,将后果事件OE

S15:基于步骤S14中建立的航空安全致因变量关联辨识模型,从致因变量中确定航空安全不安全事件的关键致因变量。

结合某航空公司安全监察数据,可得具体的航空安全致因变量如下表1所示,表1中由于航空公司的隐私,没有公开全部的致因变量,从表1中可以确定,航空安全不安全事件的关键致因变量主要有飞机系统、天气原因、意外原因、自由计划、资源管理等。

表1基于Bow-tie模型的航空安全关键风险及危险源分析

S2:根据步骤S1中确定的关键致因变量,建立航空安全规模数据采集清单,标签原始安全数据库中的不安全事件数据特征;

具体的,统计某航空公司2016-2020年不安全事件数据,选取6个航空安全的致因变量来进行说明,6个致因变量的具体情况如下表2所示。从航空公司的原始安全数据库中采集与这6和致因变量相关的不安全事件数据。

表2致因变量指标

S3:对步骤S2中不安全事件数据特征,考虑特定安全输出的特征约简,实现降维处理,得到航空公司的不安全事件建模数据;

互信息不仅能表示2个随机变量之间的关系,也能反应它们之间关系的强弱。互信息I(x,y)代表收到消息y后所获得的关于x的信息量,即未收到消息y前事件x的不确定性减去收到消息y后尚存的不确定性。互信息既能度量变量间线性相关关系,也能度量变量间的非线性关系,能衡量两个变量间相互依赖程度,表示两个变量间共有信息多少,且不受变量分布形式制约,可被应用于任何不规则形状的概率分布。

具体的,本发明中应用互信息原理对步骤S2中不安全事件数据进行降维处理,得到航空公司的不安全事件建模数据;

S31:利用互信息原理定义致因变量X与航空安全不安全事件Y之间的互信息

S32:对于任何一组样本大小为N的多元数据序列(X,Y),I(x,y)的计算方法为

S33:利用核密度估计结合低偏差确定抽样方法求解致因变量X与航空安全不安全事件Y之间的互信息;

S34:根据步骤S33中求解得到的互信息,确定致因变量X与航空安全不安全事件Y之间的因果关系强弱,根据致因变量X与航空安全不安全事件Y之间的因果关系强弱得到航空公司的不安全事件建模数据,实现考虑特定安全输出的致因变量特征约简,完成降维。

当致因变量X与航空安全不安全事件Y完全无关或相互独立时,互信息最小,意味着致因变量X与航空安全不安全事件Y两个变量之间不存在重叠信息;反之,两者相互依赖程度越高,互信息值越大,所包含相同信息也越多,因此,可通过求解得到致因变量X与航空安全不安全事件Y之间的因果关系强弱,选择致因变量X与航空安全不安全事件Y之间的因果关系较强的数据,得到航空公司的不安全事件建模数据。

S4:以随机森林模型结合特征选举和样本抽样法从步骤S3中得到的不安全事件建模数据中得到训练样本子集,构建基于随机森林模型的航空安全态势预测模型;

随机森林是一种机器学习方法,可用于样本分类;模型生成决策树数目(N

为了提高模型预测精度并防止出现过拟合的情况,本发明中以随机森林模型结合袋装法得到训练样本子集,并结合随机子空间法得到节点分裂特征,如附图3所示,具体包括以下步骤,

S41:对所有的不安全事件数据进行归一化处理;

由于不同类型的航空不安全事件具有不同的量纲,因此,对所有的不安全事件数据进行归一化处理,具体方法为

S42:通过有放回地随机抽样,从归一化处理后的原始样本中重复抽样得K个与原始样本数据集相等的训练样本N,每个训练样本构成一棵决策树;每次进行Bootstrap重抽样时,未被抽中的样本的概率为(1-1/N)N,当N趋向于无穷大时,未被抽中样本的概率越接近1/e,未选中数据被称为袋外数据(Out of bag,OOB),因其未参与回归树构建,故可用来估计预测袋外数据误差(OOB误差)及评估自变量对因变量点的贡献。另外,基于OOB误差可检验模型泛化能力,不需再使用测试集检验模型精度。通过袋外法得到K个训练样本都不相同,保证了回归树差异性。

使用该方法得出的训练样本和验证样本分布情况如附图2所示。其中散点表示样本中参数的值,箱线图中有样本均值、最大值、最小值、中位数等分布信息。

S43:随机子空间法通过袋装法得到K棵回归树后,每个分裂节点随机抽取所有致因变量中的M

S44:随机森林回归模型不但能精确地估测航空安全态势,而且还可给出各个变量的重要性评分,输入对输出影响程度。基于基尼系数和基于OOB误差是常用的变量重要性评分统计量,本发明中基于OOB误差得到各变量重要性;令输入变量x

S45:计算输入变量x

S46:将输入变量x

以某航空公司2017-2019年航空安全数据为研究对象,基于随机森林构建航空安全预测模型,如附图4所示。

S47:对回归航空安全态势预测模型参数进行优化;

随机森林使用默认参数即得到不错结果,其调参过程是确定决策树个数N

决策树个数默认为100,取N

附图6横轴为随机森林树个数,纵轴为模型均方误差。随着树数量增加,模型误差逐渐递减,当K为150时,OOB误差趋于平稳。因此,本发明中航空安全预测模型树数量确定为150。

S5:结合航空公司的原始安全数据库,对航空安全态势预测模型的预测能力进行评价;

具体的,采用决定系数R

式中,X(i)表示验证数据集中第i个样本,X(i)P表示利用验证数据集中第i个样点预测变量所得到的模型预测航空安全态势。

S6:根据致因变量对航空安全态势预测结果的影响分析,对关键致因变量对航空安全不安全事件的贡献进行排序。

随机森林模型通过评估每个变量对总体模型预测精度提高的能力,对预测变量进行贡献排序,从而用于评估各变量在模型中的相对重要性。若变量对模型预测精度贡献越大,则变量越重要。基于随机森林模型构建航空安全预测,提取5个特征进行重要性排序后,排序结果如附图7所示。

由附图7可知,本发明对“环境、设施设备、外来因素、人为及管理”等变量对航空安全影响的重要性进行度量,附图7中环境因素对航空安全的影响最大,需要重点监控,比如需增加驱鸟频次,降低鸟撞因素对航空安全影响,加强恶劣天气环境的预报预测,及时告知飞行人员做出应对,建议指挥员变更计划,要求机务人员采取特殊天气环境的飞机适应性措施(除冰,防沙尘等);人为因素和设施设备对航空安全影响重要性其次,且两者影响程度相当;管理因素对航空安全预测结果影响较小,为降低模型复杂度和提高计算效率可忽略。

进一步的,本发明中还对基于随机森林的航空安全因果预测方法进行了预测精度分析,具体为,基于随机森林模型进行变量选择,分别按设备因素、人为因素、环境因素等开展训练。

附图8为由随机森林方法预测航空安全与实际值间的散点关系图。结果表明,由随机森林模型得出的预测值与实测值之间呈高相关性,RMSE和rRMSE较理想,说明用随机森林模型来预测航空安全态势是可行的。

仿真实验:

航空安全预测中,采用预测响应变量与致因输入变量间的关系来阐述航空安全的影响机理以及实现航空安全在空间或时间维度上的预测,如人工神经网络、支持向量机等被用于航空安全预测。然而,航空安全变化规律受复杂环境、以及多种不确定性的影响,呈现复杂高维的非线性关系,预测建模难。本文在研究之前以该航空公司为研究对象,也尝试过其他模型,精度及效率效果如表3所示。

表3不同预测模型效果对比

从表3中可以看出,在相同样本规模情况下,随机森林模型不论在决定系数还是预测效果都比较好,决定系数达到0.91,均方根误差达到9.7%。比相关向量机和神经网络更适合建立航空安全预测模型。此外,相关向量机、神经网络模型在航空安全建模也存在不足,主要表现在难以解释航空安全内部的实际影响机理,也无法知道输入致因变量对航空安全总体的重要性大小。虽然随机森林回归也是黑箱模型,但它提供了其他有效方式协助解释,比如各变量对模型预测的重要性。此外,随机森林算法中两个随机参数(k,m)的引入,使其具有较好的抗噪能力,不易陷入过度拟合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号