公开/公告号CN114912798A
专利类型发明专利
公开/公告日2022-08-16
原文格式PDF
申请/专利权人 中震科建(广东)防灾减灾研究院有限公司;
申请/专利号CN202210526492.2
申请日2022-05-16
分类号G06Q10/06(2012.01);G06Q50/26(2012.01);G06K9/62(2022.01);G06N20/20(2019.01);
代理机构
代理人
地址 512000 广东省韶关市武江区莞韶城一期黄沙坪创新园第6栋
入库时间 2023-06-19 16:23:50
法律状态公告日
法律状态信息
法律状态
2022-09-02
实质审查的生效 IPC(主分类):G06Q10/06 专利申请号:2022105264922 申请日:20220516
实质审查的生效
技术领域
本发明涉及自然灾害研究技术领域,具体为一种基于随机森林和震害大数据的地震损失评估系统。
背景技术
现阶段,由于准确预测地震的发生还是一个尚未被解决的科学难题,提高工程的抗震能力是主要的防灾措施,而地震金融保险等最为减灾地震灾害损失的有效经济补偿手段,地震金融保险的开展迫切需要地震巨灾风险的量化分析方法,另一方面,随着韧性城乡工程在全国的展开,地震风险的量化及其减轻措施变得越来越重要,但现有的地震损失评估系统,缺少大量翔实的对震灾资料的验证,且主要集中于某些具体类别的建筑物,评估的适用性有待提高;现有的地震损失评估系统,没有考虑到影响损失各因素之间的重要性关系,开展灾后损失评估时无法区分主次先后,不利于评估的效率;现有的地震损失评估系统,没有考虑到人文环境因素对易损性的影响,导致评估精度较低。
发明内容
本发明的目的在于提供一种基于随机森林和震害大数据的地震损失评估系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于随机森林和震害大数据的地震损失评估系统,包括地震损失大数据采集模块、地震损失大数据储存模块、震害大数据分析模块和地震损失评估模块,所述建筑损伤大数据采集模块的一侧连接有数据库,数据库的一侧连接有震害大数据分析模块,震害大数据分析模块的一侧连接有地震损失评估模块,建筑损伤大数据采集模块包括房屋基本信息管理单元、建筑详细破坏信息收集单元、地震信息收集单元和人文环境信息收集单元。
所述数据库包括Cache数据缓冲单元、大数据预处理单元和特征信息匹配单元建筑损伤大数据采集模块的一侧连接有数据缓冲单元,数据缓冲单元的一侧连接有大数据预处理单元,大数据预处理单元的一侧连接有特征信息匹配单元。
所述大数据预处理单元包括大数据清洗、集成、规约子单元和数据编码子单元,特征信息匹配单元包括衰减地震动匹配子单元和空间位置匹配子单元。
所述震害大数据分析模块包括地震灾害损失模型学习单元、建筑易损性分析单元地震灾害损失模型学习单元包括数据划分单元和已发地震灾害特征训练单元,建筑易损性分析单元包括易损性影响因素相对关系量化单元和迭代提取地震灾害重要特征单元。
所述的地震灾害损失模型学习单元将不同建筑损伤程度分为k级,以此作为随机森林模型的分类标签类别数,并使用h个特征参数进行输入,则所述样本集合D为:
D={(x
其中,x
对于m=1,2…,M:
第m个基学习训练时,从D中有放回的随机抽取n个样本,此时得到包含n个样本的采样集合D
该基学习器将D
汇总M个弱分类器的结果f(x),根据投票原则,返回最高预测频率的类别结果作为强分类器的H(x)值,作为地震损失预测结果值。
所述的建筑易损性分析单元利用信息熵理论计算易损性各影响因素重要度指数,所述重要性计算方法采用将平均减少不纯度和置换特征重要性归一化的计算方法:平均减少不纯度,利用Gini指数计算叶子节点的不纯度信息来衡量特征重要性的一种方法,以节点为研究对象,其定义如公式:
其中,p
置换特征重要性先提前定义模型m为已训练完毕的随机森林分类模型,测试样本集合为D,总特征数为j(D中的每一列);
迭代k次,每次都对样本集合D中的第j列进行随机打乱,将打乱后的数据集记作
基于
计算第j个特征的重要性
随后将所述重要度计算结果进行归一化处理,那么最终重要度指数为:
所述地震损失评估模块包括结果评估单元和敏感因素判定单元,结果评估单元的一侧连接有敏感因素判定单元。
所述结果评估单元包括建筑损伤分类权重计算单元和损伤程度评估单元,敏感因素判定单元包括高损伤子单元和低损伤子单元,其目的在于判断不同损伤状态下地震损失对哪一种易损性参数敏感性更强。
所述结果评估单元在训练完毕的随机森林模型中输入新发地震灾害特征数据,在基决策树中计算目标建筑属于不同损伤等级的分类权重;统计基决策树分类权重结果来确定输入的数据对应的分类标签,最终确定新发地震灾害损失程度等级,其中随机森林与各基决策树之间的收敛关系如下:
其中,H(x)为集成多个基决策树的随机森林结果;f(x)为样本x的真实标签;T为基决策树的数量;∈值为个体学习器的泛化误差。
与现有技术相比,本发明的有益效果是:本发明相较于现有的地震损失评估系统,实现了地震损失研究与机器学习的深度交叉,能够对震灾数据进行验证,提高了其适用范围;本发明通过研究影响损失各因素的重要性关系,根据各因素重要性排序,可以有效地提高评估效率;本发明通过研究除地震动、建筑结构特征、场地条件外的人文环境因素对易损性的影响,提高了评估的精确性。
附图说明
图1为本发明的模块框架图。
图中:1、地震损失大数据采集模块;11、房屋基本信息管理单元;12、建筑详细破坏信息收集单元;13、地震信息收集单元;14、人文环境信息收集单元;2、地震损失大数据储存模块;21、Cache数据缓冲单元;22、大数据预处理单元;221、大数据清洗、集成、规约子单元;222、数据编码子单元;23、特征信息匹配单元;231、衰减地震动匹配子单元;232、空间位置匹配子单元;3、震害大数据分析模块;31、地震灾害损失模型学习单元;311、数据划分单元;312、已发地震灾害特征训练单元;32、建筑易损性分析单元;321、易损性影响因素相对关系量化单元;322、迭代提取地震灾害重要特征单元;4、地震损失评估模块元;41、结果评估单元;411、建筑损伤分类权重计算单元;412、损伤程度评估单元;42、敏感因素判定单元;421、高损伤子单元;422、低损伤子单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供的一种实施例:一种基于随机森林和震害大数据的地震损失评估系统,包括地震损失大数据采集模块1、地震损失大数据储存模块2、震害大数据分析模块3和地震损失评估模块4,建筑损伤大数据采集模块1的一侧连接有数据库2,数据库2的一侧连接有震害大数据分析模块3,震害大数据分析模块3的一侧连接有地震损失评估模块4,建筑损伤大数据采集模块1包括房屋基本信息管理单元11、建筑详细破坏信息收集单元12、地震信息收集单元13和人文环境信息收集单元14。
数据库2包括Cache数据缓冲单元21、大数据预处理单元22和特征信息匹配单元23,建筑损伤大数据采集模块1的一侧连接有数据缓冲单元21,数据缓冲单元21的一侧连接有大数据预处理单元22,大数据预处理单元22的一侧连接有特征信息匹配单元23。
大数据预处理单元22)包括大数据清洗、集成、规约子单元221和数据编码子单元222,特征信息匹配单元23包括衰减地震动匹配子单元231和空间位置匹配子单元232。
震害大数据分析模块3包括地震灾害损失模型学习单元31、建筑易损性分析单元32,地震灾害损失模型学习单元31包括数据划分单元311和已发地震灾害特征训练单元312,建筑易损性分析单元32包括易损性影响因素相对关系量化单元321和迭代提取地震灾害重要特征单元322。
地震灾害损失模型学习单元31将不同建筑损伤程度分为k级,以此作为随机森林模型的分类标签类别数,并使用h个特征参数进行输入,则所述样本集合D为:
D={(x
其中,x
对于m=1,2…,M:
第m个基学习训练时,从D中有放回的随机抽取n个样本,此时得到包含n个样本的采样集合D
该基学习器将D
汇总M个弱分类器的结果f(x),根据投票原则,返回最高预测频率的类别结果作为强分类器的H(x)值,作为地震损失预测结果值。
所述的建筑易损性分析单元32利用信息熵理论计算易损性各影响因素重要度指数,所述重要性计算方法采用将平均减少不纯度和置换特征重要性归一化的计算方法:平均减少不纯度,利用Gini指数计算叶子节点的不纯度信息来衡量特征重要性的一种方法。以节点为研究对象,其定义如公式:
其中,p
置换特征重要性先提前定义模型m为已训练完毕的随机森林分类模型,测试样本集合为D,总特征数为j(D中的每一列);
迭代k次,每次都对样本集合D中的第j列进行随机打乱,将打乱后的数据
集记作
基于
计算第j个特征的重要性
随后将所述重要度计算结果进行归一化处理,那么最终重要度指数为:
地震损失评估模块4包括结果评估单元41和敏感因素判定单元42,结果评估单元41的一侧连接有敏感因素判定单元42。
所述结果评估单元41包括建筑损伤分类权重计算单元411和损伤程度评估单元412,敏感因素判定单元42包括高损伤子单元421和低损伤子单元422,其目的在于判断不同损伤状态下地震损失对哪一种易损性参数敏感性更强。
结果评估单元41在训练完毕的随机森林模型中输入新发地震灾害特征数据,在基决策树中计算目标建筑属于不同损伤等级的分类权重;统计基决策树分类权重结果来确定输入的数据对应的分类标签,最终确定新发地震灾害损失程度等级,其中随机森林与各基决策树之间的收敛关系如下:
其中,H(x)为集成多个基决策树的随机森林结果;f(x)为样本x的真实标签;T为基决策树的数量;∈值为个体学习器的泛化误差。
以上详细说明针对本发明的可行实施例之具体说明,惟实施例并非用以限制本发明的专利范围,凡未脱离本发明技艺精神所为之等效实施或变更,均应包含于本发明的保护范围中。
机译: 一种基于大数据的评估产品批发价格指数的系统以及使用该方法评估产品的批发价格指数的方法
机译: 利用该系统的建筑物中的地震损失估计系统的结构,以及打算在建筑物中执行的地震危险性评估系统的结构的程序以及记录该程序的计算机可读记录介质,这些系统
机译: 一种基于信用评估的多媒体大数据匹配模式分析的还款后自动付款服务系统