公开/公告号CN105303258A
专利类型发明专利
公开/公告日2016-02-03
原文格式PDF
申请/专利权人 中国科学院国家天文台;
申请/专利号CN201510729561.X
申请日2015-10-30
分类号G06Q10/04;G06K9/62;
代理机构北京汇泽知识产权代理有限公司;
代理人刘淑敏
地址 100012 北京市朝阳区大屯路甲20号
入库时间 2023-12-18 13:57:21
法律状态公告日
法律状态信息
法律状态
2019-04-02
授权
授权
2016-03-02
实质审查的生效 IPC(主分类):G06Q10/04 申请日:20151030
实质审查的生效
2016-02-03
公开
公开
技术领域
本发明涉及太阳活动预报技术,尤其涉及一种基于机器学习技术预报模型的 太阳爆发事件预报方法。
背景技术
太阳是空间天气的源头。源于太阳的剧烈爆发活动产生大量高能粒子和强的 电磁辐射。当大量高能粒子到达地球轨道附近时,可能影响地球同步轨道卫星和 宇航员的安全,到达地球高层大气附近,可能引起地磁暴;当电磁辐射到达地球 附近时,可能破坏地球的电离层,进而影响无线电通讯。因此,太阳爆发事件的 预报具有重要的实用价值。
太阳耀斑和日冕物质抛射是两种最剧烈的太阳爆发事件。在太阳爆发活动预 报中,当前的主要工作集中在太阳耀斑的预报。在太阳耀斑预报方面,主要基于 太阳活动区的形状特征(见文献“McIntosh,P.S.1990,Sol.Phys.,125,251”和 “Bornmann,P.L.&Shaw,D.1994,Sol.Phys.,150,127”)或磁场定量特征(见文 献“Cui,Y.M.,Li,R.,Wang,H.N.,&He,H.2007,Sol.Phys.,242,1”、“Georgoulis, M.K.&Rust,D.M.2007,ApJ,661,109”、“Schrijver,C.J.2007,ApJ,655,117”和 “McAteer,R.T.J.,Gallagher,P.T.,&Conlon,P.A.2010,AdSpR,45,1067”),利用专 家系统(见文献“McIntosh,P.S.1990,Sol.Phys.,125,251”和“Miller,R.W.,1988,J. Roy.Astron.Soc.Can.,82,4”)、统计(见文献“Bloomfield,D.S.,Higgins,P.A., McAteer,R.T.J.,&Gallagher,P.T.2012,ApJL,747,L41”、“Wheatland,M.S.2005, SpaceWeather,3,07003”、“Leka,K.D.&Barnes,G.2007,ApJ,656,1173”和“Mason, J.P.&Hoeksema,J.T.2010,ApJ,723,634”)或机器学习(见文献“Li,R.,Wang, H.-N.,He,H.,Cui,Y.-M.,&Du,Z.-L.2007,ChJAA,7,441”、“Colak,T.&Qahwaji, R.2009,SpaceWeather,7,06001”、“Wang,H.N.,Cui,Y.M.,Li,R.,Zhang,L.Y.,& Han,H.2008,Adv.SpaceRes.,42,1464”、“Ahmed,O.W.,Qahwaji,R.,&Colak,T. etal.2013,SoPh,283,157”和“BobraM.G.andCouvidatS.2015ApJ798135”)等方 法建立实用的太阳耀斑预报模型。但是,在日冕物质抛射预报方面,国际上还未 见有实用的基于太阳日冕物质抛射预报模型的公开技术。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于机器学习技术预报模型的太 阳爆发事件预报方法,利用太阳活动区光球矢量磁场测量,利用机器学习技术建 立太阳爆发事件综合预报模型,以实现太阳活动区相关的太阳耀斑和日冕物质抛 射的综合预报。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于机器学习技术预报模型的太阳爆发事件预报方法,该预报方法包括:
A、刻画太阳活动区磁场特性的步骤;所述太阳活动区磁场特性,包含用于 识别活动区是否产生耀斑的物理量和用于判断产生的耀斑是否伴随日冕物质抛 射的物理参量;及
B、建立太阳爆发事件预报模型的步骤;包括:
B1、采用一定时长的SDO/HMI矢量磁图提取活动区磁场参数;
B2、针对出现在日面30°范围内的活动区数据进行建模,获得太阳耀斑样本, 并对所有C级以上的太阳耀斑,利用SOHO/LASCO列表数据,判断耀斑是否伴 随日冕物质抛射;
B3、根据选定的活动区预设时间内有无发生太阳耀斑、有无伴随日冕物质抛 射的结果,标记相应的样本;
B4、使用代价敏感的决策树算法从观测数据中学习太阳耀斑预报模型。
其中:步骤A所述用于判断活动区是否产生耀斑的物理量,具体包括:
用于指示所述活动区的最大挤压处的纵向磁场最大水平梯度;
中性线长度;
由磁分隔面构成的网络节点,刻画活动区磁场的拓扑复杂性的孤立奇点个数; 以及,
光球自由磁能总和。
其中:步骤A所述用以判断耀斑是否伴随日冕物质抛射的物理量,具体为:
反映光球层上方磁场的束缚程度的光球表面以上10Mm处水平磁场衰减指数;
反映光球层上方磁场的束缚程度并进行了标幺化的光球表面以上0Mm到 10Mm水平磁场通量与光球表面以上10Mm到20Mm水平磁场通量间的比值;
反映所述活动区可能爆发的位置偏离活动区中心的程度的纵向磁场中心与 磁场自由能中心间的距离;以及
反映所述活动区可能爆发的位置偏离活动区中心的程度并进行了标幺化的 纵向磁场中心与磁场自由能中心间的距离与纵向磁场正负极间距离的比值。
其中,步骤B3所述根据选定的活动区预设时间内有无发生太阳耀斑、有无 伴随日冕物质抛射的结果,标记相应的样本的过程,具体为:
设选定的活动区24小时内没有发生太阳耀斑,该样本被标记为“0”;如果该 活动区24小时内发生了太阳耀斑,但是该耀斑并没有伴随日冕物质抛射,该样 本被标记为“1”;如果该活动区24小时内发生了太阳耀斑,并且该耀斑伴随日冕 物质抛射,该样本被标记为“2”。
所述的决策树为一种树状结构的模型,所述决策树从根节点开始生长,首先 根据某种分裂准则,从初始样本数据集中选择最优的属性作为根节点的分裂属性, 同时还要选择相应于分裂属性的最优的分裂点,根据选择的分裂点将初始样本集 划分为几个互不相交的子集,这几个子集就成为根节点的几个不同的分枝节点用 于选择分裂属性的样本集,用同样的方式对生成的子节点的数据样本集进行分裂, 直至分裂所得的子节点均是用类标记的叶节点为止。
所述决策树的构造过程,具体为:
选择用于分类的训练样本数据;
选择分裂属性和相应的分裂点;
选择是否继续分裂节点;
为每个树叶节点分配一个类。
使用信息增益率作为属性选择度量,实现对训练样本数据集的归纳分类;在 构造决策树时采取自上而下、分治、贪心的策略;在节点分裂时,选择具有最大 信息增益率的属性作为分裂属性;通过递归地不断地计算信息增益和不断地选择 分裂属性,最终生成用类标记的叶节点,完成决策树的构造。
步骤B之后进一步包括:
C、对太阳爆发事件预报结果评价的步骤,具体:
C1、设定输出为3类的预报模型输出存在的9种可能的结果:
C2、对所述输出为3类的模型定义如下3个指标评价所述模型的性能:所述 指标分别是:使用预报准确度PC、每一类的报准率PODi以及Heidke技术评分 HSS;
其中,预报准确度PC:
N=n11+n12+n13+n21+n22+n23+n31+n32+n33;
每一类的报准率PODi:
Heidke技术评分HSS:
本发明所提供的基于机器学习技术预报模型的太阳爆发事件预报方法,具有 以下优点:
现有的预报模型通常只针对太阳耀斑爆发而建立。然而,日冕物质抛射也是 一种剧烈的太阳爆发活动。况且,日冕物质抛射和太阳耀斑并没有一对一的关系, 大的太阳耀斑可能伴随日冕物质抛射也可能不伴随日冕物质抛射。本发明从太阳 活动区光球矢量磁场观测中提取参数,用于判断该活动区是否发生耀斑,并进一 步判断该耀斑是否伴随日冕物质抛射,并利用机器学习方法建立太阳爆发事件预 报模型,从而实现了太阳耀斑和日冕物质抛射的综合预报。
附图说明
图1为本发明基于机器学习技术预报模型的太阳爆发事件预报系统的框图示 意图。
具体实施方式
下面结合附图及本发明的实施例对本发明基于机器学习技术预报模型的太 阳爆发事件预报方法作进一步详细的说明。
太阳爆发活动的能量来源于磁场,因此我们基于太阳活动区光球矢量磁场数 据建立太阳爆发事件预报模型。
图1为本发明基于机器学习技术预报模型的太阳爆发事件预报系统的框图示 意图。如图1所示,所述太阳爆发事件预报模型,主要包括如下两个方面,即刻 画太阳活动区磁场特性和建立太阳爆发事件预报模型的步骤。其主要包括如下步 骤:
步骤1:刻画太阳活动区磁场特性的步骤。
在太阳爆发事件预报模型中,太阳活动区磁场特性刻画进一步包含两部分: 用于识别活动区是否产生耀斑的物理量和用于判断产生的耀斑是否伴随日冕物 质抛射的物理参量。
步骤11、用于判断活动区是否产生耀斑的物理量。所述物理量包括:
1)纵向磁场最大水平梯度。纵向磁场的水平梯度指示了活动区的最大挤压 处。
2)中性线长度。中性线用于区分相反极性的磁场。
3)孤立奇点个数。孤立奇点个数是由磁分隔面构成的网络节点,刻画了活 动区磁场的拓扑复杂性。
4)光球自由磁能总和。
步骤12、用以判断耀斑是否伴随日冕物质抛射的物理量。所述物理量包括:
1)光球表面以上10Mm处水平磁场衰减指数。该指数反映了光球层上方磁 场的束缚程度。
2)光球表面以上0Mm到10Mm水平磁场通量与光球表面以上10Mm到 20Mm水平磁场通量间的比值。该比值反映了光球层上方磁场的束缚程度并进行 了标幺化。
3)纵向磁场中心与磁场自由能中心间的距离。该距离反映了活动区可能爆 发的位置偏离活动区中心的程度。
4)纵向磁场中心与磁场自由能中心间的距离与纵向磁场正负极间距离的比 值。该比值反映了活动区可能爆发的位置偏离活动区中心的程度并进行了标幺化。
步骤2:建立太阳爆发事件预报模型的步骤,即使用机器学习技术从观测数 据中学习太阳爆发事件预报模型的过程。
在本发明的实施例中,采用一定时长(使用12个月,即2011年8月~2012 年7月)的SDO/HMI矢量磁图提取活动区磁场参数。
为了避免投影效应对参数计算的影响,本发明仅针对出现在日面30°范围内 的活动区数据进行建模。太阳耀斑样本从NationalGeophysicalDataCenter(NGDC) 获得。对于所有C级以上的太阳耀斑,我们利用SOHO/LASCO列表 (http://cdaw.gsfc.nasa.gov/CME_list/)数据,判断耀斑是否伴随日冕物质抛射。
如果选定的活动区24小时内没有发生太阳耀斑,该样本被标记为“0”;如果 该活动区24小时内发生了太阳耀斑,但是该耀斑并没有伴随日冕物质抛射,该 样本被标记为“1”;如果该活动区24小时内发生了太阳耀斑,并且该耀斑伴随日 冕物质抛射,该样本被标记为“2”。
在所有1586个数据样本中,包含1512个没有产生太阳耀斑的样本,31个产 生太阳耀斑但是不伴随日冕物质抛射的样本,43个产生太阳耀斑并伴随日冕物质 抛射的样本。
本发明使用决策树算法从观测数据中学习太阳耀斑预报模型。由于不同爆发 事件的误报具有不同的误报代价,因此需要使用代价敏感的决策树算法。
这里,所述的决策树是一种树状结构的模型。决策树从根节点开始生长,首 先根据某种分裂准则,从初始样本数据集中选择最优的属性作为根节点的分裂属 性,同时还要选择相应于分裂属性的最优的分裂点,根据选择的分裂点将初始样 本集划分为几个互不相交的子集,这几个子集就成为根节点的几个不同的分枝节 点用于选择分裂属性的样本集,用同样的方式对生成的子节点的数据样本集进行 分裂,直至分裂所得的子节点均是用类标记的叶节点为止。综上所述,决策树的 构造过程如下:
1)选择用于分类的训练样本数据;
2)选择分裂属性和相应的分裂点;
3)选择是否继续分裂节点;
4)为每个树叶节点分配一个类。
其中:分裂属性和分裂点的选择以及树的大小的确定,是决策树分类算法的 核心。
本发明使用信息增益率作为属性选择度量,从而实现对训练样本数据集的归 纳分类。它在构造决策树时采取自上而下、分治、贪心的策略。在节点分裂的时 候,选择具有最大信息增益率的属性作为分裂属性。通过递归地不断地计算信息 增益和不断地选择分裂属性,最终生成用类标记的叶节点,完成决策树的构造。
常规的信息增益率是以信息论为基础定义的。在信息论中,系统的不确定性 由信息熵来衡量:
其中,P表示概率,由下式进行估计:
提供属性F后,系统的不确定性由条件熵来度量:
提供属性F后,系统不确定性的减小称为信息增益:
IG(G,F)=H(C)-H(C|F).
信息增益率是信息增益与属性的信息熵的比率:
代价敏感的决策树算法考虑不同类别具有不同的代价,该算法只需要在评估 概率时考虑不同类别的代价即可,其他建模流程与标准的决策树算法相同。
预报结果的评价指标:
本发明预报给定的活动区是否产生大于一定阈值的太阳耀斑,如果产生耀斑, 该耀斑是否伴随日冕物质抛射。这是一个输出为3类(不产生耀斑、产生耀斑但 不伴随日冕物质抛射、产生耀斑并伴随日冕物质抛射)的预报系统。对于一个输 出为3类的预报系统,其预报结果存在9种可能的结果,如表1所示。
表1:输出为3类的预报模型输出结果。
对于输出为3类的模型,一般使用如下3个指标评价模型的性能:
(1)预报准确度(PC)
N=n11+n12+n13+n21+n22+n23+n31+n32+n33。
(2)每一类的报准率(PODi)
(3)Heidke技术评分(HSS)
测试方法:
本发明使用留一法测试预报模型的性能。留一法是k折交叉验证法的特例。 k折交叉验证法将所有样本随机地分成k个互不相交的子集,每个子集样本数量 相等。用其中的一个子集作为测试集,其余子集的合集作为训练集。选择不同的 测试集,进行k次训练和测试,得到模型的测试结果。当k设定为l时,每次只 保留一个样本用作测试,用其它样本的集合作为训练集,称该方法为留一法。
利用留一法,得到如表2和表3所示的太阳爆发事件综合预报模型的性能。
表2:仅使用判断活动区是否产生耀斑的物理量建立模型(模型Ⅰ)的性能。
表3:同时使用判断活动区是否产生耀斑的物理量和判断耀斑是否伴随日冕物质抛射的物 理量建立模型(模型Ⅱ)的性能。
表4给出了模型Ⅰ和模型Ⅱ预报性能的对比。模型Ⅰ使用了传统的太阳耀斑 的预报因子,模型Ⅱ增加了用于区分耀斑是否伴随日冕物质抛射的预报因子。可 以看出,基于新的预报因子的太阳爆发事件预报模型性能得到改善。
表4:模型Ⅰ和模型Ⅱ性能比较。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
机译: 不使用未来气象预报数据的基于机器学习的太阳能发电预测装置和方法
机译: 基于测试驱动开发方法和性能相同的硬件设备的数值天气预报模型自动输入输出模块验证方法
机译: 基于测试驱动开发方法和性能相同的硬件设备的数值天气预报模型自动输入输出模块验证方法