首页> 外文OA文献 >Extracción de conocimiento en bases de datos astronómicas mediante redes de neuronas artificiales : aplicaciones en la misión Gaia
【2h】

Extracción de conocimiento en bases de datos astronómicas mediante redes de neuronas artificiales : aplicaciones en la misión Gaia

机译:使用人工神经元网络的天文数据库中的知识提取:Gaia任务中的应用

摘要

[Resumen] En la llamada era de las TIC, las capacidades de los sistemas de adquisición de datoshan aumentado enormemente, de forma que resulta complicado almacenar toda lainformación que producen, así como su análisis posterior. Esta explosión de datos haaparecido recientemente en el campo de la Astronomía, donde cada vez se observanun número mayor de objetos, con mayor periodicidad. Un ejemplo de esto es lapróxima misión Gaia, que observará múltiples propiedades de hasta mil millones deestrellas, cuya información tendrá un volumen del orden del petabyte. Por lo tanto, paraanalizar tal cantidad de datos, es necesario desarrollar nuevos métodos de análisis quepermitan extraer todo el conocimiento presente en los mismos. Esta tesis está dedicadaal desarrollo de métodos de análisis de datos, los cuales se integran en la cadena deprocesado de Gaia, con el objetivo de extraer conocimiento de los datos recogidos porla misión.Con el objetivo de analizar los datos de la misión Gaia, se ha organizado un consorcio anivel europeo, llamado Data Processing and Analysis Consortium (DPAC), compuestopor cientos de científicos e ingenieros. DPAC se divide en ocho unidades de coordinación(CUs), estando esta tesis dedicada al desarrollo de algoritmos en la CU8, que se encargade la estimación de parámetros astrofísicos (APs) y la clasificación de las fuentes. Sedesarrollan métodos basados en redes de neuronas artificiales (ANNs) para realizarlas tareas relacionadas con dos paquetes de trabajo diferentes en la CU8: El paqueteGSP-Spec (GWP-823) y el paquete OA (GWP-836).El paquete GSP-Spec se encarga de la estimación de APs de estrellas mediante el espectrodel instrumento Radial Velocity Spectrograph (RVS). Aquí, se presentará el desarrollode uno de los módulos de GSP-Spec, el cual se basa en la aplicación de ANNs detipo feed-forward. Se presenta una metodología, basada en algoritmos genéticos deoptimización, para la obtención de un conjunto óptimo de parámetros de configuraciónpara la ANN en cada caso, en función de la relación señal a ruido (SNR) en el espectroRVS y del tipo de estrella a parametrizar. Además, con el objetivo de mejorar lasestimaciones de APs, se estudian técnicas de procesado wavelet, aplicadas sobre elespectro RVS. A pesar de la efectividad que las ANNs muestran a la hora de estimar APs,en principio éstas carecen de la capacidad de proporcionar un valor de incertidumbresobre dichas estimaciones, con lo cual resulta imposible conocer la fiabilidad de lasmismas. Debido a ello, se presenta una arquitectura novedosa para la ANN, en lacual se invierten las entradas y salidas de la misma, de forma que la ANN estima elespectro RVS a partir de los APs. Dicha arquitectura de denomina red neuronal artificialgenerativa (GANN) y se aplica a la estimación de APs de un conjunto de espectros RVSsimulados para la misión Gaia, donde se muestra más efectiva que el modelo de ANNconvencional, en el caso de estrellas débiles, con un bajo SNR. Finalmente, la red GANNpuede aplicarse para la obtención de la probabilidad a posteriori de cada uno de los APsdado el espectro RVS, lo cual permitirá un análisis más completo de los mismos.Dada la naturaleza de la misión Gaia, la cual es la primera misión astronómica queobservará, de forma no sesgada, toda la bóveda celeste hasta magnitud 20, se espera unagran cantidad de objetos atípicos. El paquete OA en la CU8 se encarga del procesadode dicho tipo de objetos, los cuales se definen como aquellos que no han podido serclasificados con fiabilidad por los paquetes de clasificación existentes en la cadena deprocesamiento. Los métodos de OA se basan en el aprendizaje no supervisado delconjunto de observaciones atípicas. Dicho aprendizaje tiene dos partes: agrupamiento yreducción de dimensionalidad. Se seleccionan los mapas auto-organizativos (SOM) comoalgoritmo base para realizar dicho aprendizaje, demostrándose su efectividad cuando seaplica, con una configuración óptima, a las simulaciones de Gaia. Además, el algoritmoes aplicado a observaciones atípicas reales, provenientes del catálogo SDSS. Dado quees necesaria una identificación posterior de los grupos obtenidos por la red SOM, seaplican dos métodos de identificación diferentes. El primero está basado en la similitudentre los prototipos de la red y el conjunto de simulaciones de Gaia, mientras que elotro esa basado en la recuperación de clasificaciones almacenadas en el catálogo Simbad,mediante el cruce de coordenadas celestes. Gracias a la visualización de la red SOM,y a ambos métodos de identificación, es posible distinguir entre observaciones válidasy artefactos observacionales. Además, el método posibilita la selección de objetos deinterés para observaciones posteriores, con el objetivo de determinar la naturaleza de losmismos.
机译:[摘要]在所谓的ICT时代,数据采集系统的容量已大大增加,使其难以存储它们产生的所有信息以及随后的分析。这种数据爆炸最近出现在天文学领域,在那里观察到越来越多的物体,并且具有更大的周期性。即将到来的盖亚(Gaia)任务就是一个例子,它将观测到多达十亿颗恒星的多个属性,其信息量将达到PB级。因此,为了分析如此大量的数据,有必要开发新的分析方法以允许提取其中存在的所有知识。本文致力于开发数据分析方法,这些方法已集成到Gaia处理链中,目的是从特派团收集的数据中提取知识。为了分析Gaia特派团的数据,组织了一个欧洲范围的财团,称为数据处理和分析财团(DPAC),由数百名科学家和工程师组成。 DPAC分为八个协调单元(CU),本论文致力于CU8中算法的开发,该算法负责估计天体物理参数(AP)和源分类。开发了基于人工神经元网络(ANN)的方法来执行与CU8中两个不同工作包相关的任务:GSP-Spec包(GWP-823)和OA包(GWP-836)。负责使用径向速度光谱仪(RVS)仪器的光谱估算恒星的AP。在此,将介绍基于前馈型ANN的GSP-Spec模块之一的开发。提出了一种基于遗传优化算法的方法,可根据RVS频谱中的信噪比(SNR)和要参数化的恒星类型,分别获取ANN的最佳配置参数集。另外,为了改善AP的估计,研究了应用于RVS频谱的小波处理技术。尽管人工神经网络在估计功率放大器时显示出有效性,但原则上它们缺乏在这些估计值上提供不确定性值的能力,因此无法得知其可靠性。因此,提出了一种用于ANN的新架构,在该架构中,ANN的输入和输出被反转,以便ANN从AP估计RVS频谱。所述架构被称为生成人工神经网络(GANN),用于Gaia任务的一组模拟RVS光谱的AP估计,在弱星,低星等情况下,它比常规ANN模型更有效。 SNR。最后,在给定RVS频谱的情况下,可以将GANN网络用于获取每个AP的后验概率,考虑到Gaia任务的性质(这是第一个天文任务),这将允许对其进行更完整的分析。它将以无偏见的方式观察到高达20级的整个天穹,预计会有大量非典型物体。 CU8中的OA程序包负责处理此类对象,这些对象定义为处理链中现有分类程序包无法可靠地对其进行分类的对象。 OA方法基于对异常值集的无监督学习。该学习分为两个部分:分组和降维。选择自组织图(SOM)作为执行此学习的基本算法,以最佳配置证明将其应用于Gaia仿真时的有效性。此外,该算法还应用于SDSS目录中的真实非典型观测值。由于需要对SOM网络获得的组进行后续标识,因此应用了两种不同的标识方法。第一个基于网络原型与Gaia模拟集之间的相似性,第二个基于穿越天体坐标对Sinbad目录中存储的分类的恢复。得益于SOM网络的可视化以及两种识别方法,可以区分有效观测值和观测伪像。另外,该方法使得能够选择感兴趣的对象用于随后的观察,目的是确定对象的性质。

著录项

  • 作者

    Fustes Villadóniga Diego;

  • 作者单位
  • 年度 2014
  • 总页数
  • 原文格式 PDF
  • 正文语种 spa
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号