Implementación de algoritmos de aprendizaje supervisado en la búsqueda de estrellas variables
Citas bibliográficas
Enlace de Referencia
Autores
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Fecha
Resumen
Este trabajo pretende realizar la implementación de métodos de aprendizaje supervisado en la clasificación de estrellas variables en el disco y bulbo de la Vía Láctea usando las series de tiempo en banda I de los catálogos ASAS II y OGLE II. La clasificación se hizo en las siguientes clases: Cefeidas, RR Lyrae, candidatas a Be, binarias eclipsantes y variables de largo periodo. Se usaron los siguientes métodos en RStudio: k-vecinos más cercanos, máquinas de soporte vectorial, árboles de clasificación y bosques aleatorios. Se usaron los datos clasificados de OGLE IV y una muestra de estrellas Be de la Gran Nube de Magallanes para entrenar los algoritmos con un conjunto de cinco estadísticos robustos para reducir el costo computacional de eliminación de datos atípicos. Los estadísticos utilizados son: desviación mediana absoluta como estimador de escala, sesgo octil como estimador de sesgo, peso octil izquierdo y derecho como estimadores de peso de colas y valor Abbe modificado como estimador de suavidad. Un acercamiento preliminar de la clasificación mostró una alta confusión entre Cefeidas y RR Lyrae, por lo que se decidió definir una súper-clase que las contenía a las dos. Sin embargo, generar un muestreo preliminar con la súper-clase definida es de gran utilidad como una preselección para luego calcular los periodos a una menor cantidad de estrellas debido a que el cálculo de periodos tiene un costo computacional mucho más alto. El método de clasificación con mejor desempeño individual fue bosques aleatorios, con un mayor número de aciertos sobre la muestra de entrenamiento que los demás. Se implementó este método de manera binaria por cada clase para los catálogos de ASAS II y OGLE II.
Resumen
This work aims to implement supervised learning methods in the classification of variable stars in the Milky Way's galactic bulge and disk using the I-band time series available in the ASAS II and OGLE II data. The classification was done in the following classes: Cepheids, RR Lyrae, Be candidates, eclipsing binaries and long period variables. The following methods were implemented in RStudio: K-nearest neighbors, suport vector machines, classification trees and random forest. The classified data in OGLE IV and a sample of Be stars from the Large Magallanic Cloud were used in the training of the algorithms with a set of five robust statistics as features for reducing the computational cost of the elimination of atypical data. The following statistics were used: median absolute deviation as scale estimator, octile skewness as skewness estimator, left and right octile weight as tail weight estimator, and modified Abbe value as smoothness estimator. An overview of the classification showed a high confussion rate between Cepheids and RR Lyrae, so it was necessary to define a super-class containing both. Nevertheless, generating a sample of candidates to this super-class is very useful because it reduces the size of the sample for calculating periods, reducing the overall compuational cost. The classification method with better performance was random forest, as it had the highest accuracy classifying the training sample. This method was implemented as a binary classificator for each of the classes in the ASAS II and OGLE II catalogues.