Comparison of dimensionality reduction techniques of SPX500: an approach to indexing
2022
Las técnicas de reducción de dimensionalidad son tal vez una de las manera más rápidas de lograr eficiencia en el análisis de datos. En el caso de este estudio su uso buscó una forma tal que con el menor número de activos pertenecientes al índice Standard and Poor's 500, se pueda lograr replicar el comportamiento del mismo. Se empezó con metodologías supervisadas como el análisis de la correlación entre cada activo y el índice y el factor de inflación de la varianza, luego se usaron técnicas no supervisadas como el análisis de componentes principales, el analisis de componentes principales con rotación VARIMAX y el analisis de componentes principales con sparse. En la última sección se hizo un backtest con un trimestre de datos no usado en el entrenamiento de los diferentes modelos. Dimensionality reduction techniques are one of the easiest and fastest ways to reach efficiency in data analysis. In this study, the main goal was to find the less number of assets that belong to the Standard and Poor's 500 with which it could be replicated the index behavior. It was started with supervised methodologies such as the high correlation filter between the index and each asset and the variance inflation factor, later, it was used non-supervised techniques as the principal components analysis, principal components analysis with VARIMAX rotation, and sparse principal components analysis. In the last section, it was performed a backtest with a quarter of the data was not used to train any model.