Implementación y evaluación de algoritmos de aprendizaje por refuerzo para tareas de control de drones en un ambiente de simulación realista
Citas bibliográficas
Enlace de Referencia
Autores
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Fecha
Resumen en inglés
The recent success of the Deep Reinforcement Learning (DRL) algorithms opened its use in different environments and dynamical systems. We present the behavior of a complex dynamic system (quadrotor) in basic tasks as hovering and X-Y displacement in a realistic simulator. The DRL algorithms used were for continuous spaces, such as Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO). We probed dense and sparse reward functions and changed the negative component to demonstrate the impact of these parameters on a fast and repeatable learning process. We found that there is a major impact on the agent learning process because of the reward function, a correct selection could make the training times shorter and the repeatability higher. Contrasted with dense rewards, sparse rewards have less repetitive results and have poor results on tasks such as hovering and reaching X-Y points. Negative rewards directly affect the learning process when using PPO.
Resumen en español
El reciente éxito de los algoritmos Deep Reinforcement Learning (DRL) abrió su uso en diferentes entornos y sistemas dinámicos. Presentamos el comportamiento de un sistema dinámico complejo (quadrotor) en tareas básicas como vuelo estacionario y desplazamiento X-Y en un simulador realista. Los algoritmos DRL utilizados fueron para espacios continuos, como Deep Deterministic Policy Gradient (DDPG) y Proximal Policy Optimización (PPO). Probamos funciones de recompensa sparse y dense y cambiamos el componente negativo para demostrar el impacto de estos parámetros en un proceso de aprendizaje repetible. Descubrimos que existe un gran impacto en el proceso de aprendizaje del agente debido a la función de recompensa, una selección correcta podría acortar los tiempos de entrenamiento y aumentar la repetibilidad. En contraste con las recompensas densas, las recompensas sparse tienen resultados menos repetitivos y tienen malos resultados en las tareas como hovering y alcanzar puntos X-Y. Las recompensas negativas afectan directamente al proceso de aprendizaje al usar PPO.