Learning for safety
Citas bibliográficas
Enlace de Referencia
Jurado
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Fecha
Resumen en inglés
Modern nonlinear control theory seeks to endow systems with properties of stability and safety, and have been deployed successfully in multiple domains. Despite this success, model uncertainty remains a significant challenge in synthesizing safe and stable controllers, leading to degradation in the performance. Reinforcement Learning (RL) algorithms, on the other hand, have found success in controlling systems with no model at all but it is limited beyond simulated applications, and one main reason is the absence of safety and stability guarantees during the learning process. To address this issue, we complement a controller architecture that combines a model-free RL-based controller with model-based controllers utilizing control-Lyapunov and control-Barrier functions (CLFs and CBFs, respectively) and online learning of the unknown system dynamics, to guarantee stability and safety during learning.
Resumen en español
La teoría de control no lineal moderna busca dotar a los sistemas de propiedades de estabilidad y seguridad, y se ha desplegado con éxito en múltiples dominios. A pesar de este éxito, la incertidumbre del modelo sigue siendo un reto importante a la hora de sintetizar controladores seguros y estables, lo que provoca una degradación del rendimiento. Los algoritmos de aprendizaje por refuerzo (RL), por otro lado, han tenido éxito en el control de sistemas sin modelo alguno, pero está limitado más allá de las aplicaciones simuladas, y una razón principal es la ausencia de garantías de seguridad y estabilidad durante el proceso de aprendizaje. Para abordar este problema, complementamos una arquitectura de controladores que combina un controlador basado en RL sin modelo con controladores basados en modelos que utilizan funciones de control de Lyapunov y de Barrera (CLFs y CBFs, respectivamente) y el aprendizaje en línea de la dinámica del sistema desconocido, para garantizar la estabilidad y la seguridad durante el aprendizaje.