Building perfectly curious machines: using structural causal modeling to define the ideal feature space at the learning baseline of curiosity-driven agents
Citas bibliográficas
Enlace de Referencia
Autores
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Fecha
Resumen en inglés
The thesis develops an ideal inverse-dynamics learning algorithm which can learn the properties of the sensors and actuators under its control. The algorithm converges on an ideal feature space, where the implementation details of the actuators under the algorithm's control are rendered invisible to the forward dynamics of a curiosity-driven algorithm (with the same sensors and actuators), run on top of that feature space, where the curiosity-driven algorithm's reward is strictly determined by the minimization of the error of his prediction of the next state of his environment given the current state and his action. That is, the ideal feature space allows the learning trajectory of the forward dynamics of a curiosity-driven algorithm to concentrate on the dynamics of the algorithm's environment by avoiding any distractions originating in the properties of the sensors and actuators under the algorithm's control.
Resumen en español
La tesis desarrolla un algoritmo de aprendizaje ideal de dinámica inversa que puede aprender las propiedades de los sensores y actuadores bajo su control. El algoritmo converge en un espacio de características ideal, en el cual los detalles de implementación de los actuadores bajo el control del algoritmo se vuelven invisibles para la dinámica delantera de un algoritmo motivado por curiosidad (con los mismos sensores y actuadores). El algoritmo motivado por curiosidad corre sobre el espacio de características al que converge el algoritmo de dinámica inversa, y la recompensa del algoritmo motivado por curiosidad está estrictamente determinada por la minimización del error de sus predicciones del próximo estado del ambiente dado el estado actual y su acción. Esto es: el espacio de carcaterísticas ideal permite que la trayectoria de aprendizaje de la dinámica delantera de un algoritmo motivado por curiosidad se concentre en las propiedades de la dinámica del ambiente del algoritmo y evite distracciones provenientes de las propiedades de los sensores y actuadores bajo el control del algoritmo.