Aprendizaje por Refuerzo
La señal de refuerzo puede ser inmediata o retardada. Inmediata es cuando se obtiene una crítica para cada acción efectuada justo después de su realización. La información aportada por el refuerzo en este caso es local a cada acción tomada. Por el contrario, en el caso del refuerzo retardado se dará cuando éste no se obtiene inmediatamente después de la realización de cada acción, sino al completar la secuencia de acciones empleadas para resolver el problema. En este caso, el refuerzo obtenido es una estimación global del comportamiento.
Una condición para poder aplicar el aprendizaje por refuerzo es que éste sea modelizable mediante cadenas de Markov: la acción a escoger en una situación dada depende únicamente de esta situación y no del camino que se ha realizado para llegar a ella. Definimos al agente como el aprendiz encargado de observar su entorno para recoger información que le permita modificar su comportamiento para así aprender a resolver un determinado problema. Como dijimos anteriormente, el objetivo del aprendizaje por refuerzo es la utilización de las recompensas para la obtención de una función de agente. Por tanto nuestro agente será una función que, recibiendo como entrada una percepción del entorno, devolverá la acción siguiente a realizar.
Las aplicaciones del Aprendizaje por Refuerzo son múltiples, desde robots móviles que aprenden a salir de un laberinto, programas de ajedrez que aprenden cuáles son las mejores secuencias de movimientos para ganar un juego o un brazo robótico que aprende cómo mover las articulaciones para lograr el movimiento final deseado.
Una referencia básica sobre este campo del Aprendizaje Automático es el libro “Reinforcement Learning: An Introduction” de Sutton y Burto, que está disponible de forma on-line en la web del propio Sutton.
Si te gustó esta entrada anímate a escribir un comentario o suscribirte al feed y obtener los artículos futuros en tu lector de feeds.







dcb<shbfcsxbhcsdgdgfdhahghgjs544wr7g87a8ehdfwae74gtfwf)&/(&$%"· $tncahdfuw