El aprendizaje por refuerzo se centra en el aprendizaje basado en prueba y error a partir de la interacción de un agente con un entorno
Desde hace algunos años, la Inteligencia Artificial se ha convertido en uno de los temas de moda en el mundo de la tecnología. Multitud de aplicaciones y plataformas de nuestro día a día se han enriquecido del potencial de esta rama para ofrecernos un uso más personalizado, inmediato y de más calidad.
La mayoría de estas aplicaciones se engloban dentro de una rama específica de la Inteligencia Artificial conocida como aprendizaje automático o Machine Learning. El aprendizaje automático se basa en la extracción de conocimiento o la resolución de una tarea compleja a partir de grandes conjuntos de datos. Es por eso que las aplicaciones de Inteligencia Artificial tienen una relación tan directa con el Big data, la primera pone el motor y la segunda la gasolina.
Dentro del aprendizaje automático podemos encontrar un enfoque diferente conocido como aprendizaje por refuerzo. El aprendizaje por refuerzo se centra en el aprendizaje basado en prueba y error a partir de la interacción de un agente con un entorno. A diferencia de la necesidad de usar un (gran) conjunto de datos, en el aprendizaje por refuerzo esos datos se van generando en la propia interacción, basados en las decisiones que el agente toma y en la respuesta que el entorno devuelve. El objetivo del agente es maximizar esa respuesta, conocida como recompensa, obligándole a ir adaptando sus decisiones a lo largo de la interacción.
Esta forma de abordar retos de Inteligencia Artificial abre un nuevo abanico de posibilidades en la manera en la que se ha aplicado hasta el momento. La más llamativa es que el aprendizaje del agente devuelve una estrategia a seguir para maximizar el objetivo del problema, de tal forma que no nos referimos sólo a predicciones o analítica de datos sino a las acciones o decisiones que son más adecuadas en un momento determinado.
En los últimos años, los principales dominios de aplicación del aprendizaje por refuerzo han estado dominados por los diferentes hitos en el ámbito de los videojuegos y juegos de mesa. Algunos de estos logros han sido muy reconocidos en el mundo de la tecnología, como son el caso de AlphaGo o OpenAI Five. El hecho de desarrollar e investigar estas técnicas en juegos se debe principalmente a dos razones. La primera es la obtención de un entorno fácilmente accesible y controlable, que ayude al desarrollo de la solución. La segunda es que los juegos son una forma directa de medir una inteligencia artificial y una inteligencia humana.
Otros contextos donde actualmente se están explorando este tipo de soluciones son retos donde las posibles decisiones y la información disponible son inabarcables para soluciones tecnológicas tradicionales, como por ejemplo la conducción autónoma o algunos entornos de robótica. En este sentido, la mayoría de soluciones son pruebas de concepto o líneas de investigación, ya que necesitan de una validación y definición de unos niveles de seguridad óptimos antes de poder usarlas en nuestro día a día.
Sin lugar a dudas, dentro de la Inteligencia Artificial, el aprendizaje por refuerzo es una de las líneas de trabajo y desarrollo con más potencial en los próximos años, proporcionando no sólo esa capacidad para explotar el dato de manera eficiente sino también para ayudarnos en una toma de decisiones óptima, facilitando el entendimiento y una mejora en los procesos actuales.
Por ello, en el pensum de estudios de la Maestría Oficial en Inteligencia Artificial de la Universidad Internacional de Valencia (VIU), no podía faltar una asignatura centrada en el aprendizaje por refuerzo. En esta asignatura nos centramos en trabajar con los grupos de algoritmos más destacados para entender sus características principales y cuándo aplicarlos. Además, realizamos sesiones prácticas con las herramientas y tecnologías que se usan hoy en día para desarrollar este tipo de soluciones. Todo ello, con una metodología 100% online, con clases en directo, que permite a nuestros estudiantes compaginar la formación con su vida laboral y personal.
Gabriel Muñoz Ríos
Docente en la Maestría Oficial en Inteligencia Artificial de VIU y Lead Data Scientist en Intelygenz