Generación de comportamientos colaborativos utilizando aprendizaje por refuerzo en un medio de agentes de fútbol
Export citation
Abstract
La generación de comportamientos para agentes en un medio dinámico representa una valiosa aportación pues se puede obtener ciertas metas establecidas por las ciencias computacionales en el campo de la inteligencia artificial. Algunas de esas metas son: diseñar nuevas metodologías computacionales para la solución de problemas, la dirección de análisis, diseño e implantación de proyectos de desarrollo tecnológico computacional capaz de generar nuevo conocimiento, entre otras.
La inteligencia artificial se puede ver como el estudio de métodos que se pueden construir por medio de agentes inteligentes. Los agentes inteligentes tienen como propiedades fundamentales: inteligencia, autonomía, habilidad de aprender, cooperación, entre otros. La habilidad para aprender es la característica de los agentes de interpretar nueva información del ambiente y de esta manera éstos pueden generar acciones o comportamientos nuevos gracias al uso de dicha información.
El aprendizaje permite a los agentes mejorar su comportamiento al realizar tareas muy específicas a través del tiempo. El agente es capaz de aprender de su propia experiencia al ejecutar una acción y de esta manera no cometer los mismos errores en el futuro. La manera en la cual se intenta simular el actuar humano para la generación del aprendizaje por refuerzo es conocido como el aprendizaje básico humano pues genera comportamientos para brindar soluciones a los agentes1
Esta investigación se enfoca esencialmente al análisis, desarrollo e implementación de una herramienta útil para los agentes y éstos puedan generar comportamientos de manera autónoma. De manera específica se utiliza la herramienta XML Behaviour Control2 para generar una nueva solución de generación de comportamientos. La integración con esta herramienta resulta bastante útil pues su arquitectura computacionalmente es estable y sobre todo modular, esto es, resulta sencillo generar nuevas soluciones a problemas de decisión de agentes en este simulador.
El nombre de la nueva herramienta es BADRL, Behaviour Agent Definition by Reinforcement Learning, el cual será modular para cualquier tipo de ambiente. Se define un sistema como modular en el instante en que será sencillo cambiar de solución para que los agentes puedan aprender las acciones que estén realizando sin importar lo que represente esa acción, pues no es lo mismo caminar hacia una pelota con cierta velocidad para jugar fútbol que caminar de manera dirigida para salir de un laberinto. El uso de algoritmos de inteligencia artificial representa un gran reto y una gran motivación para utilizar agentes que puedan crear comportamientos de manera autónoma. La finalidad de esta tesis pretende demostrar que el algoritmo Q-Learning resulta bastante útil para la generación de comportamientos para agentes que juegan fútbol.
1 Sutton, et al. Reinforcement Learning. An Introduction. p. 56-60.
2 Vega, et al. “Major behavior definition of football agents through XML”, p. 4.