Un enfoque de aprendizaje por refuerzo para generar estrategias de pase de balón en la liga de plataforma estándar de robocup
Citation
Share
Date
Abstract
Un agente inteligente debe de ser capaz de aprender de la experiencia por cada acción que realiza en su entorno. El uso de aprendizaje por refuerzo permite que un agente aprenda de su propia experiencia mientras interactúa con los objetos que lo rodean. Con esta técnica, el agente hace un mapa de su entorno y evalúa los diferentes estados que determinarán las decisiones a tomar. Por lo tanto, el agente buscará obtener la recompensa más alta para lograr su meta mientras interactúa en un entorno dinámico y estocástico. Esta tesis implementa dos enfoques de aprendizaje automático: un aprendizaje individual y uno cooperativo. El objetivo principal de esta tesis es aprender un conjunto de reglas reactivas que posteriormente servirán de política para el agente. Estas reglas reactivas serán usadas por el agente para pasar el balón a uno de sus compañeros de equipos. Los experimentos de la presente tesis fueron diseñados de acuerdo a la competencia internacional de Robocup. La competencia está basada en la liga de plataforma estándar (SPL por sus siglas en inglés) [Robocup, 2011], donde el robot oficial es el humanoide Nao creado por la empresa Aldebaran Robotics [Aldebaran, 2011]. Cada equipo sólo puede usar tres robots: un portero y dos mediocampistas.