Aprendizaje por reforzamiento para sistemas multiagentes utilizando Aproximación No Paramétrica
Multiagent reinforcement learning using Non-Parametric Approximation
Contenido principal del artículo
En este artículo se presenta una propuesta hibrida de algoritmo de control para sistemas multiagentes, en donde se aprovechan las ventajas del aprendizaje por reforzamiento y de las funciones de aproximación no paramétricas. Se utiliza una versión modificada del algoritmo Q-learning la cual proveerá de datos de entrenamiento para un Kernel, el cual ofrecerá una aproximación sub optima de acciones a realizar por los agentes. El algoritmo propuesto es probado experimentalmente en una tarea de generación de trayectoria en un entorno desconocido para robot móviles.
Descargas
Detalles del artículo
P. Stone, M. Veloso, “Multiagent systems: A survey from machine learning perspective”, Autonomous Robots, vol.8, no.3, pp. 345-383, 2000.
M. Wooldridge, An Introduction to Multi Agent Systems, Baffins Lane, Chichester, England: John Wiley & Sons. 1992.
L. Busoniu, R. Babuska and B. De Schuttert, “Multi-agent Reinforcement Learning: An Overview”, Delf Center for System and Control, Delf University of Technology, pp. 183-221, 2010.
J.M. Vidal, “Learning in multiagent systems: An introduction from a game-theoretic perspective”, In: Alonso E., Kudenko D., Kazakov D. (eds) Adaptive Agents and Multi-Agent Systems. Lecture Notes in Computer Science, vol. 2636. Springer, Berlin, Heidelberg, pp. 202-215, 2003.
R. Postoyan, L. Busoniu, D. Nesic and J. Daafouz, “Stability Analysis of Discrete-Time Infinite-Horizon Optimal Control with Discounted Cost”. IEEE Transactions on Automatic Control, vol. 62, no. 6, pp. 2736–2749, 2017
B. Kiumarsi, K.G. Vamvoudakis, M. Hamidreza and F.L. Lewis. "Optimal and Autonomous Control Using Reinforcement Learning: A Survey", IEEE Transactions on Neural Networks and Learning Systems, vol. 29, no. 6, pp. 2042-2062, 2018.
C. Watkins, P. Dayan, “Q Learning: Technical Note”, Machine Learning, vol.8, pp. 279-292, 1992.
C. Boutilier, “Planning Learning and Coordination in Multiagent Decision Processes”, In Proceedings of the Sixth Conference on Theoretical Aspects of Rationality and Knowledge (TARK96), 1996, pp. 195-202, 1996.
Y. Ishiwaka, T. Sato and Y. Kakazu, “An approach to the pursuit problem on a heterogeneous multiagent system using reinforcement learning”, Robotics and Autonomous Systems, vol. 43, no. 4, pp.245-256, 2003.
A. Nadaraya, “On Estimating Regression”, Theory of Probability and its Applications, vol. 9, no.1, pp. 141-142, 1964.