Aprendizaje por reforzamiento para sistemas multiagentes utilizando Aproximación No Paramétrica

Multiagent reinforcement learning using Non-Parametric Approximation

Contenido principal del artículo

David Luviano Cruz
Francesco José García Luna
Luis Asunción Pérez Domínguez
Resumen

En este artículo se presenta una propuesta hibrida de algoritmo de control para sistemas multiagentes, en donde se aprovechan las ventajas del aprendizaje por reforzamiento y de las funciones de aproximación no paramétricas. Se utiliza una versión modificada del algoritmo Q-learning la cual proveerá de datos de entrenamiento para un Kernel, el cual ofrecerá una aproximación sub optima de acciones a realizar por los agentes. El algoritmo propuesto es probado experimentalmente en una tarea de generación de trayectoria en un entorno desconocido para robot móviles.

Palabras clave

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Referencias

P. Stone, M. Veloso, “Multiagent systems: A survey from machine learning perspective”, Autonomous Robots, vol.8, no.3, pp. 345-383, 2000.

M. Wooldridge, An Introduction to Multi Agent Systems, Baffins Lane, Chichester, England: John Wiley & Sons. 1992.

L. Busoniu, R. Babuska and B. De Schuttert, “Multi-agent Reinforcement Learning: An Overview”, Delf Center for System and Control, Delf University of Technology, pp. 183-221, 2010.

J.M. Vidal, “Learning in multiagent systems: An introduction from a game-theoretic perspective”, In: Alonso E., Kudenko D., Kazakov D. (eds) Adaptive Agents and Multi-Agent Systems. Lecture Notes in Computer Science, vol. 2636. Springer, Berlin, Heidelberg, pp. 202-215, 2003.

R. Postoyan, L. Busoniu, D. Nesic and J. Daafouz, “Stability Analysis of Discrete-Time Infinite-Horizon Optimal Control with Discounted Cost”. IEEE Transactions on Automatic Control, vol. 62, no. 6, pp. 2736–2749, 2017

B. Kiumarsi, K.G. Vamvoudakis, M. Hamidreza and F.L. Lewis. "Optimal and Autonomous Control Using Reinforcement Learning: A Survey", IEEE Transactions on Neural Networks and Learning Systems, vol. 29, no. 6, pp. 2042-2062, 2018.

C. Watkins, P. Dayan, “Q Learning: Technical Note”, Machine Learning, vol.8, pp. 279-292, 1992.

C. Boutilier, “Planning Learning and Coordination in Multiagent Decision Processes”, In Proceedings of the Sixth Conference on Theoretical Aspects of Rationality and Knowledge (TARK96), 1996, pp. 195-202, 1996.

Y. Ishiwaka, T. Sato and Y. Kakazu, “An approach to the pursuit problem on a heterogeneous multiagent system using reinforcement learning”, Robotics and Autonomous Systems, vol. 43, no. 4, pp.245-256, 2003.

A. Nadaraya, “On Estimating Regression”, Theory of Probability and its Applications, vol. 9, no.1, pp. 141-142, 1964.

Sistema OJS - Metabiblioteca |