Quantum-Annealed Action Selection Policy for Reinforcement Learning

Caponera-De Cobellis, Romolo Rosario

dc.contributor.author	Caponera-De Cobellis, Romolo Rosario
dc.date	2023-07-01
dc.date.accessioned	2023-11-24T12:28:16Z
dc.date.available	2023-11-24T12:28:16Z
dc.identifier.uri	https://reunir.unir.net/handle/123456789/15624
dc.description	Reinforcement Learning is, amongst all Machine Learning types, the least studied in Quantum Computing, yet one that could greatly benefit from the quantum non-determinism in order to approach the exploration-exploitation dilemma. This work explores the usage of Quntum Annealing in the field of Reinforcement Learning and Q-Learning, proposing an annealing-based action selection policy. An overview of some of the most popular classical action selecion policies is offered, so that they are better understood, after which a performance comparison between the classical policies and the proposed QAASP is given. Tests and benchmarks are performed on the FrozenLake envoironment offered by Gymnasium (formerly OpenAI Gym). Results show some potential benefits on the usage of QAASP, yet an overall similar performance compared to classical policies in terms of episodes until convergence	es_ES
dc.description.abstract	De entre todos los tipos de machine learning, el aprendizaje por refuerzo es posiblemente el menos estudiado en t´erminos de computaci´on cu´antica, si bien tiene potencial para beneficiarse en gran medida del no-determinismo intr´ınseco de la cu´antica. Este trabajo explora el uso del Quantum Annealing en el ´ambito del aprendizaje por refuerzo y, concretamente, el Q-Learning, proponiendo una pol´ıtica de selecci´on de acciones basada en el annealing. Se proporciona una revisi´on de algunas de las pol´ıticas cl´asicas m´as utilizadas, para permitir una mejor comprensi´on de las mismas, y posteriormente se compara el rendimiento de la pol´ıtica cu´antica QAASP con ellas. Las pruebas se realizan en el entorno FrozenLake ofrecido por Gymnasium (anteriormente conocido como OpenAI Gym). Los resultados indican ventajas potenciales ligadas al uso de QAASP, si bien el rendimiento final es similar a las pol´ıticas cl´asicas en t´erminos de episodios hasta el fin del entrenamiento.	es_ES
dc.language.iso	spa	es_ES
dc.rights	openAccess	es_ES
dc.subject	computación cuántica	es_ES
dc.subject	quantum annealing	es_ES
dc.subject	Q-Learning	es_ES
dc.subject	aprendizaje por refuerzo	es_ES
dc.subject	quantum computing	es_ES
dc.subject	reinforcement learning	es_ES
dc.subject	Máster Universitario en Computación Cuántica	es_ES
dc.title	Quantum-Annealed Action Selection Policy for Reinforcement Learning	es_ES
dc.type	masterThesis	es_ES
reunir.tag	~MCC	es_ES

Ficheros en el ítem

Nombre:: Caponera-De Cobellis, Romolo ...
Tamaño:: 2.553Mb
Formato:: PDF

Ver/Abrir

Este ítem aparece en la(s) siguiente(s) colección(ones)

Área de Ingeniería y Tecnología

Mostrar el registro sencillo del ítem

Quantum-Annealed Action Selection Policy for Reinforcement Learning

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Ítems relacionados

Determinantes de la información sostenible divulgada por las empresas de electricidad: un estudio internacional ﻿

Memoria para la gestión de la jefatura del servicio de otorrinolaringología del Hospital Morales Meseguer ﻿

Valoración de la relación entre Rendimiento Académico y Condición Física en escolares zaragozanos ﻿

Determinantes de la información sostenible divulgada por las empresas de electricidad: un estudio internacional

Memoria para la gestión de la jefatura del servicio de otorrinolaringología del Hospital Morales Meseguer

Valoración de la relación entre Rendimiento Académico y Condición Física en escolares zaragozanos