Mostrar el registro sencillo del ítem
Comparativa de técnicas de aprendizaje no supervisado para la identificación y caracterización de subpoblaciones de diabetes mellitus tipo II
dc.contributor.author | Hernández-Pineda, Giorgio Enrique | |
dc.date | 2024-02-01 | |
dc.date.accessioned | 2024-04-23T13:25:11Z | |
dc.date.available | 2024-04-23T13:25:11Z | |
dc.identifier.uri | https://reunir.unir.net/handle/123456789/16403 | |
dc.description | This study offers an assessment of unsupervised techniques on a diabetes mellitus dataset which comprises data on about 100.000 patients and 130 hospitals in the United States. The objective of this research is to identify sub-populations within the data. The methodology used is a CRISP-DM-adapted version for non-supervised algorithms. Three algorithms with different principles were evaluated: K-Means, DBSCAN, and hierarchical clustering. Three different metrics were used for evaluation; however, sub-population-based analysis was found to be the most pertinent. Additionally, when the processing capacity permits it, hierarchical clustering is an excellent option. Finally, K-Means and DBSCAN algorithms require proper representations of the data, making UMAP the most recommended for datasets including a significant number of epidemiological variables. | es_ES |
dc.description.abstract | En el presente estudio, se propone la evaluación de tres técnicas de aprendizaje no supervisado en un conjunto de datos de diabetes mellitus, que recopila datos de aproximadamente 100.000 pacientes en más de 130 hospitales en Estados Unidos, con el objetivo de identificar y caracterizar distintas sub-poblaciones. La metodología implementada fue una versión de CRISP-DM acondicionada a los problemas de clasificación no supervisada. Fueron evaluados algoritmos con principios de funcionamiento diferentes, siendo el K-Means, DBSCAN, y agrupamiento jerárquico los seleccionados. Para evaluarlos, se seleccionaron 3 índices diferentes, sin embargo, el análisis de sub-poblaciones resultantes fue el más determinante en la evaluación. Finalmente, el agrupamiento jerárquico es una excelente opción, siempre y cuando la capacidad de cómputo permita utilizarle. Seguido, los algoritmos como K-Means Y DBSCAN requieren de representaciones adecuadas, siendo UMAP la preferida en cuanto a conjuntos de datos con alta cantidad de variables epidemiológicas y gran cantidad de datos. | es_ES |
dc.language.iso | spa | es_ES |
dc.rights | openAccess | es_ES |
dc.subject | aprendizaje no supervisado | es_ES |
dc.subject | DBSCAN | es_ES |
dc.subject | agrupamiento jerárquico | es_ES |
dc.subject | K-Means | es_ES |
dc.subject | diabetes mellitus | es_ES |
dc.subject | unsupervised learning | es_ES |
dc.subject | DBSCAN | es_ES |
dc.subject | hierarchical clustering | es_ES |
dc.subject | Máster Universitario en Inteligencia Artificial | es_ES |
dc.title | Comparativa de técnicas de aprendizaje no supervisado para la identificación y caracterización de subpoblaciones de diabetes mellitus tipo II | es_ES |
dc.type | masterThesis | es_ES |
reunir.tag | ~MIA | es_ES |