Mostrar el registro sencillo del ítem

dc.contributor.authorHernández-Pineda, Giorgio Enrique
dc.date2024-02-01
dc.date.accessioned2024-04-23T13:25:11Z
dc.date.available2024-04-23T13:25:11Z
dc.identifier.urihttps://reunir.unir.net/handle/123456789/16403
dc.descriptionThis study offers an assessment of unsupervised techniques on a diabetes mellitus dataset which comprises data on about 100.000 patients and 130 hospitals in the United States. The objective of this research is to identify sub-populations within the data. The methodology used is a CRISP-DM-adapted version for non-supervised algorithms. Three algorithms with different principles were evaluated: K-Means, DBSCAN, and hierarchical clustering. Three different metrics were used for evaluation; however, sub-population-based analysis was found to be the most pertinent. Additionally, when the processing capacity permits it, hierarchical clustering is an excellent option. Finally, K-Means and DBSCAN algorithms require proper representations of the data, making UMAP the most recommended for datasets including a significant number of epidemiological variables.es_ES
dc.description.abstractEn el presente estudio, se propone la evaluación de tres técnicas de aprendizaje no supervisado en un conjunto de datos de diabetes mellitus, que recopila datos de aproximadamente 100.000 pacientes en más de 130 hospitales en Estados Unidos, con el objetivo de identificar y caracterizar distintas sub-poblaciones. La metodología implementada fue una versión de CRISP-DM acondicionada a los problemas de clasificación no supervisada. Fueron evaluados algoritmos con principios de funcionamiento diferentes, siendo el K-Means, DBSCAN, y agrupamiento jerárquico los seleccionados. Para evaluarlos, se seleccionaron 3 índices diferentes, sin embargo, el análisis de sub-poblaciones resultantes fue el más determinante en la evaluación. Finalmente, el agrupamiento jerárquico es una excelente opción, siempre y cuando la capacidad de cómputo permita utilizarle. Seguido, los algoritmos como K-Means Y DBSCAN requieren de representaciones adecuadas, siendo UMAP la preferida en cuanto a conjuntos de datos con alta cantidad de variables epidemiológicas y gran cantidad de datos.es_ES
dc.language.isospaes_ES
dc.rightsopenAccesses_ES
dc.subjectaprendizaje no supervisadoes_ES
dc.subjectDBSCANes_ES
dc.subjectagrupamiento jerárquicoes_ES
dc.subjectK-Meanses_ES
dc.subjectdiabetes mellituses_ES
dc.subjectunsupervised learninges_ES
dc.subjectDBSCANes_ES
dc.subjecthierarchical clusteringes_ES
dc.subjectMáster Universitario en Inteligencia Artificiales_ES
dc.titleComparativa de técnicas de aprendizaje no supervisado para la identificación y caracterización de subpoblaciones de diabetes mellitus tipo IIes_ES
dc.typemasterThesises_ES
reunir.tag~MIAes_ES


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem