Mostrar el registro sencillo del ítem

dc.contributor.authorAverens, Avgusta
dc.date2025-07-16
dc.date.accessioned2026-02-23T15:08:17Z
dc.date.available2026-02-23T15:08:17Z
dc.identifier.urihttps://reunir.unir.net/handle/123456789/19047
dc.descriptionNota: This Master’s Thesis addresses the challenge of credit risk assessment in datalimited environments, a common scenario in fintech companies such as the project collaborator, MytripleA. A modular and reproducible MLOps pipeline is proposed, integrating machine learning techniques, synthetic data generation, and explainability tools. The methodology includes the collection and preprocessing of real-world data, training of multiple supervised classification models (Logistic Regression, Decision Tree, Random Forest, XGBoost, Gradient Boosting, SVM, KNN, Naive Bayes, and MLP), and evaluation under five distinct scenarios: original data, SMOTE, CTGAN, CTGAN+SMOTE, and SMOTE+CTGAN. The combination of CTGAN-generated data with SMOTE balancing has delivered the best overall results. Specifically, the MLP model trained on this dataset achieved an F1- score of 0.83, outperforming all other configurations. Significant improvements have also been observed using SMOTE alone, while CTGAN by itself yielded lower performance. These findings confirm that blending generative and oversampling techniques enables the construction of robust, explainable, and effective models even in small data contexts. The pipeline has been implemented using tools like MLflow and Docker, and is ready for integration into real-world credit scoring workflows. The files required to reproduce the experiments are available in the GitHub repository: https://github.com/AverensAi/tfm.es_ES
dc.description.abstractNota: Este Trabajo de Fin de Máster aborda el problema del análisis de riesgo crediticio en contextos de datos limitados, una situación común en fintechs como la empresa colaboradora, MytripleA. Se propone un pipeline MLOps modular y reproducible que integra técnicas de aprendizaje automático, generación de datos sintéticos y herramientas de explicabilidad. La metodología incluye la recopilación y el procesamiento de datos reales, el entrenamiento de múltiples modelos de clasificación supervisada (Regresión Logística, Árbol de Decisión, Random Forest, XGBoost, Gradient Boosting, SVM, KNN, Naive Bayes y MLP), y la evaluación de cinco escenarios distintos: datos originales, SMOTE, CTGAN, CTGAN+SMOTE y SMOTE+CTGAN. Se ha comprobado que la combinación de datos sintéticos generados con CTGAN y balanceados con SMOTE ha ofrecido los mejores resultados. En particular, el modelo MLP entrenado con esta configuración ha alcanzado un F1-score de 0.83, posicionándose como la mejor solución global. También se han identificado mejoras relevantes con SMOTE de forma aislada, mientras que CTGAN por sí solo ha mostrado un rendimiento inferior. Estos resultados confirman que la integración de técnicas generativas y de sobremuestreo permite construir sistemas robustos, explicables y efectivos incluso en entornos de small data. El pipeline propuesto se ha implementado con herramientas como MLflow y Docker, y está preparado para su integración en procesos reales de evaluación crediticia. Los ficheros necesarios para la reproducción de los experimentos se encuentran disponibles en el repositorio de GitHub: https://github.com/AverensAi/tfm.es_ES
dc.language.isospaes_ES
dc.rightsopenAccesses_ES
dc.subjectcredit scoringes_ES
dc.subjectsmall dataes_ES
dc.subjectMLOpses_ES
dc.subjectdatos sintéticoses_ES
dc.subjectexplicabilidades_ES
dc.subjectsynthetic dataes_ES
dc.subjectexplainabilityes_ES
dc.subjectMáster en Inteligencia Artificiales_ES
dc.titleImplementación de MLOps para Small Data en Credit Scoringes_ES
dc.typemasterThesises_ES
reunir.tag~MIAes_ES


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem