Implementación de MLOps para Small Data en Credit Scoring

Averens, Avgusta

dc.contributor.author	Averens, Avgusta
dc.date	2025-07-16
dc.date.accessioned	2026-02-23T15:08:17Z
dc.date.available	2026-02-23T15:08:17Z
dc.identifier.uri	https://reunir.unir.net/handle/123456789/19047
dc.description	Nota: This Master’s Thesis addresses the challenge of credit risk assessment in datalimited environments, a common scenario in fintech companies such as the project collaborator, MytripleA. A modular and reproducible MLOps pipeline is proposed, integrating machine learning techniques, synthetic data generation, and explainability tools. The methodology includes the collection and preprocessing of real-world data, training of multiple supervised classification models (Logistic Regression, Decision Tree, Random Forest, XGBoost, Gradient Boosting, SVM, KNN, Naive Bayes, and MLP), and evaluation under five distinct scenarios: original data, SMOTE, CTGAN, CTGAN+SMOTE, and SMOTE+CTGAN. The combination of CTGAN-generated data with SMOTE balancing has delivered the best overall results. Specifically, the MLP model trained on this dataset achieved an F1- score of 0.83, outperforming all other configurations. Significant improvements have also been observed using SMOTE alone, while CTGAN by itself yielded lower performance. These findings confirm that blending generative and oversampling techniques enables the construction of robust, explainable, and effective models even in small data contexts. The pipeline has been implemented using tools like MLflow and Docker, and is ready for integration into real-world credit scoring workflows. The files required to reproduce the experiments are available in the GitHub repository: https://github.com/AverensAi/tfm.	es_ES
dc.description.abstract	Nota: Este Trabajo de Fin de Máster aborda el problema del análisis de riesgo crediticio en contextos de datos limitados, una situación común en fintechs como la empresa colaboradora, MytripleA. Se propone un pipeline MLOps modular y reproducible que integra técnicas de aprendizaje automático, generación de datos sintéticos y herramientas de explicabilidad. La metodología incluye la recopilación y el procesamiento de datos reales, el entrenamiento de múltiples modelos de clasificación supervisada (Regresión Logística, Árbol de Decisión, Random Forest, XGBoost, Gradient Boosting, SVM, KNN, Naive Bayes y MLP), y la evaluación de cinco escenarios distintos: datos originales, SMOTE, CTGAN, CTGAN+SMOTE y SMOTE+CTGAN. Se ha comprobado que la combinación de datos sintéticos generados con CTGAN y balanceados con SMOTE ha ofrecido los mejores resultados. En particular, el modelo MLP entrenado con esta configuración ha alcanzado un F1-score de 0.83, posicionándose como la mejor solución global. También se han identificado mejoras relevantes con SMOTE de forma aislada, mientras que CTGAN por sí solo ha mostrado un rendimiento inferior. Estos resultados confirman que la integración de técnicas generativas y de sobremuestreo permite construir sistemas robustos, explicables y efectivos incluso en entornos de small data. El pipeline propuesto se ha implementado con herramientas como MLflow y Docker, y está preparado para su integración en procesos reales de evaluación crediticia. Los ficheros necesarios para la reproducción de los experimentos se encuentran disponibles en el repositorio de GitHub: https://github.com/AverensAi/tfm.	es_ES
dc.language.iso	spa	es_ES
dc.rights	openAccess	es_ES
dc.subject	credit scoring	es_ES
dc.subject	small data	es_ES
dc.subject	MLOps	es_ES
dc.subject	datos sintéticos	es_ES
dc.subject	explicabilidad	es_ES
dc.subject	synthetic data	es_ES
dc.subject	explainability	es_ES
dc.subject	Máster en Inteligencia Artificial	es_ES
dc.title	Implementación de MLOps para Small Data en Credit Scoring	es_ES
dc.type	masterThesis	es_ES
reunir.tag	~MIA	es_ES

Ficheros en el ítem

Nombre:: Averens, Avgusta.pdf
Tamaño:: 5.250Mb
Formato:: PDF

Ver/Abrir

Este ítem aparece en la(s) siguiente(s) colección(ones)

Área de Ingeniería y Tecnología

Mostrar el registro sencillo del ítem