Implementación de MLOps para Small Data en Credit Scoring
Autor:
Averens, Avgusta
Fecha:
16/07/2025Palabra clave:
Tipo de Ítem:
masterThesis
Resumen:
Nota: Este Trabajo de Fin de Máster aborda el problema del análisis de riesgo crediticio
en contextos de datos limitados, una situación común en fintechs como la empresa
colaboradora, MytripleA. Se propone un pipeline MLOps modular y reproducible que integra
técnicas de aprendizaje automático, generación de datos sintéticos y herramientas de
explicabilidad. La metodología incluye la recopilación y el procesamiento de datos reales,
el entrenamiento de múltiples modelos de clasificación supervisada (Regresión Logística,
Árbol de Decisión, Random Forest, XGBoost, Gradient Boosting, SVM, KNN, Naive Bayes
y MLP), y la evaluación de cinco escenarios distintos: datos originales, SMOTE, CTGAN,
CTGAN+SMOTE y SMOTE+CTGAN.
Se ha comprobado que la combinación de datos sintéticos generados con CTGAN y
balanceados con SMOTE ha ofrecido los mejores resultados. En particular, el modelo MLP
entrenado con esta configuración ha alcanzado un F1-score de 0.83, posicionándose como
la mejor solución global. También se han identificado mejoras relevantes con SMOTE de
forma aislada, mientras que CTGAN por sí solo ha mostrado un rendimiento inferior.
Estos resultados confirman que la integración de técnicas generativas y de sobremuestreo
permite construir sistemas robustos, explicables y efectivos incluso en entornos de
small data. El pipeline propuesto se ha implementado con herramientas como MLflow y
Docker, y está preparado para su integración en procesos reales de evaluación crediticia.
Los ficheros necesarios para la reproducción de los experimentos se encuentran disponibles
en el repositorio de GitHub: https://github.com/AverensAi/tfm.
Descripción:
Nota: This Master’s Thesis addresses the challenge of credit risk assessment in datalimited
environments, a common scenario in fintech companies such as the project collaborator,
MytripleA. A modular and reproducible MLOps pipeline is proposed, integrating
machine learning techniques, synthetic data generation, and explainability tools.
The methodology includes the collection and preprocessing of real-world data, training of
multiple supervised classification models (Logistic Regression, Decision Tree, Random Forest,
XGBoost, Gradient Boosting, SVM, KNN, Naive Bayes, and MLP), and evaluation
under five distinct scenarios: original data, SMOTE, CTGAN, CTGAN+SMOTE, and
SMOTE+CTGAN.
The combination of CTGAN-generated data with SMOTE balancing has delivered the
best overall results. Specifically, the MLP model trained on this dataset achieved an F1-
score of 0.83, outperforming all other configurations. Significant improvements have also
been observed using SMOTE alone, while CTGAN by itself yielded lower performance.
These findings confirm that blending generative and oversampling techniques enables
the construction of robust, explainable, and effective models even in small data contexts.
The pipeline has been implemented using tools like MLflow and Docker, and is ready for
integration into real-world credit scoring workflows. The files required to reproduce the
experiments are available in the GitHub repository: https://github.com/AverensAi/tfm.
Ficheros en el ítem
Este ítem aparece en la(s) siguiente(s) colección(es)
Estadísticas de uso
| Año |
| 2012 |
| 2013 |
| 2014 |
| 2015 |
| 2016 |
| 2017 |
| 2018 |
| 2019 |
| 2020 |
| 2021 |
| 2022 |
| 2023 |
| 2024 |
| 2025 |
| 2026 |
| Vistas |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 21 |
| Descargas |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 0 |
| 21 |





