• Mi Re-Unir
    Búsqueda Avanzada
    JavaScript is disabled for your browser. Some features of this site may not work without it.
    Ver ítem 
    •   Inicio
    • TRABAJOS FIN DE MÁSTER
    • Área de Ingeniería y Tecnología
    • Ver ítem
    •   Inicio
    • TRABAJOS FIN DE MÁSTER
    • Área de Ingeniería y Tecnología
    • Ver ítem

    Implementación de MLOps para Small Data en Credit Scoring

    Autor: 
    Averens, Avgusta
    Fecha: 
    16/07/2025
    Palabra clave: 
    credit scoring; small data; MLOps; datos sintéticos; explicabilidad; synthetic data; explainability; Máster en Inteligencia Artificial
    Tipo de Ítem: 
    masterThesis
    URI: 
    https://reunir.unir.net/handle/123456789/19047
    Open Access
    Resumen:
    Nota: Este Trabajo de Fin de Máster aborda el problema del análisis de riesgo crediticio en contextos de datos limitados, una situación común en fintechs como la empresa colaboradora, MytripleA. Se propone un pipeline MLOps modular y reproducible que integra técnicas de aprendizaje automático, generación de datos sintéticos y herramientas de explicabilidad. La metodología incluye la recopilación y el procesamiento de datos reales, el entrenamiento de múltiples modelos de clasificación supervisada (Regresión Logística, Árbol de Decisión, Random Forest, XGBoost, Gradient Boosting, SVM, KNN, Naive Bayes y MLP), y la evaluación de cinco escenarios distintos: datos originales, SMOTE, CTGAN, CTGAN+SMOTE y SMOTE+CTGAN. Se ha comprobado que la combinación de datos sintéticos generados con CTGAN y balanceados con SMOTE ha ofrecido los mejores resultados. En particular, el modelo MLP entrenado con esta configuración ha alcanzado un F1-score de 0.83, posicionándose como la mejor solución global. También se han identificado mejoras relevantes con SMOTE de forma aislada, mientras que CTGAN por sí solo ha mostrado un rendimiento inferior. Estos resultados confirman que la integración de técnicas generativas y de sobremuestreo permite construir sistemas robustos, explicables y efectivos incluso en entornos de small data. El pipeline propuesto se ha implementado con herramientas como MLflow y Docker, y está preparado para su integración en procesos reales de evaluación crediticia. Los ficheros necesarios para la reproducción de los experimentos se encuentran disponibles en el repositorio de GitHub: https://github.com/AverensAi/tfm.
    Descripción: 
    Nota: This Master’s Thesis addresses the challenge of credit risk assessment in datalimited environments, a common scenario in fintech companies such as the project collaborator, MytripleA. A modular and reproducible MLOps pipeline is proposed, integrating machine learning techniques, synthetic data generation, and explainability tools. The methodology includes the collection and preprocessing of real-world data, training of multiple supervised classification models (Logistic Regression, Decision Tree, Random Forest, XGBoost, Gradient Boosting, SVM, KNN, Naive Bayes, and MLP), and evaluation under five distinct scenarios: original data, SMOTE, CTGAN, CTGAN+SMOTE, and SMOTE+CTGAN. The combination of CTGAN-generated data with SMOTE balancing has delivered the best overall results. Specifically, the MLP model trained on this dataset achieved an F1- score of 0.83, outperforming all other configurations. Significant improvements have also been observed using SMOTE alone, while CTGAN by itself yielded lower performance. These findings confirm that blending generative and oversampling techniques enables the construction of robust, explainable, and effective models even in small data contexts. The pipeline has been implemented using tools like MLflow and Docker, and is ready for integration into real-world credit scoring workflows. The files required to reproduce the experiments are available in the GitHub repository: https://github.com/AverensAi/tfm.
    Mostrar el registro completo del ítem
    Ficheros en el ítem
    icon
    Nombre: Averens, Avgusta.pdf
    Tamaño: 5.250Mb
    Formato: application/pdf
    Ver/Abrir
    Este ítem aparece en la(s) siguiente(s) colección(es)
    • Área de Ingeniería y Tecnología

    Estadísticas de uso

    Año
    2012
    2013
    2014
    2015
    2016
    2017
    2018
    2019
    2020
    2021
    2022
    2023
    2024
    2025
    2026
    Vistas
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    21
    Descargas
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    0
    21

    Mi cuenta

    AccederRegistrar

    ¿necesitas ayuda?

    Manual de UsuarioContacto: reunir@unir.net

    Listar

    todo Re-UnirComunidades y coleccionesPor fecha de publicaciónAutoresTítulosPalabras claveTipo documentoTipo de accesoEsta colecciónPor fecha de publicaciónAutoresTítulosPalabras claveTipo documentoTipo de acceso






    Aviso Legal Política de Privacidad Política de Cookies Cláusulas legales RGPD
    © UNIR - Universidad Internacional de La Rioja
     
    Aviso Legal Política de Privacidad Política de Cookies Cláusulas legales RGPD
    © UNIR - Universidad Internacional de La Rioja