Análisis y optimización de algoritmos de clasificación supervisada sobre operaciones impagadas en tarjetas de crédito

de Juan-de Llano, Iozu

dc.contributor.author	de Juan-de Llano, Iozu
dc.date	2017-09-21
dc.date.accessioned	2018-02-26T09:15:54Z
dc.date.available	2018-02-26T09:15:54Z
dc.identifier.uri	https://reunir.unir.net/handle/123456789/6293
dc.description	The present project has as aim to identify the algorithm with better accuracy values in the detection of default in credit card real operations from an anonymous dataset. In order to identify patterns of default, there have been tested twenty four artificial intelligence algorithms based on supervised classification, as well as technics like clustering, outliers elimination, variable normalization, absent values treatment, feature selection, or data balancing dataset techniques. These have been applied trying to improve the level of the initial accuracy. Starting from initial results on the basis of the accuracy level, the methods with higher accuracy have been chosen to conduct an analysis on additional parameters such as precision, sensitivity, area ROC, running time, number of used variables, complexity regarding the generated model, and about the interpretation of the obtained results. The objective is to identify the algorithm that better classifies the instances, and compare it with the results obtained with the previous studies performed on the same date set, as well as compare it with similar studies carried out on other datasets with credit card information. Specifically, in the previous existing study the selected algorithm was the neuronal network. However, the combination of selection of attributes together with the J48 classification algorithm provide similar accuracy, precision and sensibility levels, as well as much better execution times (it is 60 times faster than neuronal networks) and a better improvement in results interpretation (J48 uses only 6 out of 23 attributes distributed in a tree of 25 nodes with 24 connections opposite to the neuronal network that uses 23 out of 23 attributes and 37 nodes with 338 connections).	es_ES
dc.description.abstract	El presente proyecto tiene como objetivo identificar el algoritmo con mayor exactitud, para detectar patrones de impago en tarjetas de crédito partiendo a partir de un dataset con operaciones anónimas reales. Para poder identificar patrones de impago se han utilizado veinticuatro algoritmos de inteligencia artificial basados en clasificación supervisada, así como técnicas de clustering, eliminación de valores fuera de rango, normalización de variables, tratamiento de valores ausentes, selección de variables o tratamiento de datasets no balanceados, entre otras técnicas, con el fin de intentar mejorar el nivel de exactitud inicial. A partir de los resultados iniciales, en los que se evalúan los algoritmos principalmente en base a su nivel de exactitud, se han identificado los algoritmos con mejores resultados para analizar adicionalmente su precisión, sensibilidad, área ROC, tiempo de ejecución, número de variables utilizadas, su rendimiento y complejidad en cuanto al modelo generado y la interpretación de los resultados obtenidos, identificando el algoritmo que mejor clasifica las instancias, comparando, además, los resultados obtenidos con estudios previos realizados sobre el mismo dataset, así como sobre estudios similares realizados sobre otros datasets con información de tarjetas de crédito. Concretamente, en el estudio previo existente el algoritmo seleccionado es la red neuronal. En el presente trabajo se concluye que la combinación de selección de atributos junto con el algoritmo de clasificación J48 proporcionan niveles similares de exactitud, precisión y sensibilidad, si bien reducen sensiblemente el tiempo de ejecución (es 60 veces más rápido que la red neuronal) así como mejoran la facilidad de interpretación de los resultados (utiliza sólo 6 de 23 atributos distribuidos en un árbol de 25 nodos con 24 conexiones, frente a la red neuronal que utiliza 23 de 23 atributos y 37 nodos con 338 conexiones).	es_ES
dc.language.iso	spa	es_ES
dc.rights	openAccess	es_ES
dc.subject	impago en tarjetas de crédito	es_ES
dc.subject	clasificación supervisada	es_ES
dc.subject	preprocesamiento de datos	es_ES
dc.subject	selección de algoritmos de clasificación	es_ES
dc.subject	visual analytics y big data	es_ES
dc.subject	Máster en Visual Analytics y Big Data	es_ES
dc.title	Análisis y optimización de algoritmos de clasificación supervisada sobre operaciones impagadas en tarjetas de crédito	es_ES
dc.type	masterThesis	es_ES
reunir.tag	~156	es_ES