Mostrar el registro sencillo del ítem

dc.contributor.authorSimón-Gallego, Carlos
dc.date2023-02-08
dc.date.accessioned2023-05-04T13:37:25Z
dc.date.available2023-05-04T13:37:25Z
dc.identifier.urihttps://reunir.unir.net/handle/123456789/14608
dc.descriptionWith this work we try to determine the feasibility of the automatic detection of hate speech in Spanish by applying Deep Learning (DL) on the dataset of the Hatemedia project. For this purpose, we carried out a comparison of solutions to determine which DL model offers the best performance for this task. The same tests have been carried out with different versions of the dataset; one version with all the records and other reduced versions to try to solve the problems derived from class imbalance. The tests carried out for the balanced datasets explore different cases based on criteria such as the length of the texts or the use of texts belonging to the same medium, in order to understand whether these variables are important in the performance of the models. After the comparative work, we find that the original dataset is useless due to the class imbalance problem, which makes all the models end up predicting only the dominant class, obtaining 98% accuracy but 0% recall for the minority class. If we focus on the tests with the balanced datasets, BETO model (cased version) is the one that offers the best performance, outperforming the results obtained by other state-of-the-art models trained with different datasets. We conclude by exposing all the difficulties encountered and offering improvement alternatives for future work. This work has been carried out as part of the project: "Taxonomy, presence and intensity of hate speech in digital environments linked to Spanish professional media - Hatemedia". Project PID2020-114584GB-I00, funded by the State Research Agency - Ministry of Science and Innovation.es_ES
dc.description.abstractCon este trabajo tratamos de determinar la viabilidad que existe en la detección automática de expresiones de odio en castellano mediante la aplicación de Deep Learning (DL) sobre el dataset del proyecto Hatemedia1. Para ello realizamos una comparativa de soluciones para determinar qué modelo de DL ofrece mejor rendimiento para esta tarea. Se han realizado las mismas pruebas con diferentes versiones del dataset; una versión con todos los registros y otras versiones reducidas para intentar solventar los problemas derivados del desbalanceo de clases. Las pruebas realizadas para los datasets balanceados exploran distintas casuísticas en base a criterios como la longitud de los textos o el uso de textos pertenecientes a un mismo medio, con el fin de entender si estas variables tienen importancia en el rendimiento de los modelos. Tras el trabajo comparativo, encontramos que el dataset original resulta inservible debido al problema del desbalanceo de clases, ocasionando que todos los modelos acaben prediciendo únicamente la clase dominante, obteniendo un 98% de accuracy pero un 0% de recall para la clase minoritaria. Si nos centramos en las pruebas con los datasets balanceados, el modelo BETO (versión cased) es el que mejor rendimiento ofrece, superando los resultados obtenidos por otros modelos del estado del arte entrenados con diferentes datasets. Finalizamos exponiendo todas las dificultades encontradas y ofreciendo alternativas de mejora para trabajos futuros. El presente trabajo ha sido realizado dentro del proyecto: “Taxonomía, presencia e intensidad de las expresiones de odio en entornos digitales vinculados a los medios informativos profesionales españoles – Hatemedia”. Proyecto PID2020-114584GB-I00, financiado por la Agencia Estatal de Investigación - Ministerio de Ciencia e Innovación.es_ES
dc.language.isospaes_ES
dc.rightsopenAccesses_ES
dc.subjectdiscurso de odioes_ES
dc.subjectaprendizaje profundoes_ES
dc.subjectaprendizaje por transferenciaes_ES
dc.subjectBETOes_ES
dc.subjectprocesamiento de lenguaje naturales_ES
dc.subjectclasificación de textoes_ES
dc.subjecthate speeches_ES
dc.subjectdeep learninges_ES
dc.subjecttransfer learninges_ES
dc.subjectnatural language processinges_ES
dc.subjecttext classificationes_ES
dc.subjectMáster Universitario en Inteligencia Artificiales_ES
dc.titleComparativa de modelos de aprendizaje profundo para la detección de odio en castellano en medios de información social.es_ES
dc.typemasterThesises_ES
reunir.tag~MIAes_ES


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem