Comparativa de modelos de aprendizaje profundo para la detección de odio en castellano en medios de información social.

Simón-Gallego, Carlos

Autor:

Simón-Gallego, Carlos

Fecha:

08/02/2023

Palabra clave:

discurso de odio; aprendizaje profundo; aprendizaje por transferencia; BETO; procesamiento de lenguaje natural; clasificación de texto; hate speech; deep learning; transfer learning; natural language processing; text classification; Máster Universitario en Inteligencia Artificial

Tipo de Ítem:

masterThesis

URI:

https://reunir.unir.net/handle/123456789/14608

Resumen:

Con este trabajo tratamos de determinar la viabilidad que existe en la detección automática de expresiones de odio en castellano mediante la aplicación de Deep Learning (DL) sobre el dataset del proyecto Hatemedia1. Para ello realizamos una comparativa de soluciones para determinar qué modelo de DL ofrece mejor rendimiento para esta tarea. Se han realizado las mismas pruebas con diferentes versiones del dataset; una versión con todos los registros y otras versiones reducidas para intentar solventar los problemas derivados del desbalanceo de clases. Las pruebas realizadas para los datasets balanceados exploran distintas casuísticas en base a criterios como la longitud de los textos o el uso de textos pertenecientes a un mismo medio, con el fin de entender si estas variables tienen importancia en el rendimiento de los modelos. Tras el trabajo comparativo, encontramos que el dataset original resulta inservible debido al problema del desbalanceo de clases, ocasionando que todos los modelos acaben prediciendo únicamente la clase dominante, obteniendo un 98% de accuracy pero un 0% de recall para la clase minoritaria. Si nos centramos en las pruebas con los datasets balanceados, el modelo BETO (versión cased) es el que mejor rendimiento ofrece, superando los resultados obtenidos por otros modelos del estado del arte entrenados con diferentes datasets. Finalizamos exponiendo todas las dificultades encontradas y ofreciendo alternativas de mejora para trabajos futuros. El presente trabajo ha sido realizado dentro del proyecto: “Taxonomía, presencia e intensidad de las expresiones de odio en entornos digitales vinculados a los medios informativos profesionales españoles – Hatemedia”. Proyecto PID2020-114584GB-I00, financiado por la Agencia Estatal de Investigación - Ministerio de Ciencia e Innovación.

Descripción:

With this work we try to determine the feasibility of the automatic detection of hate speech in Spanish by applying Deep Learning (DL) on the dataset of the Hatemedia project. For this purpose, we carried out a comparison of solutions to determine which DL model offers the best performance for this task. The same tests have been carried out with different versions of the dataset; one version with all the records and other reduced versions to try to solve the problems derived from class imbalance. The tests carried out for the balanced datasets explore different cases based on criteria such as the length of the texts or the use of texts belonging to the same medium, in order to understand whether these variables are important in the performance of the models. After the comparative work, we find that the original dataset is useless due to the class imbalance problem, which makes all the models end up predicting only the dominant class, obtaining 98% accuracy but 0% recall for the minority class. If we focus on the tests with the balanced datasets, BETO model (cased version) is the one that offers the best performance, outperforming the results obtained by other state-of-the-art models trained with different datasets. We conclude by exposing all the difficulties encountered and offering improvement alternatives for future work. This work has been carried out as part of the project: "Taxonomy, presence and intensity of hate speech in digital environments linked to Spanish professional media - Hatemedia". Project PID2020-114584GB-I00, funded by the State Research Agency - Ministry of Science and Innovation.

Mostrar el registro completo del ítem

Ficheros en el ítem

Nombre: Simón Gallego, Carlos.pdf

Tamaño: 2.347Mb

Formato: application/pdf

Ver/Abrir

Este ítem aparece en la(s) siguiente(s) colección(es)

Área de Ingeniería y Tecnología

Año
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024

Vistas
0
0
0
0
0
0
0
0
0
0
0
217
289

Descargas
0
0
0
0
0
0
0
0
0
0
0
187
219