Comparativa de modelos de aprendizaje profundo para la detección de odio en castellano en medios de información social.
Autor:
Simón-Gallego, Carlos
Fecha:
08/02/2023Palabra clave:
Tipo de Ítem:
masterThesisResumen:
Con este trabajo tratamos de determinar la viabilidad que existe en la detección automática de expresiones de odio en castellano mediante la aplicación de Deep Learning (DL) sobre el dataset del proyecto Hatemedia1. Para ello realizamos una comparativa de soluciones para determinar qué modelo de DL ofrece mejor rendimiento para esta tarea. Se han realizado las mismas pruebas con diferentes versiones del dataset; una versión con todos los registros y otras versiones reducidas para intentar solventar los problemas derivados del desbalanceo de clases. Las pruebas realizadas para los datasets balanceados exploran distintas casuísticas en base a criterios como la longitud de los textos o el uso de textos pertenecientes a un mismo medio, con el fin de entender si estas variables tienen importancia en el rendimiento de los modelos. Tras el trabajo comparativo, encontramos que el dataset original resulta inservible debido al problema del desbalanceo de clases, ocasionando que todos los modelos acaben prediciendo únicamente la clase dominante, obteniendo un 98% de accuracy pero un 0% de recall para la clase minoritaria. Si nos centramos en las pruebas con los datasets balanceados, el modelo BETO (versión cased) es el que mejor rendimiento ofrece, superando los resultados obtenidos por otros modelos del estado del arte entrenados con diferentes datasets. Finalizamos exponiendo todas las dificultades encontradas y ofreciendo alternativas de mejora para trabajos futuros.
El presente trabajo ha sido realizado dentro del proyecto: “Taxonomía, presencia e intensidad de las expresiones de odio en entornos digitales vinculados a los medios informativos profesionales españoles – Hatemedia”. Proyecto PID2020-114584GB-I00, financiado por la Agencia Estatal de Investigación - Ministerio de Ciencia e Innovación.
Descripción:
With this work we try to determine the feasibility of the automatic detection of hate speech in Spanish by applying Deep Learning (DL) on the dataset of the Hatemedia project. For this purpose, we carried out a comparison of solutions to determine which DL model offers the best performance for this task. The same tests have been carried out with different versions of the dataset; one version with all the records and other reduced versions to try to solve the problems derived from class imbalance. The tests carried out for the balanced datasets explore different cases based on criteria such as the length of the texts or the use of texts belonging to the same medium, in order to understand whether these variables are important in the performance of the models. After the comparative work, we find that the original dataset is useless due to the class imbalance problem, which makes all the models end up predicting only the dominant class, obtaining 98% accuracy but 0% recall for the minority class. If we focus on the tests with the balanced datasets, BETO model (cased version) is the one that offers the best performance, outperforming the results obtained by other state-of-the-art models trained with different datasets. We conclude by exposing all the difficulties encountered and offering improvement alternatives for future work.
This work has been carried out as part of the project: "Taxonomy, presence and intensity of hate speech in digital environments linked to Spanish professional media - Hatemedia". Project PID2020-114584GB-I00, funded by the State Research Agency - Ministry of Science and Innovation.
Ficheros en el ítem
Este ítem aparece en la(s) siguiente(s) colección(es)
Estadísticas de uso
Año |
2012 |
2013 |
2014 |
2015 |
2016 |
2017 |
2018 |
2019 |
2020 |
2021 |
2022 |
2023 |
2024 |
Vistas |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
217 |
289 |
Descargas |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
187 |
219 |
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
I Congreso Español de Videojuegos 2022
González Calero, Pedro Antonio; Gómez Martín, Marco Antonio; Gómez Martín, Pedro Pablo; Gutiérrez Manjón, Sergio; Gutiérrez Sánchez, Pablo; Peinado, Federico; Sánchez-Ruiz Granados, Antonio; Barbancho, Isabel; Blanco Bueno, Carlos; Botella Nicolás, Ana María; Chover, Miguel; Díaz Álvarez, Josefa; Echeverría, Jorge; Fernández Leiva, Antonio J.; Fernández Ruiz, Marta; Gallego-Durán, Francisco; García Sánchez, Pablo; Gutiérrez Vela, Francisco L; Lara-Cabrera, Raúl; León, Carlos; Moreno, Jorge L.; Lozano Muñoz, Alejandro; Mayor, Jesús; Medina Medina, Nuria; Mejías-Climent, Laura; Mora, Antonio M; Munarriz, Jaime; Patow, Gustavo A.; Sagredo-Olivenza, Ismael; Salinas, María-José; Sanchez I. Peris, Francesc Josep; Sánchez-Ruiz, Antonio A; Shliakhovchuk, Elena; Tejada, Jesus (CEUR Workshop Proceedings, 2022){Resumen no disponible] -
Adapting the brief coping cat for children with anxiety to a group setting in the spanish public mental health system: a hybrid effectiveness-implementation pilot study
Santesteban-Echarri, Olga ; Hernández-Arroyo, Laura; Rice, Simon M.; Güerre-Lobera, M. José; Serrano-Villar, María; Espín-Jaime, José Carlos; Jiménez-Arriero, Miguel Ángel (Journal of Child and Family Studies, 10/2018)Group therapy may offer a promising solution to reducing patient waiting lists for publicly funded mental health services. In this study, an individual brief cognitive behavioral therapy (BCBT) intervention was adapted for ... -
Viscoelastic Effects on the Response of Electroelastic Materials
Díaz-Calleja, Ricardo; Ginestar, Damian; Compan Moreno, Vicente; Llovera-Segovia, Pedro; Burgos-Simon, Clara; Cortes, Juan Carlos; Quijano, Alfredo; Díaz-Boils, Joaquin (Polymers, 2021)Electroelastic materials, as for example, 3M VHB 4910, are attracting attention as actuators or generators in some developments and applications. This is due to their capacity of being deformed when submitted to an electric ...