Resumen
Con este trabajo tratamos de determinar la viabilidad que existe en la detección automática de expresiones de odio en castellano mediante la aplicación de Deep Learning (DL) sobre el dataset del proyecto Hatemedia1. Para ello realizamos una comparativa de soluciones para determinar qué modelo de DL ofrece mejor rendimiento para esta tarea. Se han realizado las mismas pruebas con diferentes versiones del dataset; una versión con todos los registros y otras versiones reducidas para intentar solventar los problemas derivados del desbalanceo de clases. Las pruebas realizadas para los datasets balanceados exploran distintas casuísticas en base a criterios como la longitud de los textos o el uso de textos pertenecientes a un mismo medio, con el fin de entender si estas variables tienen importancia en el rendimiento de los modelos. Tras el trabajo comparativo, encontramos que el dataset original resulta inservible debido al problema del desbalanceo de clases, ocasionando que todos los modelos acaben prediciendo únicamente la clase dominante, obteniendo un 98% de accuracy pero un 0% de recall para la clase minoritaria. Si nos centramos en las pruebas con los datasets balanceados, el modelo BETO (versión cased) es el que mejor rendimiento ofrece, superando los resultados obtenidos por otros modelos del estado del arte entrenados con diferentes datasets. Finalizamos exponiendo todas las dificultades encontradas y ofreciendo alternativas de mejora para trabajos futuros. El presente trabajo ha sido realizado dentro del proyecto: “Taxonomía, presencia e intensidad de las expresiones de odio en entornos digitales vinculados a los medios informativos profesionales españoles – Hatemedia”. Proyecto PID2020-114584GB-I00, financiado por la Agencia Estatal de Investigación - Ministerio de Ciencia e Innovación.
Colecciones
Página completa del ítem
.png)
