Pose-based Gesture Recognition in Autonomous Vehicles using Speech Recognition Networks

Pardo-Decimavilla, Pablo

dc.contributor.author	Pardo-Decimavilla, Pablo
dc.date	2024-07-10
dc.date.accessioned	2025-11-20T10:16:07Z
dc.date.available	2025-11-20T10:16:07Z
dc.identifier.uri	https://reunir.unir.net/handle/123456789/18414
dc.description	Recognizing distractions on the road is crucial to reduce traffic accidents. Video-based networks are typically used, but are limited by their computational cost and are vulnerable to viewpoint changes. In this paper, we propose a novel approach for pose-based driver action classification using speech recognition networks, which is lighter and more viewpoint invariant that video-based one. We leverage the similarity in the encoding of information between audio and pose data, representing poses as key points over time. Our architecture is based on Squeezeformer (Kim et al., 2022), an efficient attention-based speech recognition network. We introduce a selection of data augmentation techniques to enhance generalization. Experiments on the Drive&Act dataset demonstrate superior performance compared to state-of-the-art methods. Additionally, we have developed a real dataset to finetune the model, enabling deployment in a custom environments. Our results highlight the effectiveness and robustness of speech recognition networks in pose-based action classification.	es_ES
dc.description.abstract	Reconocer distracciones en la carretera es esencial para reducir accidentes de tráfico. Las redes basadas en video suelen usarse, pero tienen un alto costo computacional y son vulnerables a cambios de perspectiva. Este artículo propone un enfoque novedoso para clasificar acciones del conductor basado en poses, utilizando redes de reconocimiento de voz, que son más ligeras y resistentes a los cambios de perspectiva. La similitud en la codificación entre datos de audio y poses se aprovecha representando poses como puntos clave a lo largo del tiempo. Nuestra arquitectura se basa en Squeezeformer (Kim et al., 2022), una red de reconocimiento de voz eficiente y basada en atención. Implementamos técnicas de aumento de datos para mejorar la generalización. Los experimentos con el conjunto de datos Drive&Act muestran un rendimiento superior frente a métodos de última generación. Además, desarrollamos un conjunto de datos real para ajustar el modelo, permitiendo su uso en entornos personalizados. Los resultados destacan la eficacia y robustez de estas redes en la clasificación de acciones basadas en poses.	es_ES
dc.language.iso	spa	es_ES
dc.rights	openAccess	es_ES
dc.subject	conducción autónoma	es_ES
dc.subject	sistemas avanzados de advertencia de distracción del conductor	es_ES
dc.subject	aprendizaje profundo	es_ES
dc.subject	Transformers	es_ES
dc.subject	autonomous driving	es_ES
dc.subject	advanced driver distraction warning systems	es_ES
dc.subject	deep learning	es_ES
dc.subject	Máster en Inteligencia Artificial	es_ES
dc.title	Pose-based Gesture Recognition in Autonomous Vehicles using Speech Recognition Networks	es_ES
dc.type	masterThesis	es_ES
reunir.tag	~MIA	es_ES

Ficheros en el ítem

Nombre:: Pardo Decimavilla, Pablo.pdf
Tamaño:: 6.077Mb
Formato:: PDF

Ver/Abrir

Este ítem aparece en la(s) siguiente(s) colección(ones)

Área de Ingeniería y Tecnología

Mostrar el registro sencillo del ítem

Pose-based Gesture Recognition in Autonomous Vehicles using Speech Recognition Networks

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Ítems relacionados

Prevalence, characteristics, and impact of adverse events in 34 Madrid hospitals. The ESHMAD study ﻿

Aplicación del método Binding en 1º de Primaria ﻿

Enseñar y aprender de las emociones en Educación Infantil ﻿

Prevalence, characteristics, and impact of adverse events in 34 Madrid hospitals. The ESHMAD study

Aplicación del método Binding en 1º de Primaria

Enseñar y aprender de las emociones en Educación Infantil