Mostrar el registro sencillo del ítem

dc.contributor.authorPardo-Decimavilla, Pablo
dc.date2024-07-10
dc.date.accessioned2025-11-20T10:16:07Z
dc.date.available2025-11-20T10:16:07Z
dc.identifier.urihttps://reunir.unir.net/handle/123456789/18414
dc.descriptionRecognizing distractions on the road is crucial to reduce traffic accidents. Video-based networks are typically used, but are limited by their computational cost and are vulnerable to viewpoint changes. In this paper, we propose a novel approach for pose-based driver action classification using speech recognition networks, which is lighter and more viewpoint invariant that video-based one. We leverage the similarity in the encoding of information between audio and pose data, representing poses as key points over time. Our architecture is based on Squeezeformer (Kim et al., 2022), an efficient attention-based speech recognition network. We introduce a selection of data augmentation techniques to enhance generalization. Experiments on the Drive&Act dataset demonstrate superior performance compared to state-of-the-art methods. Additionally, we have developed a real dataset to finetune the model, enabling deployment in a custom environments. Our results highlight the effectiveness and robustness of speech recognition networks in pose-based action classification.es_ES
dc.description.abstractReconocer distracciones en la carretera es esencial para reducir accidentes de tráfico. Las redes basadas en video suelen usarse, pero tienen un alto costo computacional y son vulnerables a cambios de perspectiva. Este artículo propone un enfoque novedoso para clasificar acciones del conductor basado en poses, utilizando redes de reconocimiento de voz, que son más ligeras y resistentes a los cambios de perspectiva. La similitud en la codificación entre datos de audio y poses se aprovecha representando poses como puntos clave a lo largo del tiempo. Nuestra arquitectura se basa en Squeezeformer (Kim et al., 2022), una red de reconocimiento de voz eficiente y basada en atención. Implementamos técnicas de aumento de datos para mejorar la generalización. Los experimentos con el conjunto de datos Drive&Act muestran un rendimiento superior frente a métodos de última generación. Además, desarrollamos un conjunto de datos real para ajustar el modelo, permitiendo su uso en entornos personalizados. Los resultados destacan la eficacia y robustez de estas redes en la clasificación de acciones basadas en poses.es_ES
dc.language.isospaes_ES
dc.rightsopenAccesses_ES
dc.subjectconducción autónomaes_ES
dc.subjectsistemas avanzados de advertencia de distracción del conductores_ES
dc.subjectaprendizaje profundoes_ES
dc.subjectTransformerses_ES
dc.subjectautonomous drivinges_ES
dc.subjectadvanced driver distraction warning systemses_ES
dc.subjectdeep learninges_ES
dc.subjectMáster en Inteligencia Artificiales_ES
dc.titlePose-based Gesture Recognition in Autonomous Vehicles using Speech Recognition Networkses_ES
dc.typemasterThesises_ES
reunir.tag~MIAes_ES


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem