Mostrar el registro sencillo del ítem
Pose-based Gesture Recognition in Autonomous Vehicles using Speech Recognition Networks
| dc.contributor.author | Pardo-Decimavilla, Pablo | |
| dc.date | 2024-07-10 | |
| dc.date.accessioned | 2025-11-20T10:16:07Z | |
| dc.date.available | 2025-11-20T10:16:07Z | |
| dc.identifier.uri | https://reunir.unir.net/handle/123456789/18414 | |
| dc.description | Recognizing distractions on the road is crucial to reduce traffic accidents. Video-based networks are typically used, but are limited by their computational cost and are vulnerable to viewpoint changes. In this paper, we propose a novel approach for pose-based driver action classification using speech recognition networks, which is lighter and more viewpoint invariant that video-based one. We leverage the similarity in the encoding of information between audio and pose data, representing poses as key points over time. Our architecture is based on Squeezeformer (Kim et al., 2022), an efficient attention-based speech recognition network. We introduce a selection of data augmentation techniques to enhance generalization. Experiments on the Drive&Act dataset demonstrate superior performance compared to state-of-the-art methods. Additionally, we have developed a real dataset to finetune the model, enabling deployment in a custom environments. Our results highlight the effectiveness and robustness of speech recognition networks in pose-based action classification. | es_ES |
| dc.description.abstract | Reconocer distracciones en la carretera es esencial para reducir accidentes de tráfico. Las redes basadas en video suelen usarse, pero tienen un alto costo computacional y son vulnerables a cambios de perspectiva. Este artículo propone un enfoque novedoso para clasificar acciones del conductor basado en poses, utilizando redes de reconocimiento de voz, que son más ligeras y resistentes a los cambios de perspectiva. La similitud en la codificación entre datos de audio y poses se aprovecha representando poses como puntos clave a lo largo del tiempo. Nuestra arquitectura se basa en Squeezeformer (Kim et al., 2022), una red de reconocimiento de voz eficiente y basada en atención. Implementamos técnicas de aumento de datos para mejorar la generalización. Los experimentos con el conjunto de datos Drive&Act muestran un rendimiento superior frente a métodos de última generación. Además, desarrollamos un conjunto de datos real para ajustar el modelo, permitiendo su uso en entornos personalizados. Los resultados destacan la eficacia y robustez de estas redes en la clasificación de acciones basadas en poses. | es_ES |
| dc.language.iso | spa | es_ES |
| dc.rights | openAccess | es_ES |
| dc.subject | conducción autónoma | es_ES |
| dc.subject | sistemas avanzados de advertencia de distracción del conductor | es_ES |
| dc.subject | aprendizaje profundo | es_ES |
| dc.subject | Transformers | es_ES |
| dc.subject | autonomous driving | es_ES |
| dc.subject | advanced driver distraction warning systems | es_ES |
| dc.subject | deep learning | es_ES |
| dc.subject | Máster en Inteligencia Artificial | es_ES |
| dc.title | Pose-based Gesture Recognition in Autonomous Vehicles using Speech Recognition Networks | es_ES |
| dc.type | masterThesis | es_ES |
| reunir.tag | ~MIA | es_ES |





