Resumen
Reconocer distracciones en la carretera es esencial para reducir accidentes de tráfico. Las redes basadas en video suelen usarse, pero tienen un alto costo computacional y son vulnerables a cambios de perspectiva. Este artículo propone un enfoque novedoso para clasificar acciones del conductor basado en poses, utilizando redes de reconocimiento de voz, que son más ligeras y resistentes a los cambios de perspectiva. La similitud en la codificación entre datos de audio y poses se aprovecha representando poses como puntos clave a lo largo del tiempo. Nuestra arquitectura se basa en Squeezeformer (Kim et al., 2022), una red de reconocimiento de voz eficiente y basada en atención. Implementamos técnicas de aumento de datos para mejorar la generalización. Los experimentos con el conjunto de datos Drive&Act muestran un rendimiento superior frente a métodos de última generación. Además, desarrollamos un conjunto de datos real para ajustar el modelo, permitiendo su uso en entornos personalizados. Los resultados destacan la eficacia y robustez de estas redes en la clasificación de acciones basadas en poses.
Colecciones
Página completa del ítem
.png)
