Aumento de audio y compresión de modelos para clasificación de escenas acústicas

Gonzalez-Poy, Eduard Marcel

Autor:

Gonzalez-Poy, Eduard Marcel

Fecha:

14/09/2022

Palabra clave:

aumento de audio; clasificación de escenas acústicas; cuantificación de redes neuronales; destilación de conocimiento; redes convolucionales residuales; audio augmentation; acoustic scene clasification; neural network quantization; knowledge distillation; residual convolutional networks; Máster Universitario en Inteligencia Artificial

Tipo de Ítem:

masterThesis

URI:

https://reunir.unir.net/handle/123456789/13801

Resumen:

Este proyecto consiste en el desarrollo de un modelo de baja complejidad para clasificación de escenas acústicas; basado en el reto de la tarea 1 de DCASE 2022. Para conseguir la baja complejidad, se propone la destilación de conocimiento con una aproximación “maestroalumno” y posterior cuantificación de los parámetros de la red al tipo entero de 8 bits. La red maestro se basa en redes convolucionales residuales y, la red alumno, es una red convolucional lineal. Se propone una metodología de aumento de datos de audio basada en la convolución entre la señal original del conjunto de datos propuesto y respuestas impulsiones de dispositivos no presentes en la captura de esos datos. El modelo propuesto supera al de referencia obteniendo un log loss de 1,415, dentro de la limitación de complejidad establecida.

Descripción:

In this project we have developed a low complexity model for acoustic scene classification; based on the challenge of task 1 of DCASE 2022, where a benchmark model to overcome is proposed. To achieve low complexity, we propose knowledge distillation with a "masterstudent" approach and subsequent quantization of the network parameters to the 8-bit integer type. The master network is based on residual convolutional networks and the student is a linear convolutional network. We present an audio data augmentation methodology, based on convolution between the original signal (of the proposed data set) and impulse responses from devices not present at the recording of the data. Our model outperforms the reference model by obtaining a log loss of 1,415, within the set complexity constraint.

Mostrar el registro completo del ítem

Ficheros en el ítem

Nombre: Gonzalez Poy, Eduard Marcel.pdf

Tamaño: 1.403Mb

Formato: application/pdf

Ver/Abrir

Este ítem aparece en la(s) siguiente(s) colección(es)

Área de Ingeniería y Tecnología

Año
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024
2025

Vistas
0
0
0
0
0
0
0
0
0
0
44
84
54
2

Descargas
0
0
0
0
0
0
0
0
0
0
35
65
27
1