Data agumentation para la clasificación automática de la calidad vocal
Date
2020
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Tecnológica Nacional Regional Córdoba.
Abstract
Se presenta el estado del plan de tesis “Valoración de la calidad vocal a través de deep scattering spectrum y aprendizaje
automático” y se plantean tres transformaciones para incrementar la cantidad de datos de entrenamiento y reducir el sobreajuste.
Estas transformaciones realizan un desplazamiento en frecuencia de los datos (audios), una segmentación por tiempo y la
inversión del orden temporal (flipping). Como resultado, se obtiene un juego de datos 18 veces mayor al original. Se ejecuta un
experimento que consta del el entrenamiento de una red neuronal profunda para evaluar el rendimiento con los datos
aumentados. Se concluye que las transformaciones propuestas disminuyen el sobreajuste, mejoran el error de clasificación y se
pueden utilizar en el ámbito de este plan de tesis, clasificación de la calidad vocal a partir de audios de vocales sostenidas
The status of the thesis plan "Vocal quality assessment through deep scattering spectrum and machine learning" is presented. Three transformations are proposed in order to increase the amount of training data and reduce overfitting. These transformations perform a frequency shift, time segmentation and flipping. It results in a dataset 18 times larger than the original dataset. An experiment consisting of training a deep neural network is run to evaluate performance with the augmented data. It is concluded that the proposed transformations reduce the overfitting, improve the classification error and it could be useful for the thesis plan scope, classification of vocal quality from sustained vowels.
The status of the thesis plan "Vocal quality assessment through deep scattering spectrum and machine learning" is presented. Three transformations are proposed in order to increase the amount of training data and reduce overfitting. These transformations perform a frequency shift, time segmentation and flipping. It results in a dataset 18 times larger than the original dataset. An experiment consisting of training a deep neural network is run to evaluate performance with the augmented data. It is concluded that the proposed transformations reduce the overfitting, improve the classification error and it could be useful for the thesis plan scope, classification of vocal quality from sustained vowels.
Description
Keywords
Calidad vocal, Aprendizaje profundo, Data augmentation
Citation
AJEA- Actas de Jornadas y Eventos Académicos de UTNDV Jornadas de Intercambio y Disfusión de los Resultados de Investigaciones de los Doctorandos en Ingeniería.
Endorsement
Review
Supplemented By
Referenced By
Creative Commons license
Except where otherwised noted, this item's license is described as info:eu-repo/semantics/openAccess