Facultad Regional Córdoba
Permanent URI for this communityhttp://48.217.138.120/handle/20.500.12272/94
Browse
4 results
Search Results
Item Clasificación automática de la calidad vocal(edUTecNe, 2019) García , Mario Alejandro; Destefanis , EduardoSe presenta un enfoque para la construcción de un clasificador extremoaextremo de la calidad vocal en escala GRBAS basado en redes neuronales profundas. En base a este enfoque se muestran tres redes neuronales. Las redes presentadas calculan la transformada de Fourier de término reducido (STFT), el cepstrum y shimmer de una señal de audio. Las redes neuronales que calculan la STFT y shimmer se logran entrenar correctamente, mientras que la que calcula el cepstrum no. Para este último caso, se plantea una solución alternativa al cepstrum, la autocovariance, que sí se puede entrenar. Se concluye que las redes neuronales desarrolladas son compatibles con el enfoque planteado porque permiten que el gradiente del error se propague hacia atrásItem Cálculo de la posición del valor máximo en una secuencia con redes neuronales(Universidad Tecnológica Nacional Regional Córdoba., 2019) García , Mario Alejandro; Rosset, Ana LorenaSe plantea la necesidad de calcular con una red neuronal la posición del valor máximo en una secuencia. En este caso la aplicación es el cálculo del pico del cepstrum. Se propone un modelo neuronal con una capa de convolución que realiza el cálculo esperado. Se muestra que la red neuronal obtenida se puede entrenar. Además el modelo propuesto, utiliza pocos parámetros y debido al esquema de cálculo y las funciones utilizadas, puede propagar el gradiente del error hacia atrás para permitir el entrenamiento de capas conectadas al principio de la redItem Trainable windowing coefficients in DNN for raw audio classification(Cloud computing, big data y emerging topics, 2020) García , Mario Alejandro; Destefanis, Eduardo; Rosset, Ana LorenaAn artificial neural network for audio classification is pro posed. This includes the windowing operation of raw audio and the calculation of the power spectrogram. A windowing layer is initialized with a hann window and its weights are adapted during training. The non-trainable weights of spectrogram calculation are initialized with the discrete Fourier transform coefficients. The tests are performed on the Speech Commands dataset. Results show that adapting the windowing coefficients produces a moderate accuracy improvement. It is concluded that the gradient of the error function can be propagated through the neural calculation of the power spectrum. It is also concluded that the training of the windowing layer improves the model’s ability to general izItem Extracción de Características en Audio con Redes Neuronales Convolucionales.(Universidad Tecnológica Nacional Regional Córdoba., 2019) García , Mario Alejandro; Rosset , Ana Lorena; Destefanis , EduardoLa valoración de la calidad vocal mediante el análisis audio-perceptual es parte de la rutina clínica de evaluación de pacientes con trastornos de la voz. La debilidad de este método reside en la subjetividad y en la necesidad de que sea realizada por oyentes experimentados. Este proyecto tiene como objetivo la realización de una clasificación automática de la calidad vocal, valuada en la escala GRBAS, a través de características extraídas del análisis acústico de la señal y técnicas de aprendizaje automático. Particularmente, en este trabajo se muestran los resultados del diseño de las capas de extracción de características de una red neuronal profunda orientada a la clasificación de la calidad vocal.
