Browsing by Author "García, Mario Alejandro"
Now showing 1 - 2 of 2
- Results Per Page
- Sort Options
Item Clasificación automática del grado general de disfonía(Universidad Tecnológica nacional. Facultad Regional Córdoba, 2021-12-03) García, Mario Alejandro; Destéfanis, EduardoEl análisis audioperceptivo es una parte principal de la rutina de evaluación clínica de pacientes con trastornos de la voz para medir y registrar la calidad vocal. Esta valoración repercute en la detección y tratamiento de enfermedades vocales. GRBAS es una escala de valoración de cinco dimensiones usualmente utilizada en este proceso, donde la dimensión “G” representa el grado general de disfonía. En este trabajo se desarrolla un modelo de aprendizaje profundo para calcular el grado general de disfonía en escala GRBAS con el propósito de contribuir a la comprensión y mejora de este tipo de modelos en el ámbito de la calidad vocal. La arquitectura de la red neuronal se definió a partir de dos versiones de un modelo llamado modelo inicial, creado en base a modelos más pequeños. Estos modelos neuronales pequeños, diseñados a partir del conocimiento del dominio del problema, se enfocan en resolver la representación frecuencial del audio, la extracción de características y la clasificación. Una de las versiones recibe el audio sin procesar como entrada y la otra recibe el cepstrograma. Los modelos fueron entrenados y evaluados con los datos de una base de datos pública que contiene audios y valoraciones en escala GRBAS, a los que se añadieron valoraciones de calidad vocal realizadas por un evaluador local. Las métricas utilizadas para evaluar los modelos de clasificación son la exactitud y el error absoluto medio. Debido a que las valoraciones audioperceptivas tienen un alto grado de variación entre distintos evaluadores médicos y también entre distintas valoraciones del mismo evaluador médico, se plantea que el rendimiento de los modelos automáticos se debe evaluar en relación al índice de concordancia medio interevaluador e intraevaluador de la base de datos. En base a los resultados obtenidos, por un lado se concluye que la versión del modelo que recibe el cepstrograma como entrada es capaz de predecir el grado general de disfonía, para los datos utilizados, con una exactitud cercana a la de un evaluador humano. Por otro lado, se concluye que una red neuronal profunda diseñada para reconocer patrones de perturbación de amplitud, perturbación de frecuencia y ruido, obtiene información útil para la predicción del grado general de disfonía, que para el diseño utilizado (donde la extracción de características está basada en el cepstrum) no es posible utilizar el audio sin procesar como entrada y que el modelo presentado es un buen punto de partida para futuros desarrollos de clasificadores de la calidad vocal aplicables en la práctica clínica.Item Power Cepstrum Calculation with Convolutional Neural Networks.(Journal of Computer Science y Technology., 2019) García, Mario Alejandro; Destefanis , EduardoA model of neural network with convolutional layers that calculates the power cepstrum of the input signal is proposed. To achieve it, the network calculates the discrete-time short-term Fourier transform internally, obtaining the spectrogram of the signal as an interme diate step. Although the proposed neural networks weights can be calculated in a direct way, it is nec essary to determine if they can be obtained through training with the gradient descent method. In order to analyse the training behaviour, tests are made on the proposed model, as well as on two variants (power spectrum and autocovariance). Results show that the calculation model of power cepstrum cannot be trained, but the analysed variants in fact can.