Facultad Regional Córdoba
Permanent URI for this communityhttp://48.217.138.120/handle/20.500.12272/94
Browse
6 results
Search Results
Item Red neuronal multiescala para clasificación de la calidad vocal(Universidad Tecnológica Nacional Regional Córdoba., 2021) García , Mario Alejandro; Rosset, Ana Lorena; Destefanis, EduardoLa valoración de la calidad vocal mediante el análisis audio-perceptual es parte de la rutina clínica de evaluación de pacientes con trastornos de la voz. La debilidad de este método reside en la subjetividad y en la necesidad de que sea realizada por oyentes experimentados. Este proyecto tiene como objetivo la realización de una clasificación automática de la calidad vocal, valuada en la escala GRBAS, mediante la aplicación de técnicas de aprendizaje profundo sobre voces grabadas. Particularmente, en este trabajo se muestran los resultados del diseño de una red neuronal multiescala para la clasificación de la calidad vocal.Item Data agumentation para la clasificación automática de la calidad vocal(Universidad Tecnológica Nacional Regional Córdoba., 2020) García , Mario Alejandro; Destefanis , EduardoSe presenta el estado del plan de tesis “Valoración de la calidad vocal a través de deep scattering spectrum y aprendizaje automático” y se plantean tres transformaciones para incrementar la cantidad de datos de entrenamiento y reducir el sobreajuste. Estas transformaciones realizan un desplazamiento en frecuencia de los datos (audios), una segmentación por tiempo y la inversión del orden temporal (flipping). Como resultado, se obtiene un juego de datos 18 veces mayor al original. Se ejecuta un experimento que consta del el entrenamiento de una red neuronal profunda para evaluar el rendimiento con los datos aumentados. Se concluye que las transformaciones propuestas disminuyen el sobreajuste, mejoran el error de clasificación y se pueden utilizar en el ámbito de este plan de tesis, clasificación de la calidad vocal a partir de audios de vocales sostenidasItem Clasificación automática de la calidad vocal(edUTecNe, 2019) García , Mario Alejandro; Destefanis , EduardoSe presenta un enfoque para la construcción de un clasificador extremoaextremo de la calidad vocal en escala GRBAS basado en redes neuronales profundas. En base a este enfoque se muestran tres redes neuronales. Las redes presentadas calculan la transformada de Fourier de término reducido (STFT), el cepstrum y shimmer de una señal de audio. Las redes neuronales que calculan la STFT y shimmer se logran entrenar correctamente, mientras que la que calcula el cepstrum no. Para este último caso, se plantea una solución alternativa al cepstrum, la autocovariance, que sí se puede entrenar. Se concluye que las redes neuronales desarrolladas son compatibles con el enfoque planteado porque permiten que el gradiente del error se propague hacia atrásItem RNA-AP: Redes Neurales Artificiales con Aprendizaje Profundo.(Universidad Tecnológica Nacional Regional Córdoba., 2019) Vázquez , Juan Carlos; Constable, LeticiaEste proyecto se adentrará en las técnicas de aprendizaje profundo (Deep Learning) de redes neurales artificiales, que en los últimos años ha producido importantes avances en la Inteligencia Artificial a nivel mundial. El aprendizaje profundo ha tenido alto y positivo impacto en aplicaciones de reconocimiento de imágenes, pero también ha tenido resonantes fracasos debido a que no se entiende con claridad su funcionamiento interno. El proyecto intentará, por un lado obtener el conocimiento necesario para desarrollar software de experimentación y aplicación, y por otro, entender la teoría subyacente, el por qué esta técnica funciona mejor que las anteriores, cuáles son sus bondades y limitaciones, en qué campos es aplicable y en cuáles no, y en lo posible, hacer algún aporte significativo a la teoría.Item Extracción de Características en Audio con Redes Neuronales Convolucionales.(Universidad Tecnológica Nacional Regional Córdoba., 2019) García , Mario Alejandro; Rosset , Ana Lorena; Destefanis , EduardoLa valoración de la calidad vocal mediante el análisis audio-perceptual es parte de la rutina clínica de evaluación de pacientes con trastornos de la voz. La debilidad de este método reside en la subjetividad y en la necesidad de que sea realizada por oyentes experimentados. Este proyecto tiene como objetivo la realización de una clasificación automática de la calidad vocal, valuada en la escala GRBAS, a través de características extraídas del análisis acústico de la señal y técnicas de aprendizaje automático. Particularmente, en este trabajo se muestran los resultados del diseño de las capas de extracción de características de una red neuronal profunda orientada a la clasificación de la calidad vocal.Item Clasificación automática del grado general de disfonía(Universidad Tecnológica nacional. Facultad Regional Córdoba, 2021-12-03) García, Mario Alejandro; Destéfanis, EduardoEl análisis audioperceptivo es una parte principal de la rutina de evaluación clínica de pacientes con trastornos de la voz para medir y registrar la calidad vocal. Esta valoración repercute en la detección y tratamiento de enfermedades vocales. GRBAS es una escala de valoración de cinco dimensiones usualmente utilizada en este proceso, donde la dimensión “G” representa el grado general de disfonía. En este trabajo se desarrolla un modelo de aprendizaje profundo para calcular el grado general de disfonía en escala GRBAS con el propósito de contribuir a la comprensión y mejora de este tipo de modelos en el ámbito de la calidad vocal. La arquitectura de la red neuronal se definió a partir de dos versiones de un modelo llamado modelo inicial, creado en base a modelos más pequeños. Estos modelos neuronales pequeños, diseñados a partir del conocimiento del dominio del problema, se enfocan en resolver la representación frecuencial del audio, la extracción de características y la clasificación. Una de las versiones recibe el audio sin procesar como entrada y la otra recibe el cepstrograma. Los modelos fueron entrenados y evaluados con los datos de una base de datos pública que contiene audios y valoraciones en escala GRBAS, a los que se añadieron valoraciones de calidad vocal realizadas por un evaluador local. Las métricas utilizadas para evaluar los modelos de clasificación son la exactitud y el error absoluto medio. Debido a que las valoraciones audioperceptivas tienen un alto grado de variación entre distintos evaluadores médicos y también entre distintas valoraciones del mismo evaluador médico, se plantea que el rendimiento de los modelos automáticos se debe evaluar en relación al índice de concordancia medio interevaluador e intraevaluador de la base de datos. En base a los resultados obtenidos, por un lado se concluye que la versión del modelo que recibe el cepstrograma como entrada es capaz de predecir el grado general de disfonía, para los datos utilizados, con una exactitud cercana a la de un evaluador humano. Por otro lado, se concluye que una red neuronal profunda diseñada para reconocer patrones de perturbación de amplitud, perturbación de frecuencia y ruido, obtiene información útil para la predicción del grado general de disfonía, que para el diseño utilizado (donde la extracción de características está basada en el cepstrum) no es posible utilizar el audio sin procesar como entrada y que el modelo presentado es un buen punto de partida para futuros desarrollos de clasificadores de la calidad vocal aplicables en la práctica clínica.
