Clasificación automática del grado general de disfonía
Resumen
El análisis audioperceptivo es una parte principal de la rutina de evaluación clínica
de pacientes con trastornos de la voz para medir y registrar la calidad vocal. Esta
valoración repercute en la detección y tratamiento de enfermedades vocales. GRBAS
es una escala de valoración de cinco dimensiones usualmente utilizada en este proceso, donde la dimensión “G” representa el grado general de disfonía. En este trabajo se desarrolla un modelo de aprendizaje profundo para calcular el grado
general de disfonía en escala GRBAS con el propósito de contribuir a la comprensión y mejora de este tipo de modelos en el ámbito de la calidad vocal.
La arquitectura de la red neuronal se definió a partir de dos versiones de un modelo llamado modelo inicial, creado en base a modelos más pequeños. Estos modelos neuronales pequeños, diseñados a partir del conocimiento del dominio del problema, se enfocan en resolver la representación frecuencial del audio, la extracción de características y la clasificación. Una de las versiones recibe el audio sin procesar como entrada y la otra recibe el cepstrograma. Los modelos fueron entrenados y evaluados con los datos de una base de datos pública que contiene audios y valoraciones en escala GRBAS, a los que se añadieron valoraciones de calidad vocal realizadas por un evaluador local.
Las métricas utilizadas para evaluar los modelos de clasificación son la exactitud y el error absoluto medio. Debido a que las valoraciones audioperceptivas tienen un alto grado de variación entre distintos evaluadores médicos y también entre distintas valoraciones del mismo evaluador médico, se plantea que el rendimiento de los modelos automáticos se debe evaluar en relación al índice de concordancia medio interevaluador e intraevaluador de la base de datos.
En base a los resultados obtenidos, por un lado se concluye que la versión del modelo que recibe el cepstrograma como entrada es capaz de predecir el grado general de disfonía, para los datos utilizados, con una exactitud cercana a la de un evaluador humano. Por otro lado, se concluye que una red neuronal profunda diseñada para reconocer patrones de perturbación de amplitud, perturbación de frecuencia y ruido, obtiene información útil para la predicción del grado general de disfonía, que para el diseño utilizado (donde la extracción de características está basada en el cepstrum) no es posible utilizar el audio sin procesar como entrada y que el modelo presentado es un buen punto de partida para futuros desarrollos de clasificadores de la calidad vocal aplicables en la práctica clínica.
El ítem tiene asociados los siguientes ficheros de licencia: