Facultad Regional Córdoba

Permanent URI for this communityhttp://48.217.138.120/handle/20.500.12272/94

Browse

Search Results

Now showing 1 - 3 of 3
  • Thumbnail Image
    Item
    Red neuronal multiescala para clasificación de la calidad vocal
    (Universidad Tecnológica Nacional Regional Córdoba., 2021) García , Mario Alejandro; Rosset, Ana Lorena; Destefanis, Eduardo
    La valoración de la calidad vocal mediante el análisis audio-perceptual es parte de la rutina clínica de evaluación de pacientes con trastornos de la voz. La debilidad de este método reside en la subjetividad y en la necesidad de que sea realizada por oyentes experimentados. Este proyecto tiene como objetivo la realización de una clasificación automática de la calidad vocal, valuada en la escala GRBAS, mediante la aplicación de técnicas de aprendizaje profundo sobre voces grabadas. Particularmente, en este trabajo se muestran los resultados del diseño de una red neuronal multiescala para la clasificación de la calidad vocal.
  • Thumbnail Image
    Item
    Cálculo de la posición del valor máximo en una secuencia con redes neuronales
    (Universidad Tecnológica Nacional Regional Córdoba., 2019) García , Mario Alejandro; Rosset, Ana Lorena
    Se plantea la necesidad de calcular con una red neuronal la posición del valor máximo en una secuencia. En este caso la aplicación es el cálculo del pico del cepstrum. Se propone un modelo neuronal con una capa de convolución que realiza el cálculo esperado. Se muestra que la red neuronal obtenida se puede entrenar. Además el modelo propuesto, utiliza pocos parámetros y debido al esquema de cálculo y las funciones utilizadas, puede propagar el gradiente del error hacia atrás para permitir el entrenamiento de capas conectadas al principio de la red
  • Thumbnail Image
    Item
    Trainable windowing coefficients in DNN for raw audio classification
    (Cloud computing, big data y emerging topics, 2020) García , Mario Alejandro; Destefanis, Eduardo; Rosset, Ana Lorena
    An artificial neural network for audio classification is pro posed. This includes the windowing operation of raw audio and the calculation of the power spectrogram. A windowing layer is initialized with a hann window and its weights are adapted during training. The non-trainable weights of spectrogram calculation are initialized with the discrete Fourier transform coefficients. The tests are performed on the Speech Commands dataset. Results show that adapting the windowing coefficients produces a moderate accuracy improvement. It is concluded that the gradient of the error function can be propagated through the neural calculation of the power spectrum. It is also concluded that the training of the windowing layer improves the model’s ability to general iz