Tesis de Doctorado
Permanent URI for this collectionhttp://48.217.138.120/handle/20.500.12272/548
Browse
Item Modificaciones de la función sigmoide para el problema del desvanecimiento del gradiente y su aplicación a arquitecturas LSTM(2024-12) Roodschild, Matías; Will, Adrián Luis Ernesto; Gotay Sardiñas, JorgeCon el aumento de la profundidad en las redes neuronales, la función sigmoide logística ha sido reemplazada por otras funciones de activación más eficientes como la función ReLU (Rectified Linear Unit). Esto se debe a sus problemas de saturación y desvanecimiento del gradiente, mayormente conocido por sus siglas en inglés (VGP). Estas nuevas funciones permitieron construir arquitecturas innovadoras las cuales han logrado avances notables en machine learning, computer vision y natural languaje processing. Sin embargo, la función sigmoide sigue teniendo usos importantes en arquitecturas tales como GRU, LSTM e incluso Transformers (base de ChatGPT entre otros). Por este motivo, cualquier modificación a la función sigmoide, que le permita una mayor resistencia al VGP y mejore su desempeño en redes neuronales profundas constituye un aporte al área. Se analizaron en esta tesis las principales funciones de activación en las redes neuronales profundas, para encontrar las propiedades que explican su éxito y limitaciones. Como resultado del estudio, se hicieron modificaciones a la función sigmoide, las cuales dieron lugar a siete nuevas funciones de activación que probaron ser resistentes al VGP y tener muy buenos desempeños como compuertas reguladoras del flujo de información en celdas LSTM. Una característica común de las nuevas funciones de activación es su dependencia a parámetros (dos o tres parámetros), que ofrecen una amplia flexibilidad para aproximar diferentes funciones tales como, función lineal, ReLU, Swish y hard-Sigmoide entre otras. Los parámetros asociados a estas nuevas funciones pueden fijarse o ser ajustables, y adaptarse automáticamente al conjunto de los datos presentados. Esta tesis se completa con una propuesta concreta con funciones adaptativas en AutoML para arquitecturas LSTM, que producen buenos resultados sin intervención del usuario.