Modificaciones de la función sigmoide para el problema del desvanecimiento del gradiente y su aplicación a arquitecturas LSTM

Roodschild, Matías

Modificaciones de la función sigmoide para el problema del desvanecimiento del gradiente y su aplicación a arquitecturas LSTM

dc.contributor.advisor	Will, Adrián Luis Ernesto
dc.contributor.coadvisor	Gotay Sardiñas, Jorge
dc.creator	Roodschild, Matías
dc.date.accessioned	2024-12-19T19:43:16Z
dc.date.issued	2024-12
dc.description.abstract	Con el aumento de la profundidad en las redes neuronales, la función sigmoide logística ha sido reemplazada por otras funciones de activación más eficientes como la función ReLU (Rectified Linear Unit). Esto se debe a sus problemas de saturación y desvanecimiento del gradiente, mayormente conocido por sus siglas en inglés (VGP). Estas nuevas funciones permitieron construir arquitecturas innovadoras las cuales han logrado avances notables en machine learning, computer vision y natural languaje processing. Sin embargo, la función sigmoide sigue teniendo usos importantes en arquitecturas tales como GRU, LSTM e incluso Transformers (base de ChatGPT entre otros). Por este motivo, cualquier modificación a la función sigmoide, que le permita una mayor resistencia al VGP y mejore su desempeño en redes neuronales profundas constituye un aporte al área. Se analizaron en esta tesis las principales funciones de activación en las redes neuronales profundas, para encontrar las propiedades que explican su éxito y limitaciones. Como resultado del estudio, se hicieron modificaciones a la función sigmoide, las cuales dieron lugar a siete nuevas funciones de activación que probaron ser resistentes al VGP y tener muy buenos desempeños como compuertas reguladoras del flujo de información en celdas LSTM. Una característica común de las nuevas funciones de activación es su dependencia a parámetros (dos o tres parámetros), que ofrecen una amplia flexibilidad para aproximar diferentes funciones tales como, función lineal, ReLU, Swish y hard-Sigmoide entre otras. Los parámetros asociados a estas nuevas funciones pueden fijarse o ser ajustables, y adaptarse automáticamente al conjunto de los datos presentados. Esta tesis se completa con una propuesta concreta con funciones adaptativas en AutoML para arquitecturas LSTM, que producen buenos resultados sin intervención del usuario.
dc.description.affiliation	Fil: Roodschild, Matías. Universidad Tecnológica Nacional. Facultad Regional Santa Fe; Argentina.
dc.format	pdf
dc.identifier.uri	http://hdl.handle.net/20.500.12272/11989
dc.language.iso	es
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Attribution-ShareAlike 4.0 International	en
dc.rights.holder	Matías Roodschild
dc.rights.uri	http://creativecommons.org/licenses/by-sa/4.0/
dc.rights.use	CreativeCommons
dc.subject	Redes Neuronales
dc.subject	Vanishing Gradient Problem
dc.subject	LSTM
dc.subject	Sigmoide Logística
dc.subject	Funciones de activación
dc.subject	Auto Machine Learning
dc.title	Modificaciones de la función sigmoide para el problema del desvanecimiento del gradiente y su aplicación a arquitecturas LSTM
dc.type	info:eu-repo/semantics/doctoralThesis
dc.type.version	acceptedVersion

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Tesis - Roodschild
Size:: 3.86 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 3.63 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Tesis de Doctorado

Modificaciones de la función sigmoide para el problema del desvanecimiento del gradiente y su aplicación a arquitecturas LSTM

Files

Original bundle

License bundle

Collections

SECRETARÍAS

ENLACES UTN

ENLACES EXTERNOS