Modificaciones de la función sigmoide para el problema del desvanecimiento del gradiente y su aplicación a arquitecturas LSTM

dc.contributor.advisorWill, Adrián Luis Ernesto
dc.contributor.coadvisorGotay Sardiñas, Jorge
dc.creatorRoodschild, Matías
dc.date.accessioned2024-12-19T19:43:16Z
dc.date.issued2024-12
dc.description.abstractCon el aumento de la profundidad en las redes neuronales, la función sigmoide logística ha sido reemplazada por otras funciones de activación más eficientes como la función ReLU (Rectified Linear Unit). Esto se debe a sus problemas de saturación y desvanecimiento del gradiente, mayormente conocido por sus siglas en inglés (VGP). Estas nuevas funciones permitieron construir arquitecturas innovadoras las cuales han logrado avances notables en machine learning, computer vision y natural languaje processing. Sin embargo, la función sigmoide sigue teniendo usos importantes en arquitecturas tales como GRU, LSTM e incluso Transformers (base de ChatGPT entre otros). Por este motivo, cualquier modificación a la función sigmoide, que le permita una mayor resistencia al VGP y mejore su desempeño en redes neuronales profundas constituye un aporte al área. Se analizaron en esta tesis las principales funciones de activación en las redes neuronales profundas, para encontrar las propiedades que explican su éxito y limitaciones. Como resultado del estudio, se hicieron modificaciones a la función sigmoide, las cuales dieron lugar a siete nuevas funciones de activación que probaron ser resistentes al VGP y tener muy buenos desempeños como compuertas reguladoras del flujo de información en celdas LSTM. Una característica común de las nuevas funciones de activación es su dependencia a parámetros (dos o tres parámetros), que ofrecen una amplia flexibilidad para aproximar diferentes funciones tales como, función lineal, ReLU, Swish y hard-Sigmoide entre otras. Los parámetros asociados a estas nuevas funciones pueden fijarse o ser ajustables, y adaptarse automáticamente al conjunto de los datos presentados. Esta tesis se completa con una propuesta concreta con funciones adaptativas en AutoML para arquitecturas LSTM, que producen buenos resultados sin intervención del usuario.
dc.description.affiliationFil: Roodschild, Matías. Universidad Tecnológica Nacional. Facultad Regional Santa Fe; Argentina.
dc.formatpdf
dc.identifier.urihttp://hdl.handle.net/20.500.12272/11989
dc.language.isoes
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution-ShareAlike 4.0 Internationalen
dc.rights.holderMatías Roodschild
dc.rights.urihttp://creativecommons.org/licenses/by-sa/4.0/
dc.rights.useCreativeCommons
dc.subjectRedes Neuronales
dc.subjectVanishing Gradient Problem
dc.subjectLSTM
dc.subjectSigmoide Logística
dc.subjectFunciones de activación
dc.subjectAuto Machine Learning
dc.titleModificaciones de la función sigmoide para el problema del desvanecimiento del gradiente y su aplicación a arquitecturas LSTM
dc.typeinfo:eu-repo/semantics/doctoralThesis
dc.type.versionacceptedVersion

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
Tesis - Roodschild
Size:
3.86 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.63 KB
Format:
Item-specific license agreed upon to submission
Description: