Vistas:1835 Autor:Editor del sitio Hora de publicación: 2025-05-30 Origen:Sitio
La arquitectura del transformador: un cambio de paradigma en el aprendizaje profundo
El transformador, introducido en el documento seminal de 2017 'La atención es todo lo que necesita, ' revolucionó el aprendizaje profundo al abandonar las arquitecturas recurrentes y convolucionales a favor de un mecanismo puramente basado en la atención. Este avance permitió una paralelización sin precedentes, reduciendo drásticamente los tiempos de entrenamiento al tiempo que logró el rendimiento de última generación en tareas de modelado de secuencias, como la traducción automática. Las innovaciones centrales de la arquitectura (atención propia, atención múltiple y codificación posicional) se han vuelto fundamentales para los sistemas de IA modernos, incluidos los modelos de idiomas grandes (LLM) como GPT y Bert.
Los modelos de secuencia tradicionales, como RNN y LSTM, procesan las entradas secuencialmente, alineando los pasos de cálculo con las posiciones de token. Esta serialidad inherente evita la paralelización, lo que los hace ineficientes para secuencias largas debido a las limitaciones de memoria. Si bien los mecanismos de atención mitigaron algunas limitaciones al permitir que los modelos pesen dependencias distantes, generalmente se incrustaron dentro de los marcos recurrentes, reteniendo sus cuellos de botella secuenciales. El transformador abordó esto eliminando por completo la recurrencia, confiando únicamente en la atención a las dependencias globales modeladas entre los pares de entrada-salida.
ESTRUCTURA DE DECODADOR DEL CODER
El transformador sigue un paradigma del codificador del codificador. El codificador asigna una secuencia de entrada a una representación continua, mientras que el decodificador genera salidas de manera autorregresiva, acondicionando predicciones anteriores. Ambos componentes consisten en capas apiladas con estructuras idénticas pero roles distintos.
La autoatención de múltiples cabezas
centrales para el transformador es el mecanismo de autoatención de múltiples cabezas, que calcula promedios ponderados de vectores de valor basados en puntajes de compatibilidad de clave de consulta. A diferencia de la atención clásica, este proceso ocurre en paralelo a través de múltiples 'cabezas, ' cada una consulta, claves y valores que proyectan en subespacios distintos. Esto permite que el modelo atiende a diversos aspectos de la entrada simultáneamente, mejorando la expresividad. Por ejemplo, al traducir 'El animal no cruzó la calle porque estaba cansado, ' La autoatición permite '' referir directamente 'animal ' independientemente de la distancia.
Atención a escala del producto DOT
para estabilizar los gradientes, el transformador emplea la atención de producto de punto escalado, normalizando los productos de punto clave de consulta por la raíz cuadrada de la dimensión clave. Esto evita la saturación Softmax cuando las dimensiones son grandes, asegurando distribuciones de peso significativas.
Codificación posicional
Dado que la atención es invariante de permutación, el transformador inyecta información posicional a través de incrustaciones sinusoidales agregadas a los tokens de entrada. Estas incrustaciones codifican posiciones relativas, lo que permite que el modelo distinga el orden de las palabras sin recurrencia.
Redes de avance de alimentación
Cada capa incluye una red de alimentación (FFN) en forma de posición con activación de Relu, aplicando transformaciones idénticas a cada token. Esto introduce la no linealidad y expande las dimensiones de las características antes de la proyección al tamaño oculto del modelo.
El éxito del transformador en la traducción automática, alcanzando 28.4 Bleu en WMT 2014 English-German y 41.8 Bleu en inglés-francés con eficiencia de entrenamiento sin precedentes, validadó su diseño. Su escalabilidad y paralelismo lo hicieron ideal para el pretrete de prisión a gran escala, lo que lleva a Bert (codificador bidireccional) y GPT (decodificador autorregresivo), que dominan los puntos de referencia de la PNL hoy en día. Más allá del lenguaje, variantes como Vit (Vision Transformer) han extendido su alcance a la visión por computadora, lo que demuestra la versatilidad arquitectónica.
El transformador redefinió el aprendizaje profundo al demostrar que la atención por sí sola podría superar los paradigmas recurrentes y convolucionales. Su énfasis en la paralelización, el modelado de dependencia global y el diseño modular pusieron las bases para la IA moderna, consolidando su estado como piedra angular de la investigación de inteligencia artificial. A medida que el campo evoluciona, los principios del transformador continúan inspirando innovaciones, asegurando su legado como una de las arquitecturas más impactantes en la historia del aprendizaje automático.