Veni AI
Aprendizaje profundo

Arquitectura Transformer y Mecanismo de Atención: Análisis Técnico

Un análisis exhaustivo de los detalles técnicos de la arquitectura Transformer, el mecanismo de autoatención, la atención multi-cabezal y las estructuras que forman la base de los LLM modernos.

Veni AI Technical Team14 Ocak 20255 dk okuma
Arquitectura Transformer y Mecanismo de Atención: Análisis Técnico

Arquitectura Transformer y Mecanismo de Atención: Análisis Técnico

Introducida por Google en el artículo de 2017 "Attention Is All You Need", la arquitectura Transformer forma la columna vertebral de la inteligencia artificial moderna. Todos los grandes modelos de lenguaje como GPT, Claude y Gemini se basan en esta arquitectura.

Antes de los Transformers: Limitaciones de RNN y LSTM

Antes de la era de los transformers, las tareas de NLP dependían de las Redes Neuronales Recurrentes (RNN) y de las redes Long Short-Term Memory (LSTM):

Problemas de RNN/LSTM:

  • Requisito de procesamiento secuencial → La paralelización es imposible.
  • Desvanecimiento/explosión del gradiente en secuencias largas.
  • Dificultad para aprender dependencias de largo alcance.
  • Tiempos de entrenamiento muy largos.

Mecanismo de Auto-Atención

La auto-atención es un mecanismo que calcula la relación entre cada elemento de una secuencia y todos los demás elementos.

Formulación Matemática

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

Parámetros:

  • Q (Query): El vector de consulta.
  • K (Key): El vector clave a comparar.
  • V (Value): El vector que contiene la información real.
  • d_k: La dimensión del vector Key.

Cálculo Paso a Paso

  1. Proyección: Input → matrices Q, K, V
1Q = X × W_Q 2K = X × W_K 3V = X × W_V
  1. Puntajes de Atención: Producto punto de Q y K
scores = Q × K^T
  1. Escalado: División por √d_k para estabilidad del gradiente
scaled_scores = scores / √d_k
  1. Softmax: Conversión a una distribución de probabilidad
attention_weights = softmax(scaled_scores)
  1. Suma Ponderada: Multiplicación con Value
output = attention_weights × V

Atención Multi-Cabeza

En lugar de una sola cabeza de atención, se utilizan múltiples cabezas de atención en paralelo:

1MultiHead(Q, K, V) = Concat(head_1, ..., head_h) × W_O 2 3where head_i = Attention(QW_Q^i, KW_K^i, VW_V^i)

Ventajas de la Atención Multi-Cabeza

  • Aprendizaje en diferentes subespacios de representación.
  • Captura de diversos tipos de relaciones contextuales.
  • Extracción de características más rica.

Configuraciones Típicas:

  • GPT-3: 96 cabezas de atención, d_model = 12288.
  • GPT-4: Más de 120 cabezas, estimado.

Codificación Posicional

Dado que los Transformers procesan datos en paralelo, se añade información posicional para preservar el contexto secuencial:

Codificación Posicional Sinusoidal

PE(pos, 2i) = sin(pos / 10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

Rotary Positional Embedding (RoPE)

Un método más avanzado utilizado en modelos modernos:

f(x, pos) = x × e^(i × pos × θ)

Ventajas de RoPE:

  • Codifica naturalmente información de posiciones relativas.
  • Mejor capacidad de extrapolación para secuencias largas.
  • Usado en modelos GPT-NeoX, LLaMA y Mistral.

Red Feed-Forward

Una capa MLP que sigue a cada capa de atención:

FFN(x) = GELU(xW_1 + b_1)W_2 + b_2

Dimensiones Típicas:

  • d_model = 4096.
  • d_ff = 4 × d_model = 16384.

Funciones de Activación

  • ReLU: Clásica y simple.
  • GELU: Preferida en modelos tipo GPT.
  • SwiGLU: Utilizada en modelos LLaMA y PaLM.

Normalización por Capas

Crítica para la estabilidad del entrenamiento:

Pre-LN vs Post-LN

Post-LN (Original):

x = x + Attention(LayerNorm(x))

Pre-LN (Moderna):

x = LayerNorm(x + Attention(x))

Pre-LN proporciona un entrenamiento más estable y se ha convertido en el estándar de la industria hoy en día.

Arquitecturas Encoder vs Decoder

Solo Encoder (estilo BERT)

  • Atención bidireccional.
  • Usado para clasificación, NER y similitud semántica.
  • Masked Language Modeling.

Solo Decoder (estilo GPT)

  • Atención causal/autoregresiva.
  • Usado para generación de texto y chat.
  • Predicción del siguiente token.

Encoder-Decoder (T5, BART)

  • Tareas de secuencia a secuencia.
  • Traducción y resumen.

Enmascaramiento Causal

Enmascaramiento de tokens futuros en modelos decodificadores:

mask = triu(ones(seq_len, seq_len), diagonal=1) masked_scores = scores + mask × (-inf)

Esto asegura que el modelo solo observe tokens previos durante la generación.

Optimización de KV-Cache

Para evitar cálculos redundantes durante la inferencia:

1Step 1: Calculate K_1, V_1 → save to cache 2Step 2: Calculate K_2, V_2 → K = [K_1, K_2], V = [V_1, V__2] 3Step n: Calculate only for the new token, retrieve old values from cache

Ahorro de memoria: O(n²) → O(n) en los pasos de procesamiento.

Flash Attention

Una implementación de atención eficiente en memoria:

Problemas de la atención estándar:

  • Uso de memoria O(n²).
  • Cuello de botella en HBM (high bandwidth memory).

Solución de Flash Attention:

  • Tiling: División de la atención en bloques.
  • Online Softmax: Cálculo incremental.
  • I/O Aware: Optimización de la jerarquía de memoria de la GPU.

Resultado: Aceleración de 2-4x, ahorro de memoria del 5-20%.

Variantes de Sparse Attention

Reducción de la complejidad de atención para contextos largos:

Atención Local

Enfocándose solo en los tokens cercanos.

Atención Dilatada

Aplicando atención en intervalos específicos.

Patrón Longformer

Combinación de atención Local + Global.

Variantes Modernas de Transformers

ModeloCaracterísticaLongitud de contexto
GPT-4MoE, contexto largo128K
Claude 3Constitutional AI200K
Gemini 1.5Sparse MoE1M
MistralSliding window32K

Conclusión

La arquitectura Transformer es el componente fundamental de la IA moderna. Su mecanismo de self-attention, capacidad de procesamiento en paralelo y habilidad para aprender dependencias de largo alcance han hecho que esta arquitectura sea revolucionaria.

En Veni AI, utilizamos de manera efectiva modelos basados en transformers en nuestras soluciones empresariales. Contáctanos para consultoría técnica.

İlgili Makaleler