Cómo el código mata al misterio matemático en los Transformers
Source: Dev.to
Contexto: Llevo unos días leyendo varios artículos…
Contexto
Llevo unos días leyendo varios artículos relacionados con un paper reciente de Google y la CMU titulado “Deep sequence models tend to memorize geometrically; it is unclear why” (arXiv: 2510.26745 – Los modelos de secuencia profunda tienden a memorizar geométricamente; no está claro por qué).
Los titulares que circulan por ahí hacen sonar el descubrimiento como el Santo Grial:
- “Los modelos sintetizan espontáneamente una memoria geométrica”.
- “No solo memorizan, sino que construyen geometría”.
- Incluso se insinúa que estamos ante los primeros destellos de una conciencia que ordena el mundo por voluntad propia.
Primera impresión
Me fui al PDF original. Fue un poco cuesta arriba porque:
- El inglés académico y yo mantenemos una relación de respeto mutuo pero distante.
- Mis matemáticas son de un ingeniero que lleva 30 años “picando piedra”, no de un investigador teórico.
Al leerlo, mi intuición saltó enseguida.
Donde ellos ven un “misterio” (it is unclear why), yo solo vi un algoritmo haciendo exactamente lo que se le ha programado para hacer. No vi magia. Vi un mecanismo de optimización siguiendo la ley del mínimo esfuerzo.
El experimento
- Datos de entrenamiento: hechos atómicos del tipo “A conecta con B”, “B conecta con C”.
- Entrenamiento: se alimenta a un Transformer solo con esas conexiones locales, sin el mapa completo.
Expectativa académica clásica
Con miles de millones de parámetros (memoria de sobra), lo “más vago” sería memorizar cada par en un cajón separado, como una tabla hash gigante, sin relación entre A y C.
Resultado observado
El modelo no hace eso. En lugar de guardar los datos en cajones aislados, los ordena en el espacio vectorial, colocando A, B y C en una línea y creando una geometría.
Para mí, la sorpresa fue que ellos se sorprendieran.
Metáfora de las gomas elásticas
Imaginemos que el mecanismo fundamental de una red neuronal es medir la similitud entre vectores (producto escalar). Si le digo que:
- A tiene que parecerse a B,
- B tiene que parecerse a C,
¿Qué otra cosa va a pasar?
Si ato tres piedras con gomas elásticas y tiro de ellas, se van a alinear.
No porque las piedras “sepan geometría”, sino porque es la única forma física de aliviar la tensión de la goma.
Visualización mecánica
- Conceptos (A, B, C) → cajas pesadas en el suelo de un almacén.
- Algoritmo → operario que conecta las cajas con gomas elásticas.
| Orden | Acción del operario |
|---|---|
| 1 | “A conecta con B”. Se ata una goma entre A y B; la goma se tensa y arrastra ambas cajas hasta que quedan pegadas. |
| 2 | “B conecta con C”. Se ata una goma entre B y C; al tensarse, tira de C hacia B… ¡pero también tira de B hacia C! |
Clave mecánica: B está en medio, atada a ambas gomas, y actúa como eslabón. Al mover B para acercarla a C, la caja A (ya atada a B) se arrastra “de regalo”.
Resultado inevitable: las cajas se ordenan formando un tren A‑B‑C. El sistema busca el estado de mínima tensión; mantenerlas alineadas es más barato computacionalmente que estirar las gomas en direcciones opuestas.
Lo que el paper llama “geometría” es simplemente la forma que adoptan los datos cuando dejas que la tensión del gradiente los organice con el mínimo esfuerzo.
Analogía de la bola en la cordillera
Pasemos de observar gomas y cajas a observar el paisaje completo por donde se mueve el sistema.
- Entrenamiento → una bola que rueda por una cordillera montañosa.
- Objetivo → que la bola llegue al punto más bajo posible (el valle del error cero).
Perspectiva del matemático
“¡Cuidado! Este terreno está lleno de millones de agujeros irregulares, grietas y pozos donde la bola podría quedarse atascada”.
Esos “agujeros” representan soluciones desordenadas: configuraciones donde el modelo memoriza los datos sin orden ni geometría. Matemáticamente, esos agujeros existen y son soluciones válidas (error cero). Por eso a los investigadores les parece un misterio que la bola nunca caiga en ellos y siempre termine en el valle ancho y ordenado de la geometría.
Perspectiva del ingeniero
“Tranquilo, la bola no va a caer en los agujeros porque no rueda libre. Va sobre raíles”.
El código y el optimizador imponen restricciones que guían la trayectoria de la bola hacia soluciones de baja energía (baja tensión), evitando los “agujeros” caóticos.
Reducción a la esencia más simple
Imaginemos que queremos resolver matemáticamente:
x + y = 10
- Matemático: el espacio de soluciones es infinito y caótico: ((5, 5)), ((1, 9)), ((100, -90))… cualquiera de esos “agujeros” es válido.
- Ingeniero (código): partimos de cero (como se inicializan las redes) y el algoritmo de optimización conduce la solución hacia una configuración ordenada (por ejemplo, valores que minimicen alguna norma adicional).
Conclusión
El “arrastre” de los Transformers hacia el orden no es una opción entre muchas; es la consecuencia física inevitable del mecanismo de back‑propagation y de la medida de similitud vectorial que utilizan.
- La tensión del gradiente actúa como una goma elástica que prefiere líneas rectas a curvas retorcidas.
- El sesgo espectral del paper es simplemente la tendencia del optimizador a favorecer funciones de baja frecuencia (suaves) sobre ruido de alta frecuencia.
En otras palabras, los Transformers no “piensan” en geometría; la geometría surge porque es la forma más barata de minimizar la energía del sistema.
Código de ejemplo
x = 0
y = 0
while (x + y):
# Aquí iría la lógica del bucle
# (el cuerpo está intencionalmente vacío para ilustrar la estructura)
pass
Al contrario. Entender que el “aparato” tiende a generar geometría por defecto valida una forma de diseñar sistemas. Si alimentamos al modelo con datos que tienen una estructura lógica clara (transitividad, jerarquías), no necesitamos programar las reglas explícitamente. La propia fricción del entrenamiento va a generar ese “mapa” por nosotros. Es una característica gratuita del optimizador.
Esta inercia geométrica es un arma de doble filo. El mecanismo de arrastre es ciego; no tiene criterio de verdad, solo de minimización de error. Si alimentamos al modelo con datos ruidosos, incoherentes o simples coincidencias, el algoritmo aplicará la misma fuerza bruta para intentar ordenarlos. Fabricará una estructura geométrica sólida y convincente a partir de ruido puro, creando falsas relaciones causales simplemente porque esa es la única forma que conoce de reducir la tensión matemática entre los datos.
No hay fantasmas en la máquina. Lo que hay es física computacional bien entendida.
La memoria geométrica no es una propiedad emergente de una consciencia artificial; es la consecuencia inevitable de un algoritmo que busca el camino de menor resistencia. Los investigadores de Google tienen razón en sus datos, pero su narrativa de “misterio” ignora que, a veces, la implementación impone restricciones que la teoría pura no ve.
Para quienes trabajamos pegados al código, esto es un recordatorio de que la implementación nunca es neutra. Las herramientas que elegimos —un optimizador, una inicialización o una función de pérdida— toman decisiones arquitectónicas por nosotros, moldeando el resultado final tanto o más que la teoría matemática subyacente.
Quizá el verdadero desafío no sea buscar misterios en la “caja negra”, sino entender mejor la física de los raíles que nosotros mismos hemos colocado.