코드가 트랜스포머의 수학적 미스터리를 없애는 방법
Source: Dev.to
맥락: 며칠 동안 여러 기사를 읽고 있습니다…
배경
며칠 동안 구글과 CMU가 최근 발표한 논문 “Deep sequence models tend to memorize geometrically; it is unclear why” (arXiv: 2510.26745 – 깊은 시퀀스 모델이 기하학적으로 기억하는 경향이 있지만 이유는 불분명)와 관련된 여러 기사를 읽고 있습니다.
그곳에 떠도는 헤드라인들은 이 발견을 성배처럼 부각시킵니다:
- “모델이 자발적으로 기하학적 기억을 합성한다.”
- “단순히 기억하는 것이 아니라 기하학을 구축한다.”
- 심지어 우리는 자신의 의지로 세상을 정리하는 의식의 첫 번째 불빛을 목격하고 있다고 암시됩니다.
첫인상
원본 PDF를 확인했습니다. 약간 힘들었는데, 그 이유는 다음과 같습니다:
- 학술 영어와 나는 상호 존중하지만 거리를 두는 관계를 유지하고 있다.
- 내 수학은 30 년 동안 “돌을 깎아내는” 엔지니어의 것이며, 이론 연구자의 것이 아니다.
읽는 동안 직관이 바로 떠올랐습니다.
그들이 “미스터리”라고 보는 곳 (it is unclear why), 나는 단지 프로그래밍된 대로 정확히 작동하는 알고리즘을 보았다. 마법은 보지 못했다. 나는 최소 노력의 법칙을 따르는 최적화 메커니즘을 보았다.
실험
- 훈련 데이터: “A가 B와 연결된다”, “B가 C와 연결된다”와 같은 원자적 사실들.
- 훈련: 전체 맵 없이 이러한 로컬 연결만으로 Transformer에 입력한다.
전통적인 학계 기대
수십억 개의 파라미터(충분한 메모리)를 가진 경우, 가장 “느슨한” 방법은 각 쌍을 별도의 서랍에 저장하는 것, 즉 거대한 해시 테이블처럼 A와 C 사이에 아무 관계도 두지 않는 것이다.
관찰된 결과
모델은 그렇지 않다. 데이터를 별도의 서랍에 보관하는 대신, 벡터 공간에 정렬하여 A, B, C를 한 줄에 배치하고 기하학을 만든다.
나에게 놀라운 점은 그들이 스스로 놀랐다는 것이었다.
탄성 밴드의 비유
신경망의 기본 메커니즘이 **벡터 간 유사도 측정 (내적)**이라고 가정해 보자. 내가 다음과 같이 말한다면:
- A는 B와 비슷해야 하고,
- B는 C와 비슷해야 한다면,
다음에 무슨 일이 일어날까?
세 개의 돌을 탄성 밴드로 묶고 당기면, 일렬로 정렬된다.
돌이 “기하학을 안다”는 것이 아니라, 밴드의 장력을 완화할 수 있는 유일한 물리적 방법이기 때문이다.
기계적 시각화
- 개념 (A, B, C) → 창고 바닥에 놓인 무거운 상자들.
- 알고리즘 → 상자를 탄성 밴드로 연결하는 작업자.
| 순서 | 작업자의 행동 |
|---|---|
| 1 | “A를 B와 연결한다”. A와 B 사이에 밴드를 묶는다; 밴드가 팽팽해지면서 두 상자를 끌어당겨 서로 붙게 된다. |
| 2 | “B를 C와 연결한다”. B와 C 사이에 밴드를 묶는다; 팽팽해지면서 C를 B 쪽으로 끌어당기지만… C 쪽으로 B도 끌어당긴다! |
핵심 메커니즘: B는 중간에 위치해 두 밴드에 모두 묶여 있으며, 연결 고리 역할을 한다. B를 C에 가깝게 움직이면, 이미 B에 묶여 있던 A 상자도 “선물처럼” 끌려간다.
불가피한 결과: 상자들이 A‑B‑C 순서의 열차처럼 정렬된다. 시스템은 최소 장력 상태를 찾으며, 상자를 일렬로 유지하는 것이 밴드를 서로 반대 방향으로 늘리는 것보다 계산적으로 더 저렴하다.
논문에서 말하는 **“기하학”**은 단순히 그라디언트 장력이 데이터를 최소 노력으로 조직하도록 놔두었을 때 데이터가 취하는 형태일 뿐이다.
산맥에서 공의 비유
고무와 상자를 보는 것에서 시스템이 움직이는 전체 풍경을 보는 것으로 넘어갑시다.
- 훈련 → 산악 지대를 굴러다니는 공.
- 목표 → 공이 가능한 가장 낮은 지점(오류 제로 골짜기)에 도달하도록.
수학자의 관점
“조심하세요! 이 지형은 수백만 개의 불규칙한 구멍, 균열, 그리고 공이 걸릴 수 있는 함정으로 가득합니다.”
그 “구멍”들은 무질서한 해결책을 나타냅니다: 모델이 순서나 기하학 없이 데이터를 암기하는 구성입니다. 수학적으로 그 구멍들은 존재하며 유효한 해(오류 제로)입니다. 그래서 연구자들은 공이 절대 그 구멍에 빠지지 않고 항상 넓고 정돈된 기하학의 골짜기에 머무르는 것이 신비롭게 보입니다.
엔지니어의 관점
“걱정 마세요, 공은 자유롭게 굴러다니지 않기 때문에 구멍에 빠지지 않을 겁니다. 레일 위를 달립니다.”
코드와 옵티마이저는 공의 경로를 낮은 에너지(낮은 텐션) 해결책으로 안내하는 제약을 부과하여 혼란스러운 “구멍”들을 피하게 합니다.
Source: …
가장 단순한 본질로의 축소
수학적으로 다음을 풀고자 한다고 가정해 보겠습니다:
x + y = 10
- 수학자: 해 공간은 무한하고 혼란스럽다: ((5, 5)), ((1, 9)), ((100, -90))… 이러한 “구멍” 중 어느 것이든 유효하다.
- 엔지니어(코드): 우리는 제로부터 시작한다(네트워크가 초기화되는 방식처럼) 그리고 최적화 알고리즘이 해를 정돈된 구성으로 이끈다(예를 들어, 추가적인 노름을 최소화하는 값).
결론
Transformers의 정렬에 대한 “끌어당김”은 많은 선택 중 하나가 아니다; 이는 그들이 사용하는 역전파(back‑propagation) 메커니즘과 벡터 유사도 측정의 불가피한 물리적 결과이다.
- 그래디언트 텐션은 굽은 곡선보다 직선을 선호하는 탄성 고무처럼 작용한다.
- 논문의 스펙트럼 편향은 최적화기가 고주파 잡음보다 저주파(부드러운) 함수를 선호하는 경향일 뿐이다.
다시 말해, Transformers는 기하학을 “생각”하지 않는다; 기하학은 시스템의 에너지를 최소화하는 가장 비용 효율적인 방법이기 때문에 나타난다.
예제 코드
x = 0
y = 0
while (x + y):
# 여기에는 루프 로직이 들어갑니다
# (구조를 보여주기 위해 본문은 의도적으로 비워두었습니다)
pass
반대로. ‘장치’가 기본적으로 기하학을 생성하려는 경향을 이해하는 것은 시스템 설계 방식을 검증한다. 모델에 논리적 구조가 명확한 데이터(전이성, 계층)를 제공하면 규칙을 명시적으로 프로그래밍할 필요가 없다. 훈련 과정의 마찰 자체가 우리를 위해 그 ‘지도’를 생성한다. 이는 최적화기의 무료 기능이다.
이 기하학적 관성은 양날의 검이다. 끌어당김 메커니즘은 눈이 멀어 있다; 진리 기준이 없고 오직 오류 최소화만을 목표로 한다. 모델에 잡음이 많거나 일관성 없거나 단순히 우연인 데이터를 제공하면 알고리즘은 같은 무차별적인 힘을 사용해 정렬하려 한다. 순수한 잡음으로부터 견고하고 설득력 있는 기하학적 구조를 만들어내며, 이는 데이터 간 수학적 긴장을 줄이는 유일한 방법이라 가짜 인과 관계를 생성한다.
기계 안에 유령은 없다. 존재하는 것은 잘 이해된 컴퓨팅 물리학이다.
기하학적 메모리는 인공 의식의 떠오르는 속성이 아니라; 저항이 가장 적은 경로를 찾는 알고리즘의 불가피한 결과이다. 구글 연구원들은 데이터에 있어 옳지만, 그들의 “미스터리” 서사는 때때로 구현이 순수 이론이 보지 못하는 제약을 부과한다는 점을 무시한다.
코드에 몸을 파묻고 일하는 우리에게 이는 구현은 결코 중립적이지 않다는 경고이다. 우리가 선택하는 도구—최적화기, 초기화, 손실 함수—는 우리 대신 건축적 결정을 내리며, 최종 결과를 기본 수학 이론만큼, 혹은 그보다 더 크게 형성한다.
아마도 진정한 도전은 “블랙 박스” 안의 미스터리를 찾는 것이 아니라, 우리가 스스로 놓은 레일의 물리학을 더 잘 이해하는 데 있을 것이다.