누군가 Transformer를 해부 중: Memory Caching과 CTM이 각각 절반씩 제거됐다

발행: 3일 전 (2026년 6월 11일 PM 05:50 GMT+9)

12 분 소요

Source: Dev.to

이 글에서 다루는 두 연구—Google의 Memory Caching(Growing Memory를 갖는 RNN)과 Sakana AI의 Continuous Thought Machine(CTM)—는 종종 “Transformer 킬러”라고 포장되곤 합니다. 그렇지 않습니다. 이들은 연구 논문일 뿐이며, 제품도 아니고, Transformer를 대체하려는 것도 아닙니다. 두 논문을 함께 읽을 때 진짜 이야기는 한 문장으로 요약됩니다:

Transformer의 self‑attention은 기억(컨텍스트에서 recall)과 계산(thinking이 forward pass에서 일어남)을 같은 메커니즘에 묶어두고, 비용은 O(L²)입니다. 이 두 논문은 각각 그 절반을 떼어냅니다.

Memory Caching은 기억 부분을, CTM은 계산 부분을 분리합니다. 이 축을 이해하면 뒤에 나오는 모든 세부 사항이 제자리를 찾게 됩니다.

먼저 명확히 할 규칙 하나: 본문에서는 원 논문이 직접 지원하는 주장만을 사용합니다. 2차 기사에서 “SWE‑bench / GPQA에서 어떻게 했는지” 같은 숫자가 원 논문에 근거하지 못한다면 일절 쓰지 않습니다. 두 논문 모두 SWE‑bench 결과를 보고하지 않았으며—2차 정리된 에이전트 수치를 논문 결론으로 쓰는 것은 이 주제에서 가장 흔한 위조입니다.

Ⅰ. 비용 장벽: 함께 묶인 대가

왜 누군가가 이를 분리하고 싶어 하는지 먼저 설명합니다.

self‑attention은 미분 가능한 연관 기억이라고 이해할 수 있습니다: 각 query가 모든 key와 비교해 가중치를 부여하고 value를 읽어옵니다. 이 덕분에 모델은 컨텍스트에서 recall을 잘하고, in‑context learning이 성립합니다. 하지만 시퀀스 길이가 L일 때, 완전한 self‑attention의 시간·공간 비용은 O(L²)입니다. 관련 이론 작업도 이 이차 비용이 구현이 안 좋아서가 아니라 계산 복잡도 제한이 더 깊게 작용한다는 점을 지적합니다(On the Computational Complexity of Self‑Attention).

추론 시 KV cache는 자동 회귀 생성에서 과거 토큰을 반복 계산하는 문제를 완화하지만, 공짜 점심은 없습니다: KV cache 자체가 많은 GPU 메모리를 차지하고, 토큰을 하나 생성할 때마다 전체 컨텍스트와 상호작용해야 합니다. 컨텍스트가 8K에서 128K, 1M으로 늘어날 때 병목은 보통 FLOPs에서 메모리 용량·대역폭·서비스 비용으로 옮겨갑니다.

여기서 한 가지를 명확히 구분해야 합니다—왜냐하면 뒤에서 반복해서 사용할 것이기 때문입니다: “출시” ≠ “사용 가능” ≠ “상업화 가능”. 긴 컨텍스트 윈도우가 실행될 수 있다고 해서, 여러분의 지연·비용 예산 안에서 실행될 수 있다는 뜻은 아닙니다. 비용 장벽은 주로 “상업화 가능” 단계에 걸려 있습니다—그리고 현재 두 논문은 모두 “논문이 실행될 수 있다”는 단계에 머물러 있습니다.

이 메커니즘을 분해해서 보면, 실제로 두 가지 일을 동시에 합니다: 많이 기억하고, 많이 읽을 수 있다(기억)와 계산이 한 번의 forward pass 안에서 일어난다(계산). Transformer는 이 두 일을 하나의 메커니즘, 하나의 O(L²) 가격에 묶어두었습니다. 다음 두 논문은 각각 그 절반을 의문시합니다.

Ⅱ. Memory Caching: “기억” 절반을 분리

이 논문은 Ali Behrouz 등(Google) 팀이 발표했으며, Titans 팀과 동일한 그룹입니다(arXiv:2602.24281, 2026‑02). 팀 배경을 기억해 두세요—4절에서 다시 등장합니다.

전통적인 recurrent model의 핵심 문제는 고정된 기억입니다. RNN, 선형 attention, 일부 state‑space 혹은 recurrent memory 변형은 과거를 고정 크기의 hidden state에 압축합니다. 이는 O(L)의 효율성을 제공하지만, 긴 시퀀스에서는 정보 압축이 일어나 초기 정보가 뒤로 갈수록 덮이고, 흐려지고, 잊혀지기 쉽습니다.

Memory Caching의 아이디어는 매우 직관적입니다: 현재 hidden state만 남기지 않습니다. 시퀀스를 여러 segment로 나누고, 각 segment 종료 시점의 memory state를 checkpoint로 저장합니다(cache). 이후 토큰은 “현재 온라인 기억”뿐 아니라 과거 segment의 cached hidden states도 조회할 수 있습니다. 다시 말해, RNN이 계속 덮어쓰는 하나의 노트북이 아니라 주기적으로 압축 스냅샷을 남기는 구조가 됩니다.

논문 초록은 이 방법을 이렇게 정의합니다: RNN의 고정 기억(O(L))과 Transformer의 성장 기억(O(L²)) 사이의 조정 가능한 절충을 제공한다.

여기서 한 가지 직관을 제시합니다(아래는 메커니즘에서 유도한 직관이며, 논문에서 제시한 복잡도 결과는 아닙니다): 각 segment 길이를 s, 전체 길이를 L라 하면, 조회해야 할 cached memory는 약 L/s 개가 됩니다. 모든 토큰이 모든 checkpoint를 조회한다면 비용은 대략 O(L × L/s) = O(L²/s)입니다. s를 조절 손잡이라고 생각하면, s가 클수록 일반 RNN의 O(L)에 가깝고, s가 작을수록 checkpoint가 촘촘해져 스펙트럼의 다른 쪽으로 이동합니다. 이것은 비용을 마법처럼 없애는 것이 아니라 얼마나 기억을 사용하고, 그 대가로 얼마나 recall을 얻는가를 조절하는 눈금입니다(엄밀히 말하면 s=1이 attention과 동일하지는 않으며, 이는 같은 스펙트럼의 극단이지만 다른 메커니즘입니다).

논문은 네 가지 cached memory 활용 방법을 제시합니다. 이름은 논문 본문(Introduction의 “Novel Aggregation Strategies”와 각 절 제목, 예: §3.2의 MEMORY SOUP)에서 따왔습니다:

(Gated) Residual Memory – 잔차 연결에 context‑aware gating을 더해 여러 기억 상태를 집계
Memory Soup – weight‑souping에서 영감을 얻어, 여러 cached memory 모듈의 파라미터를 평균(비선형 기억에만 차별점)
Sparse Selective Caching (SSC) – MoE 라우터와 유사하게 가장 관련 있는 top‑k cached memory만 선택해 읽음, 초장문 컨텍스트 비용 제어

초록에서는 “gated aggregation and sparse selective mechanisms”라고 간단히 언급했으며, 정확한 명칭은 본문을 참고해야 합니다.

실무 관점

Memory Caching은 비용을 없애는 것이 아니라 조절 가능한 비용으로 전환합니다. 실제 워크플로에 적용 가능성을 판단하려면 “RNN보다 얼마나 강한가”가 아니라 retrieval fan‑out 규모, cached memory의 메모리 대역폭 비용, 단순히 KV cache를 키우는 것과 비교했을 때 절감되는 부분을 물어야 합니다. 논문 자체는 이러한 엔지니어링 질문에 답하지 않으며—이는 “논문이 실행될 수 있다”와 “상업화 가능” 사이의 격차를 보여줍니다.

기술적 신념에서 보면, 이 논문은 실용적입니다: Transformer의 성장 기억이 가치 있음을 부정하지 않고, 압축된 기억 checkpoint를 통해 일부 이점을 얻을 수 있는지를 탐구합니다.

Ⅲ. CTM: “계산” 절반을 분리

CTM은 Sakana AI(도쿄, Darlow, Regan, Risi 등, arXiv:2505.05522, NeurIPS 2025 Spotlight)에서 발표했습니다. 공동 저자 중에 Llion Jones—Attention Is All You Need의 원 저자이자 Sakana 공동 창업자—가 포함되어 있다는 점이 흥미롭습니다. Transformer를 만든 사람이 이제 그것을 분해한다는 자체가 의미 있는 일입니다. CTM의 문제 의식은 Memory Caching과 완전히 다릅니다: 긴 컨텍스트 recall보다는 시간과 계산에 대한 현대 신경망의 추상화 방식을 의문시합니다.

이름 자체가 주장

Continuous Thought Machine—“생각”은 내부 시간을 따라 연속적으로 진행되는 과정이며, 한 번의 forward pass로 답을 내놓는 것이 아닙니다. 이름 자체가 “생각은 길이가 있다”는 주장을 담고 있습니다.

논문에 제시된 세 가지 메커니즘(모두 본문에서 확인):

Internal ticks (내부 시간축, 시퀀스 길이와 분리)
원문: “The CTM uses an internal dimension t∈{1,…,T}, decoupled from data dimensions.”
모델은 스스로 생성한 시간축 t ∈ {1,…,T}를 따라 전개되며, 이 축은 입력 시퀀스와 무관

누군가 Transformer를 해부 중: Memory Caching과 CTM이 각각 절반씩 제거됐다

Ⅰ. 비용 장벽: 함께 묶인 대가

Ⅱ. Memory Caching: “기억” 절반을 분리

실무 관점

Ⅲ. CTM: “계산” 절반을 분리

이름 자체가 주장

관련 글

자체 호스팅 LLM 에이전트 군단 신뢰성 확보

인지적 부채: AI가 만든 코드의 숨은 비용

README가 거짓말을 하니, 병합할 때마다/docs PR를 여는 봇을 만들었다.

RTO vs RPO vs MTTR vs MTBF: the Security+ metrics people mix up, and how to keep them straight