TTT-E2E: 읽으면서 학습하는 AI 모델 (KV 캐시와 작별?)
Source: Dev.to
소개
AI가 정적인 메모리 뱅크에 정보를 저장하는 것에 그치지 않고, 긴 문서를 처리하면서 내부 이해도를 실제로 향상시킨다고 상상해 보세요. 스탠포드, NVIDIA, UC 버클리의 협업 팀이 장기‑컨텍스트 모델링을 지속 학습 문제로 재구성하는 획기적인 방법을 발표했습니다: TTT‑E2E (Test‑Time Training).
기존 어텐션의 문제점
표준 Transformer는 자체 어텐션에 의존하는데, 이는 KV (Key‑Value) 캐시 문제에 직면합니다. 입력 시퀀스가 길어질수록 모든 토큰을 저장하기 위한 메모리가 선형(또는 경우에 따라 이차)으로 증가하여 128 K 토큰 이상을 처리하는 비용이 매우 비싸고 느려집니다.
TTT‑E2E 모델은 모든 토큰을 캐시에 명시적으로 저장하는 대신, 은닉 상태를 자체적인 머신러닝 모델로 취급합니다. 모델이 읽어 내려가면서 미니‑최적화 단계를 수행해 자체 가중치를 업데이트하고 컨텍스트를 압축합니다. 즉, 모델은 읽는 동안 계속 학습합니다.
- 일관된 추론 비용 – 시퀀스가 길어져도 토큰 하나를 처리하는 비용이 폭발적으로 증가하지 않습니다.
- 전체 어텐션 성능 – 128 K 토큰에서도 전통적인 모델과 동일한 정확도를 달성하면서 훨씬 높은 효율성을 제공합니다.
- 선형 스케일링 – RNN의 효율성과 Transformer의 성능 사이의 격차를 메웁니다.
우리는 “무한 컨텍스트” 시대를 향해 나아가고 있습니다. 전체 코드베이스, 긴 법률 문서, 혹은 수시간 분량의 비디오를 분석하든, 대량의 데이터를 처리하면서 멈추지 않는 모델이 필요합니다. TTT‑E2E는 정적 메모리를 동적 가중치로 대체할 수 있음을 보여주어, 더 똑똑하고 빠른 모델을 가능하게 합니다.
추론 중 그래디언트 업데이트의 오버헤드와 같은 아직 탐구해야 할 제한점도 존재하지만, 이번 연구는 신경망 메모리에 대한 우리의 사고 방식을 크게 전환시키는 중요한 전환점입니다.