[Paper] 긴 컨텍스트를 위한 엔드투엔드 테스트 타임 트레이닝

발행: 1주 전 (2025년 12월 30일 오전 03:30 GMT+9)

11 min read

원문: arXiv

Source: arXiv - 2512.23675v1

위에 제공된 내용 외에 번역하고 싶은 텍스트가 있으면 알려 주세요. 해당 텍스트를 한국어로 번역해 드리겠습니다.

Overview

이 논문은 점점 커지는 어텐션 메커니즘에 의존하는 대신, 장기 컨텍스트 언어 모델링을 지속 학습 문제로 재구성한다. 슬라이딩 윈도우 어텐션을 갖춘 표준 트랜스포머가 추론 시 학습을 지속하도록 함으로써—실시간으로 다음 토큰을 예측하면서—거대한 컨텍스트를 직접 가중치에 압축한다. 학습 중 메타‑러닝 단계가 모델을 이러한 테스트‑시점 적응에 대비시키며, End‑to‑End Test‑Time Training (TTT‑E2E) 접근법을 제공한다. 이 방법은 전체 어텐션 트랜스포머와 같은 규모로 확장되면서도 추론 지연 시간을 일정하게 유지한다.

주요 기여

Continual‑learning formulation for long‑context LM: 들어오는 컨텍스트를 모델이 지속적으로 업데이트하는 스트림으로 취급합니다.
Test‑time training loop that performs next‑token prediction on the current context, effectively writing the context into the model’s parameters: 현재 컨텍스트에 대해 다음 토큰 예측을 수행하는 테스트 시점 학습 루프이며, 컨텍스트를 모델 파라미터에 효과적으로 기록합니다.
Meta‑learning pre‑training that optimizes the model’s initial weights for rapid adaptation during inference: 추론 중 빠른 적응을 위해 모델 초기 가중치를 최적화하는 메타‑러닝 사전 학습.
Empirical scaling study up to 3 B‑parameter models trained on 164 B tokens, showing TTT‑E2E matches full‑attention scaling but with constant inference cost: 164 B 토큰으로 학습된 3 B 파라미터 모델까지의 실증적 스케일링 연구를 통해 TTT‑E2E가 전체 어텐션 스케일링과 일치하지만 추론 비용은 일정함을 보여줍니다.
Speed advantage: 2.7× faster than a full‑attention Transformer for a 128 K token window, matching the latency profile of RNN‑style models: 128 K 토큰 윈도우에서 전체 어텐션 트랜스포머보다 2.7배 빠르며, RNN‑스타일 모델의 지연 프로파일과 일치합니다.
Open‑source release of code and training recipes, enabling reproducibility and community extensions: 코드와 학습 레시피를 오픈소스로 공개하여 재현성과 커뮤니티 확장을 가능하게 합니다.

방법론

기본 아키텍처 – 슬라이딩‑윈도우 어텐션(예: 4‑K 토큰 윈도우)만을 갖춘 기본 Transformer. 이는 전체 컨텍스트 길이에 관계없이 단계별 연산량을 제한합니다.
메타‑러닝 사전‑학습 – 일반 언어 모델 학습 전에 저자들은 메타‑러닝 단계(예: MAML)를 수행합니다. 목표는 새로운 텍스트 청크에 대해 몇 번의 그래디언트 스텝만으로 빠르게 미세 조정될 수 있는 초기값을 찾는 것입니다.
테스트‑시 훈련 루프 – 추론 시 모델은 입력을 순차적으로 처리합니다. 새로운 토큰이 들어올 때마다 다음을 수행합니다:
- 다음 토큰을 예측하기 위해 순전파를 수행(표준 LM 손실).
- 해당 손실에 대해 그래디언트 스텝을 수행하여 제자리로 가중치를 업데이트.
- 어텐션 윈도우를 앞으로 이동시키고 가장 오래된 토큰을 버림.
결과적으로 모델은 진행하면서 긴 컨텍스트를 자체 파라미터에 “쓰기” 때문에, 이후 예측은 전체 히스토리를 직접 어텐션하지 않으면서도 활용할 수 있습니다.
엔드‑투‑엔드(E2E) 학습 – 테스트 시 사용되는 동일한 그래디언트 기반 업데이트가 학습 목표에도 포함되어, 모델이 텍스트를 생성하면서 스스로를 개선하도록 학습됩니다.

Source: …

결과 및 발견

모델	컨텍스트 길이	토큰당 지연 시간	스케일링 추세 (성능 vs. 길이)
전체‑어텐션 Transformer (baseline)	최대 128 K	길이에 따라 선형 증가	길이가 늘어날수록 성능이 향상되지만 지연 시간이 급증
Mamba‑2 / Gated‑DeltaNet	최대 128 K	거의 일정	성능이 일찍 정체되어 매우 긴 컨텍스트를 활용하지 못함
TTT‑E2E (본 연구)	최대 128 K	RNN‑유사하게 일정	전체‑어텐션 스케일링과 일치 – 컨텍스트가 커질수록 퍼플렉시티가 계속 감소

164 B 토큰으로 학습된 3 B 파라미터 모델에서, TTT‑E2E는 컨텍스트를 8 K에서 128 K 토큰으로 늘릴 때 전체‑어텐션 Transformer와 동일한 퍼플렉시티 감소를 달성했습니다.
추론 속도: 128 K 컨텍스트에서 TTT‑E2E는 2.7배 빠르게 전체‑어텐션 베이스라인보다 동등한 품질을 제공했습니다.
Ablation 연구를 통해 메타‑러닝 초기화와 테스트‑시점 그래디언트 업데이트가 모두 필수임을 확인했으며, 둘 중 하나라도 제거하면 스케일링 동작이 악화됩니다.

Practical Implications

Cost‑effective long‑context LMs – 개발자는 소규모 Transformer(예: 30억 파라미터)를 배포하면서 전체 어텐션의 메모리 폭증 없이 100 K‑토큰 컨텍스트의 이점을 누릴 수 있다.
Real‑time applications – 대량의 텍스트를 처리해야 하는 챗봇, 코드 어시스턴트, 문서 분석 도구 등이 낮은 지연 시간을 유지할 수 있어 인터랙티브 환경에 적합하다.
Edge deployment – 단계별 연산량이 제한되어 있기 때문에 메모리가 제한된 하드웨어(예: 16 GB VRAM GPU 또는 특수 추론 칩)에도 적용하기 용이하다.
Continual learning pipelines – 테스트 시 훈련 루프를 확장해 도메인 특화 어휘나 사용자 맞춤 데이터를 실시간으로 적응시킬 수 있어 전체 파인‑튜닝 없이도 개인화된 LM을 구현할 수 있다.
Compatibility – 특수한 아키텍처가 필요 없으며 기존 Transformer 코드베이스에 메타‑러닝 및 테스트 시 업데이트 훅을 추가해 바로 적용할 수 있다.

제한 사항 및 향후 작업

Gradient 오버헤드 – 지연 시간은 일정하게 유지되지만, 각 토큰마다 역전파가 필요하므로 효율적인 혼합 정밀도 자동 미분 파이프라인이 없는 GPU에서는 더 무거울 수 있습니다.
온라인 업데이트의 안정성 – 이 방법은 추론 시 세심한 학습률 스케줄링에 의존합니다; 학습률이 잘못 조정되면 드리프트가 발생하거나 노이즈가 많은 입력에 대한 성능이 저하될 수 있습니다.
옵티마이저 상태를 위한 메모리 – 테스트 시 학습 중에 파라미터별 옵티마이저 모멘트(예: Adam)를 저장하면 다소 메모리 사용량이 증가합니다.
3 B를 초과하는 규모로의 확장 – 논문은 최대 3 B 파라미터 모델에 초점을 맞추고 있으며, 옵티마이저 상태 크기가 병목이 되는 10 B 이상 모델에서 이 접근법이 어떻게 동작할지는 아직 확인되지 않았습니다.
저자들이 제시한 향후 방향에는 더 가벼운 업데이트 규칙(예: SGD 또는 저‑랭크 어댑터) 탐색, 장거리 추론을 더욱 강화하기 위한 검색 기반 메커니즘 통합, 그리고 컨텍스트 길이가 더욱 중요한 멀티모달 시퀀스(오디오/비디오)에 이 프레임워크를 적용하는 것이 포함됩니다.

저자

Arnuv Tandon
Karan Dalal
Xinhao Li
Daniel Koceja
Marcel Rød
Sam Buchanan
Xiaolong Wang
Jure Leskovec
Sanmi Koyejo
Tatsunori Hashimoto
Carlos Guestrin
Jed McCaleb
Yejin Choi
Yu Sun

논문 정보

arXiv ID: 2512.23675v1
카테고리: cs.LG
출판일: 2025년 12월 29일
PDF: PDF 다운로드

[Paper] 긴 컨텍스트를 위한 엔드투엔드 테스트 타임 트레이닝

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 자원 제한형 로봇 플랫폼에 Autonomous Agents 임베딩

[Paper] 경량 테스트 시 적응을 위한 EMG 기반 제스처 인식

[Paper] 고도로 손상된 데이터에서 강인한 물리 발견: 비선형 슈뢰딩거 방정식에 적용된 PINN 프레임워크

[Paper] SWE 에이전트를 위한 컨텍스트 검증기로서의 Agentic Rubrics