[Paper] 모든 토큰이 중요하다: 16M Ultra-Long Context 일반화 in Large Language Models
Source: arXiv - 2511.23319v1
Overview
논문 “Every Token Counts: Generalizing 16M Ultra‑Long Context in Large Language Models” 은 오늘날 LLM이 직면한 근본적인 병목 현상, 즉 매우 긴 텍스트 시퀀스를 유지하고 추론할 수 없는 문제를 다룹니다. 계층적 희소 어텐션(Hierarchical Sparse Attention, HSA) 메커니즘을 도입함으로써, 저자들은 1600만 토큰(대략 한 권 분량)까지 효율적으로 처리하면서도 표준 벤치마크에서 강력한 성능을 유지하는 80억 파라미터 규모의 mixture‑of‑experts(MoE) 모델을 구축했습니다.
Key Contributions
- Hierarchical Sparse Attention (HSA): 희소성, 랜덤 액세스 유연성, 길이 일반화를 결합한 새로운 어텐션 설계로, 초장문 컨텍스트에 효율적으로 확장됩니다.
- HSA‑UltraLong model: 80억 파라미터 MoE 트랜스포머로, 8조 토큰 이상을 학습했으며 컨텍스트 윈도우를 최대 1600만 토큰까지 처리할 수 있습니다.
- Comprehensive evaluation: 도메인 내 길이에서는 전체 어텐션 베이스라인과 동등한 성능을 보이며, 도메인 내·외 초장문 시퀀스에 대한 다양한 인‑컨텍스트 검색 작업에서 90 % 이상의 정확도를 달성했습니다.
- Open‑source insights: 상세한 실험 분석과 향후 초장문 컨텍스트 연구를 위한 열린 문제 로드맵을 제공합니다.
Methodology
-
Problem framing: 저자들은 LLM의 “메모리”를 다음 세 가지 속성으로 정의합니다.
- Sparsity: 토큰 간의 상호작용은 소수의 토큰에만 국한되어 이차적인 비용을 감소시킵니다.
- Random‑access flexibility: 모델은 고정된 슬라이딩 윈도우 방식이 아니라 필요에 따라 언제든지 토큰을 검색할 수 있어야 합니다.
- Length generalization: 하나의 컨텍스트 길이에서 학습한 모델이 추론 시 훨씬 긴 시퀀스로도 잘 전이되어야 합니다.
-
Hierarchical Sparse Attention (HSA):
- Local layer: 짧은 윈도우(예: 1 k 토큰) 내에서 표준 밀집 어텐션을 적용해 미세한 관계를 포착합니다.
- Global layer: 각 로컬 블록에 대해 “요약” 토큰을 생성하고, 이 요약 토큰들끼리 희소하게 어텐션을 수행해 전체 시퀀스에 정보를 O(N) 비용으로 전파합니다.
- Random access: 트리 형태의 계층을 따라 탐색하면 언제든지 원하는 토큰을 가져올 수 있어 유연성을 유지합니다.
-
Model architecture: HSA는 트랜스포머‑MoE 백본의 일반적인 자체 어텐션 블록을 대체합니다. MoE 라우팅은 계산량을 크게 늘리지 않으면서 용량을 확장합니다.
-
Training regime:
- Data: 다양한 웹 코퍼스에서 8조 토큰 이상을 사용해 긴 문서에 대한 노출을 확보했습니다.
- Curriculum: 짧은 컨텍스트로 시작해 점진적으로 길이를 늘리는 커리큘럼을 적용해 길이 일반화를 촉진했습니다.
- Optimization: 혼합 전문가 균형을 포함한 표준 AdamW와 희소 어텐션의 안정성을 위한 정규화를 사용했습니다.
Results & Findings
| Evaluation | Context Length | Full‑Attention Baseline | HSA‑UltraLong |
|---|---|---|---|
| Language Modeling (perplexity) | 2 k – 8 k | Comparable | Comparable |
| In‑context Retrieval (accuracy) | 1 M – 16 M | Degrades sharply | >90 % across the board |
| Zero‑shot QA (long documents) | 4 M | Fails (out‑of‑memory) | Successful, near‑baseline quality |
| Out‑of‑domain (legal contracts, codebases) | 8 M – 16 M | Unusable | Robust, retains >85 % performance |
Takeaway: HSA‑UltraLong은 짧은 범위 작업에서 밀집 어텐션과 동등한 성능을 보이며, 초장문 컨텍스트에서는 급격히 우수한 성능을 보여줍니다. 이는 희소성과 계층적 라우팅이 이차적인 비용 증가 없이 핵심 정보를 보존한다는 것을 입증합니다.
Practical Implications
- Enterprise document processing: 기업은 정책 매뉴얼, 법률 계약서, 코드 저장소 등 수십 메가바이트 규모의 전체 문서를 한 번에 입력해 정확한 검색, 요약, QA를 수행할 수 있어 별도 청크 처리 없이도 가능합니다.
- Long‑form content generation: 작가와 개발자는 전체 초안(예: 소설 원고)을 모델에 제공하고, 앞 장을 고려한 일관된 이어쓰기나 편집 제안을 받을 수 있습니다.
- Tooling for developers: IDE에 전체 코드베이스(수백만 라인)를 인덱싱한 단일 LLM을 통합해 컨텍스트‑aware 자동완성, 리팩터링, 버그 설명 등을 제공함으로써 외부 벡터 스토어의 필요성을 줄일 수 있습니다.
- Cost‑effective scaling: HSA는 토큰 수에 대해 거의 선형적인 계산량을 유지하므로, 클라우드 제공자는 순수 밀집 어텐션 모델 대비 훨씬 낮은 비용으로 “초장문 컨텍스트” 엔드포인트를 제공할 수 있습니다.
Limitations & Future Work
- Memory footprint: 선형이지만 1600만 토큰을 처리하려면 여전히 수 GB 수준의 GPU 메모리가 필요해 일반 하드웨어에서는 제한적입니다.
- Latency: 로컬 + 글로벌 두 단계 어텐션 구조는 짧은 시퀀스에 대한 순수 밀집 어텐션보다 약간의 오버헤드를 추가합니다. 저지연 추론을 위한 계층 최적화가 남은 과제입니다.
- Generalization to multimodal data: 현재는 순수 텍스트에만 초점을 맞추었으며, 비전‑언어 혹은 오디오 스트림에 HSA를 적용하려면 추가 연구가 필요합니다.
- Robustness to adversarial prompts: 희소 어텐션은 드문 장거리 의존성을 놓칠 수 있으므로, 필요 시 어텐션을 동적으로 밀집화하는 하이브리드 방식을 탐색해야 합니다.
Bottom line: “every token counts”라는 원칙을 1600만 토큰 규모까지 입증함으로써, 이 논문은 책, 코드베이스, 방대한 로그 등을 한 번에 기억하는 단일 통합 모델의 실현 가능성을 열어줍니다.
Authors
- Xiang Hu
- Zhanchao Zhou
- Ruiqi Liang
- Zehuan Li
- Wei Wu
- Jianguo Li
Paper Information
- arXiv ID: 2511.23319v1
- Categories: cs.CL, cs.AI
- Published: November 28, 2025
- PDF: Download PDF