[Paper] 모든 토큰이 중요하다: 16M Ultra-Long Context 일반화 in Large Language Models

발행: 2개월 전 (2025년 11월 29일 오전 01:17 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2511.23319v1

Overview

논문 “Every Token Counts: Generalizing 16M Ultra‑Long Context in Large Language Models” 은 오늘날 LLM이 직면한 근본적인 병목 현상, 즉 매우 긴 텍스트 시퀀스를 유지하고 추론할 수 없는 문제를 다룹니다. 계층적 희소 어텐션(Hierarchical Sparse Attention, HSA) 메커니즘을 도입함으로써, 저자들은 1600만 토큰(대략 한 권 분량)까지 효율적으로 처리하면서도 표준 벤치마크에서 강력한 성능을 유지하는 80억 파라미터 규모의 mixture‑of‑experts(MoE) 모델을 구축했습니다.

Key Contributions

Hierarchical Sparse Attention (HSA): 희소성, 랜덤 액세스 유연성, 길이 일반화를 결합한 새로운 어텐션 설계로, 초장문 컨텍스트에 효율적으로 확장됩니다.
HSA‑UltraLong model: 80억 파라미터 MoE 트랜스포머로, 8조 토큰 이상을 학습했으며 컨텍스트 윈도우를 최대 1600만 토큰까지 처리할 수 있습니다.
Comprehensive evaluation: 도메인 내 길이에서는 전체 어텐션 베이스라인과 동등한 성능을 보이며, 도메인 내·외 초장문 시퀀스에 대한 다양한 인‑컨텍스트 검색 작업에서 90 % 이상의 정확도를 달성했습니다.
Open‑source insights: 상세한 실험 분석과 향후 초장문 컨텍스트 연구를 위한 열린 문제 로드맵을 제공합니다.

Methodology

Problem framing: 저자들은 LLM의 “메모리”를 다음 세 가지 속성으로 정의합니다.
- Sparsity: 토큰 간의 상호작용은 소수의 토큰에만 국한되어 이차적인 비용을 감소시킵니다.
- Random‑access flexibility: 모델은 고정된 슬라이딩 윈도우 방식이 아니라 필요에 따라 언제든지 토큰을 검색할 수 있어야 합니다.
- Length generalization: 하나의 컨텍스트 길이에서 학습한 모델이 추론 시 훨씬 긴 시퀀스로도 잘 전이되어야 합니다.
Hierarchical Sparse Attention (HSA):
- Local layer: 짧은 윈도우(예: 1 k 토큰) 내에서 표준 밀집 어텐션을 적용해 미세한 관계를 포착합니다.
- Global layer: 각 로컬 블록에 대해 “요약” 토큰을 생성하고, 이 요약 토큰들끼리 희소하게 어텐션을 수행해 전체 시퀀스에 정보를 O(N) 비용으로 전파합니다.
- Random access: 트리 형태의 계층을 따라 탐색하면 언제든지 원하는 토큰을 가져올 수 있어 유연성을 유지합니다.
Model architecture: HSA는 트랜스포머‑MoE 백본의 일반적인 자체 어텐션 블록을 대체합니다. MoE 라우팅은 계산량을 크게 늘리지 않으면서 용량을 확장합니다.
Training regime:
- Data: 다양한 웹 코퍼스에서 8조 토큰 이상을 사용해 긴 문서에 대한 노출을 확보했습니다.
- Curriculum: 짧은 컨텍스트로 시작해 점진적으로 길이를 늘리는 커리큘럼을 적용해 길이 일반화를 촉진했습니다.
- Optimization: 혼합 전문가 균형을 포함한 표준 AdamW와 희소 어텐션의 안정성을 위한 정규화를 사용했습니다.

Results & Findings

Evaluation	Context Length	Full‑Attention Baseline	HSA‑UltraLong
Language Modeling (perplexity)	2 k – 8 k	Comparable	Comparable
In‑context Retrieval (accuracy)	1 M – 16 M	Degrades sharply	>90 % across the board
Zero‑shot QA (long documents)	4 M	Fails (out‑of‑memory)	Successful, near‑baseline quality
Out‑of‑domain (legal contracts, codebases)	8 M – 16 M	Unusable	Robust, retains >85 % performance

Takeaway: HSA‑UltraLong은 짧은 범위 작업에서 밀집 어텐션과 동등한 성능을 보이며, 초장문 컨텍스트에서는 급격히 우수한 성능을 보여줍니다. 이는 희소성과 계층적 라우팅이 이차적인 비용 증가 없이 핵심 정보를 보존한다는 것을 입증합니다.

Practical Implications

Enterprise document processing: 기업은 정책 매뉴얼, 법률 계약서, 코드 저장소 등 수십 메가바이트 규모의 전체 문서를 한 번에 입력해 정확한 검색, 요약, QA를 수행할 수 있어 별도 청크 처리 없이도 가능합니다.
Long‑form content generation: 작가와 개발자는 전체 초안(예: 소설 원고)을 모델에 제공하고, 앞 장을 고려한 일관된 이어쓰기나 편집 제안을 받을 수 있습니다.
Tooling for developers: IDE에 전체 코드베이스(수백만 라인)를 인덱싱한 단일 LLM을 통합해 컨텍스트‑aware 자동완성, 리팩터링, 버그 설명 등을 제공함으로써 외부 벡터 스토어의 필요성을 줄일 수 있습니다.
Cost‑effective scaling: HSA는 토큰 수에 대해 거의 선형적인 계산량을 유지하므로, 클라우드 제공자는 순수 밀집 어텐션 모델 대비 훨씬 낮은 비용으로 “초장문 컨텍스트” 엔드포인트를 제공할 수 있습니다.

Limitations & Future Work

Memory footprint: 선형이지만 1600만 토큰을 처리하려면 여전히 수 GB 수준의 GPU 메모리가 필요해 일반 하드웨어에서는 제한적입니다.
Latency: 로컬 + 글로벌 두 단계 어텐션 구조는 짧은 시퀀스에 대한 순수 밀집 어텐션보다 약간의 오버헤드를 추가합니다. 저지연 추론을 위한 계층 최적화가 남은 과제입니다.
Generalization to multimodal data: 현재는 순수 텍스트에만 초점을 맞추었으며, 비전‑언어 혹은 오디오 스트림에 HSA를 적용하려면 추가 연구가 필요합니다.
Robustness to adversarial prompts: 희소 어텐션은 드문 장거리 의존성을 놓칠 수 있으므로, 필요 시 어텐션을 동적으로 밀집화하는 하이브리드 방식을 탐색해야 합니다.

Bottom line: “every token counts”라는 원칙을 1600만 토큰 규모까지 입증함으로써, 이 논문은 책, 코드베이스, 방대한 로그 등을 한 번에 기억하는 단일 통합 모델의 실현 가능성을 열어줍니다.

Authors

Xiang Hu
Zhanchao Zhou
Ruiqi Liang
Zehuan Li
Wei Wu
Jianguo Li

Paper Information

arXiv ID: 2511.23319v1
Categories: cs.CL, cs.AI
Published: November 28, 2025
PDF: Download PDF

[Paper] 모든 토큰이 중요하다: 16M Ultra-Long Context 일반화 in Large Language Models

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] ThetaEvolve: 테스트 시 학습 on Open Problems

[Paper] MegaChat: 고품질 영업 챗봇 평가를 위한 합성 페르시아어 Q&A 데이터셋

[Paper] 구조화된 Knowledge Discovery Approach를 통한 Language Model Generation의 Interpretability 향상

[Paper] 자동 안전 운전 지시를 향한: 대규모 Vision Language Model 접근