[Paper] 모든 토큰이 중요하다: 16M Ultra-Long Context 일반화 in Large Language Models

발행: (2025년 11월 29일 오전 01:17 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2511.23319v1

Overview

논문 “Every Token Counts: Generalizing 16M Ultra‑Long Context in Large Language Models” 은 오늘날 LLM이 직면한 근본적인 병목 현상, 즉 매우 긴 텍스트 시퀀스를 유지하고 추론할 수 없는 문제를 다룹니다. 계층적 희소 어텐션(Hierarchical Sparse Attention, HSA) 메커니즘을 도입함으로써, 저자들은 1600만 토큰(대략 한 권 분량)까지 효율적으로 처리하면서도 표준 벤치마크에서 강력한 성능을 유지하는 80억 파라미터 규모의 mixture‑of‑experts(MoE) 모델을 구축했습니다.

Key Contributions

  • Hierarchical Sparse Attention (HSA): 희소성, 랜덤 액세스 유연성, 길이 일반화를 결합한 새로운 어텐션 설계로, 초장문 컨텍스트에 효율적으로 확장됩니다.
  • HSA‑UltraLong model: 80억 파라미터 MoE 트랜스포머로, 8조 토큰 이상을 학습했으며 컨텍스트 윈도우를 최대 1600만 토큰까지 처리할 수 있습니다.
  • Comprehensive evaluation: 도메인 내 길이에서는 전체 어텐션 베이스라인과 동등한 성능을 보이며, 도메인 내·외 초장문 시퀀스에 대한 다양한 인‑컨텍스트 검색 작업에서 90 % 이상의 정확도를 달성했습니다.
  • Open‑source insights: 상세한 실험 분석과 향후 초장문 컨텍스트 연구를 위한 열린 문제 로드맵을 제공합니다.

Methodology

  1. Problem framing: 저자들은 LLM의 “메모리”를 다음 세 가지 속성으로 정의합니다.

    • Sparsity: 토큰 간의 상호작용은 소수의 토큰에만 국한되어 이차적인 비용을 감소시킵니다.
    • Random‑access flexibility: 모델은 고정된 슬라이딩 윈도우 방식이 아니라 필요에 따라 언제든지 토큰을 검색할 수 있어야 합니다.
    • Length generalization: 하나의 컨텍스트 길이에서 학습한 모델이 추론 시 훨씬 긴 시퀀스로도 잘 전이되어야 합니다.
  2. Hierarchical Sparse Attention (HSA):

    • Local layer: 짧은 윈도우(예: 1 k 토큰) 내에서 표준 밀집 어텐션을 적용해 미세한 관계를 포착합니다.
    • Global layer: 각 로컬 블록에 대해 “요약” 토큰을 생성하고, 이 요약 토큰들끼리 희소하게 어텐션을 수행해 전체 시퀀스에 정보를 O(N) 비용으로 전파합니다.
    • Random access: 트리 형태의 계층을 따라 탐색하면 언제든지 원하는 토큰을 가져올 수 있어 유연성을 유지합니다.
  3. Model architecture: HSA는 트랜스포머‑MoE 백본의 일반적인 자체 어텐션 블록을 대체합니다. MoE 라우팅은 계산량을 크게 늘리지 않으면서 용량을 확장합니다.

  4. Training regime:

    • Data: 다양한 웹 코퍼스에서 8조 토큰 이상을 사용해 긴 문서에 대한 노출을 확보했습니다.
    • Curriculum: 짧은 컨텍스트로 시작해 점진적으로 길이를 늘리는 커리큘럼을 적용해 길이 일반화를 촉진했습니다.
    • Optimization: 혼합 전문가 균형을 포함한 표준 AdamW와 희소 어텐션의 안정성을 위한 정규화를 사용했습니다.

Results & Findings

EvaluationContext LengthFull‑Attention BaselineHSA‑UltraLong
Language Modeling (perplexity)2 k – 8 kComparableComparable
In‑context Retrieval (accuracy)1 M – 16 MDegrades sharply>90 % across the board
Zero‑shot QA (long documents)4 MFails (out‑of‑memory)Successful, near‑baseline quality
Out‑of‑domain (legal contracts, codebases)8 M – 16 MUnusableRobust, retains >85 % performance

Takeaway: HSA‑UltraLong은 짧은 범위 작업에서 밀집 어텐션과 동등한 성능을 보이며, 초장문 컨텍스트에서는 급격히 우수한 성능을 보여줍니다. 이는 희소성과 계층적 라우팅이 이차적인 비용 증가 없이 핵심 정보를 보존한다는 것을 입증합니다.

Practical Implications

  • Enterprise document processing: 기업은 정책 매뉴얼, 법률 계약서, 코드 저장소 등 수십 메가바이트 규모의 전체 문서를 한 번에 입력해 정확한 검색, 요약, QA를 수행할 수 있어 별도 청크 처리 없이도 가능합니다.
  • Long‑form content generation: 작가와 개발자는 전체 초안(예: 소설 원고)을 모델에 제공하고, 앞 장을 고려한 일관된 이어쓰기나 편집 제안을 받을 수 있습니다.
  • Tooling for developers: IDE에 전체 코드베이스(수백만 라인)를 인덱싱한 단일 LLM을 통합해 컨텍스트‑aware 자동완성, 리팩터링, 버그 설명 등을 제공함으로써 외부 벡터 스토어의 필요성을 줄일 수 있습니다.
  • Cost‑effective scaling: HSA는 토큰 수에 대해 거의 선형적인 계산량을 유지하므로, 클라우드 제공자는 순수 밀집 어텐션 모델 대비 훨씬 낮은 비용으로 “초장문 컨텍스트” 엔드포인트를 제공할 수 있습니다.

Limitations & Future Work

  • Memory footprint: 선형이지만 1600만 토큰을 처리하려면 여전히 수 GB 수준의 GPU 메모리가 필요해 일반 하드웨어에서는 제한적입니다.
  • Latency: 로컬 + 글로벌 두 단계 어텐션 구조는 짧은 시퀀스에 대한 순수 밀집 어텐션보다 약간의 오버헤드를 추가합니다. 저지연 추론을 위한 계층 최적화가 남은 과제입니다.
  • Generalization to multimodal data: 현재는 순수 텍스트에만 초점을 맞추었으며, 비전‑언어 혹은 오디오 스트림에 HSA를 적용하려면 추가 연구가 필요합니다.
  • Robustness to adversarial prompts: 희소 어텐션은 드문 장거리 의존성을 놓칠 수 있으므로, 필요 시 어텐션을 동적으로 밀집화하는 하이브리드 방식을 탐색해야 합니다.

Bottom line: “every token counts”라는 원칙을 1600만 토큰 규모까지 입증함으로써, 이 논문은 책, 코드베이스, 방대한 로그 등을 한 번에 기억하는 단일 통합 모델의 실현 가능성을 열어줍니다.

Authors

  • Xiang Hu
  • Zhanchao Zhou
  • Ruiqi Liang
  • Zehuan Li
  • Wei Wu
  • Jianguo Li

Paper Information

  • arXiv ID: 2511.23319v1
  • Categories: cs.CL, cs.AI
  • Published: November 28, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Multi-LLM 협업을 통한 약물 추천

보건 의료가 확장 가능하고 신뢰할 수 있는 clinical decision support를 위해 AI를 점점 더 활용함에 따라, 모델 추론의 신뢰성을 보장하는 것이 여전히 중요한 과제로 남아 있습니다.