[논문] 대규모 엔드투엔드 컨텍스트 압축

발행: (2026년 6월 9일 AM 12:43 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.09659v1

개요

긴 컨텍스트 언어 모델 추론은 KV 캐시가 컨텍스트 길이에 따라 커지면서 메모리 한계에 걸립니다. 최근 KV 캐시를 압축하는 기술들은 두 가지 문제점이 있습니다: 모델 품질을 크게 저하시키거나, 단일 긴 프롬프트를 압축하는 데 상당한 시간과 연산이 필요합니다. 또한 많은 방법이 입력을 목표 모델의 컨텍스트 윈도우 안에 맞춰야 하며, 현대의 프로덕션 추론 엔진과 호환되지 않는 경우가 많습니다. 긴 토큰 시퀀스를 디코더가 소비하는 짧은 잠재 임베딩 시퀀스로 매핑하는 인코더‑디코더 압축기는 원칙적으로 매력적인 대안입니다. 그러나 기존 접근법은 정확도‑효율성 경계에서 KV 캐시 압축에 비해 경쟁력이 떨어집니다. 본 연구에서는 인코더‑디코더 압축을 재조명하고 이 격차를 메웁니다. 먼저 다양한 변형을 처음부터 사전 학습하여 최적의 인코더‑디코더 압축기 설계 및 학습 방법을 찾는 아키텍처 탐색을 수행했습니다. 우리의 발견을 바탕으로 0.6B 인코더, 4B 디코더 모델군을 각각 3500억 토큰 이상으로 지속적으로 사전 학습했으며, 압축 비율을 1:4, 1:8, 1:16으로 설정했습니다. 우리는 라텐트 컨텍스트 언어 모델(LCLM)이라는 압축기 군을 도입했으며, 이는 일반 작업 성능, 압축 속도, 피크 메모리 사용량 측면에서 파레토 경계를 개선합니다. LCLM은 긴 컨텍스트를 압축한 뒤 에이전트가 필요에 따라 관련 구간을 선택적으로 확장하도록 함으로써, 장기 지평 에이전트의 효율적인 백본 역할을 수행함을 보였습니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

  • cs.CL
  • cs.AI
  • cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • Ang Li
  • Sean McLeish
  • Haozhe Chen
  • Nimit Kalra
  • Zaiqian Chen
  • Artem Gazizov
  • Venkata Anoop Suhas Kumar Morisetty
  • Bhavya Kailkhura
  • Harshitha Menon
  • Zhuang Liu
  • Brian R. Bartoldson
  • Tom Goldstein
  • Sanae Lotfi
  • Micah Goldblum
  • Pavel Izmailov

논문 정보

  • arXiv ID: 2606.09659v1
  • 분류: cs.CL, cs.AI, cs.LG
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »