[논문] 대규모 엔드투엔드 컨텍스트 압축
개요
긴 컨텍스트 언어 모델 추론은 KV 캐시가 컨텍스트 길이에 따라 커지면서 메모리 한계에 걸립니다. 최근 KV 캐시를 압축하는 기술들은 두 가지 문제점이 있습니다: 모델 품질을 크게 저하시키거나, 단일 긴 프롬프트를 압축하는 데 상당한 시간과 연산이 필요합니다. 또한 많은 방법이 입력을 목표 모델의 컨텍스트 윈도우 안에 맞춰야 하며, 현대의 프로덕션 추론 엔진과 호환되지 않는 경우가 많습니다. 긴 토큰 시퀀스를 디코더가 소비하는 짧은 잠재 임베딩 시퀀스로 매핑하는 인코더‑디코더 압축기는 원칙적으로 매력적인 대안입니다. 그러나 기존 접근법은 정확도‑효율성 경계에서 KV 캐시 압축에 비해 경쟁력이 떨어집니다. 본 연구에서는 인코더‑디코더 압축을 재조명하고 이 격차를 메웁니다. 먼저 다양한 변형을 처음부터 사전 학습하여 최적의 인코더‑디코더 압축기 설계 및 학습 방법을 찾는 아키텍처 탐색을 수행했습니다. 우리의 발견을 바탕으로 0.6B 인코더, 4B 디코더 모델군을 각각 3500억 토큰 이상으로 지속적으로 사전 학습했으며, 압축 비율을 1:4, 1:8, 1:16으로 설정했습니다. 우리는 라텐트 컨텍스트 언어 모델(LCLM)이라는 압축기 군을 도입했으며, 이는 일반 작업 성능, 압축 속도, 피크 메모리 사용량 측면에서 파레토 경계를 개선합니다. LCLM은 긴 컨텍스트를 압축한 뒤 에이전트가 필요에 따라 관련 구간을 선택적으로 확장하도록 함으로써, 장기 지평 에이전트의 효율적인 백본 역할을 수행함을 보였습니다.
주요 기여
이 논문은 다음 분야의 연구를 다룹니다:
- cs.CL
- cs.AI
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Ang Li
- Sean McLeish
- Haozhe Chen
- Nimit Kalra
- Zaiqian Chen
- Artem Gazizov
- Venkata Anoop Suhas Kumar Morisetty
- Bhavya Kailkhura
- Harshitha Menon
- Zhuang Liu
- Brian R. Bartoldson
- Tom Goldstein
- Sanae Lotfi
- Micah Goldblum
- Pavel Izmailov
논문 정보
- arXiv ID: 2606.09659v1
- 분류: cs.CL, cs.AI, cs.LG
- 발표일: 2026년 6월 8일
- PDF: PDF 다운로드