[논문] 대규모 엔드투엔드 컨텍스트 압축

발행: 3일 전 (2026년 6월 9일 AM 12:43 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.09659v1

개요

긴 컨텍스트 언어 모델 추론은 KV 캐시가 컨텍스트 길이에 따라 커지면서 메모리 한계에 걸립니다. 최근 KV 캐시를 압축하는 기술들은 두 가지 문제점이 있습니다: 모델 품질을 크게 저하시키거나, 단일 긴 프롬프트를 압축하는 데 상당한 시간과 연산이 필요합니다. 또한 많은 방법이 입력을 목표 모델의 컨텍스트 윈도우 안에 맞춰야 하며, 현대의 프로덕션 추론 엔진과 호환되지 않는 경우가 많습니다. 긴 토큰 시퀀스를 디코더가 소비하는 짧은 잠재 임베딩 시퀀스로 매핑하는 인코더‑디코더 압축기는 원칙적으로 매력적인 대안입니다. 그러나 기존 접근법은 정확도‑효율성 경계에서 KV 캐시 압축에 비해 경쟁력이 떨어집니다. 본 연구에서는 인코더‑디코더 압축을 재조명하고 이 격차를 메웁니다. 먼저 다양한 변형을 처음부터 사전 학습하여 최적의 인코더‑디코더 압축기 설계 및 학습 방법을 찾는 아키텍처 탐색을 수행했습니다. 우리의 발견을 바탕으로 0.6B 인코더, 4B 디코더 모델군을 각각 3500억 토큰 이상으로 지속적으로 사전 학습했으며, 압축 비율을 1:4, 1:8, 1:16으로 설정했습니다. 우리는 라텐트 컨텍스트 언어 모델(LCLM)이라는 압축기 군을 도입했으며, 이는 일반 작업 성능, 압축 속도, 피크 메모리 사용량 측면에서 파레토 경계를 개선합니다. LCLM은 긴 컨텍스트를 압축한 뒤 에이전트가 필요에 따라 관련 구간을 선택적으로 확장하도록 함으로써, 장기 지평 에이전트의 효율적인 백본 역할을 수행함을 보였습니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

cs.CL
cs.AI
cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Ang Li
Sean McLeish
Haozhe Chen
Nimit Kalra
Zaiqian Chen
Artem Gazizov
Venkata Anoop Suhas Kumar Morisetty
Bhavya Kailkhura
Harshitha Menon
Zhuang Liu
Brian R. Bartoldson
Tom Goldstein
Sanae Lotfi
Micah Goldblum
Pavel Izmailov

논문 정보

arXiv ID: 2606.09659v1
분류: cs.CL, cs.AI, cs.LG
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 대규모 엔드투엔드 컨텍스트 압축

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?