컨텍스트 압축, 실제 적용 성공: 새로운 연구, LLM 입력을 정확도 손실 없이 16배 감소
Source: VentureBeat
컨텍스트 윈도우가 계산 병목 현상이 되고 있습니다. 에이전트가 오래 실행될수록 검색된 문서, 추론 흔적, 대화 기록에서 토큰이 계속 쌓이고, 그에 따라 늘어나는 컨텍스트가 메모리와 연산을 더 많이 요구합니다. 기존 솔루션 대부분은 모델 정확도를 떨어뜨리거나, 압축을 시작하기 전에 전체 컨텍스트를 로드해야 하거나, 메모리 절감이 표준 서빙 인프라에서 실제 속도 향상으로 이어지지 않습니다.
NYU, Columbia, Princeton, University of Maryland, Harvard, 그리고 Lawrence Livermore National Laboratory의 연구팀이 이번 주에 새로운 해결책을 제시하는 논문을 발표했습니다. 연구자들은 Latent Context Language Models(LCLM)이라는 개념을 도입했으며, 이는 디코더에 도달하기 전에 입력 컨텍스트를 압축하는 인코더‑디코더 압축 모델군입니다. 해당 모델은 HuggingFace에 오픈소스로 공개되었습니다.
KV 캐시 압축 방식—이 분야에서 지배적인 접근법으로, 여전히 엔트리를 제거하기 전에 전체 KV 캐시를 실체화합니다—과 달리 LCLM은 디코더 프리필 전에 입력 토큰 시퀀스를 압축하므로, 높은 압축 비율이 직접적으로 디코더 측 연산과 메모리를 감소시킵니다. 논문에 따르면 16배 압축된 LCLM