[Paper] LLM-CoOpt: 이기종 플랫폼에서 효율적인 LLM 추론을 위한 공동 설계 및 최적화 프레임워크
Source: arXiv - 2602.09323v1
Overview
LLM‑CoOpt은 대규모 언어 모델(LLM) 추론에서 지속적으로 발생하는 세 가지 문제점—메모리 대역폭 병목, 중복 연산, 그리고 매우 긴 입력 시퀀스를 처리하기 어려움—을 해결하는 새로운 공동 설계 프레임워크입니다. 알고리즘과 하드웨어 친화적인 데이터 경로를 동시에 재설계함으로써, 저자들은 모델 품질을 희생하지 않으면서 추론 속도를 높이고 메모리 효율성을 개선할 수 있음을 보여줍니다.
핵심 기여
- Opt‑KV (Key‑Value Cache Optimization) – KV‑cache 읽기/쓰기 파이프라인을 재설계하고 FP8 양자화를 적용해 캐시 크기를 줄이면서 정확도를 유지합니다.
- Opt‑GQA (Grouped‑Query Attention) – 표준 다중‑헤드 자체‑주의를 그룹‑쿼리 형태로 교체하여 헤드 간에 key/value 프로젝션을 공유함으로써 FLOPs와 메모리 트래픽을 감소시킵니다.
- Opt‑Pa (Paged Attention) – “세그먼트‑후‑지연‑맵” 두 단계 전략을 도입해 초‑긴 시퀀스를 청크로 나누고 필요한 어텐션 윈도우만 실제로 생성하여 메모리 부담을 크게 낮춥니다.
- End‑to‑end co‑optimization – 세 가지 기술을 하나의 추론 스택에 통합하고 실제 LLaMa‑13B‑GPTQ 모델에 적용해 검증합니다.
- Performance gains – 최대 13.4 % 높은 처리량과 16.8 % 낮은 지연 시간을 달성했으며, 다운스트림 작업 정확도에 미치는 영향은 거의 없습니다.
방법론
-
Cache Redesign (Opt‑KV)
- 자동 회귀 생성에 사용되는 중간 활성값을 저장하는 KV 캐시는 전통적으로 FP16/32 형식으로 유지됩니다. LLM‑CoOpt은 이 텐서를 FP8로 압축하여 토큰당 필요한 메모리 대역폭을 절반으로 줄입니다.
- 사용자 정의 쓰기‑백 버퍼와 프리패치 로직을 통해 캐시 접근 순서를 재배열하여 공간 지역성을 향상시키고, CPU/GPU에서 캐시 미스에 의한 대기 시간을 감소시킵니다.
-
Grouped‑Query Attention (Opt‑GQA)
- 헤드당 독립적인 query/key/value 투영을 수행하는 대신, Opt‑GQA는 여러 헤드를 하나의 key/value 행렬을 공유하도록 그룹화하고, query 행렬은 각각 유지합니다.
- 이를 통해 행렬 곱셈 횟수를 H (헤드 수)에서 G (그룹 수)로 감소시키고, 동일한 key/value 데이터를 여러 헤드가 재사용하도록 하여 SIMD 친화적인 하드웨어에서 특히 효율적입니다.
-
Paged Attention (Opt‑Pa)
- 긴 시퀀스를 먼저 고정 크기 페이지(예: 512 토큰)로 분할합니다.
- 생성 과정에서는 현재 어텐션 윈도우와 겹치는 페이지만 실제로 메모리에 올려서 “지연 매핑(lazy mapping)”을 수행하고, 나머지 페이지는 압축 저장 상태를 유지합니다.
- 이 방법은 OS 수준의 페이지 폴트 처리와 맞춤형 커널을 활용해 활성 작업 집합을 작게 유지합니다.
-
Integration & Evaluation
- 세 가지 최적화를 하나의 추론 파이프라인에 결합합니다.
- 실험은 서버급 GPU(NVIDIA A100)와 CPU‑전용 베이스라인에서 LLaMa‑13B‑GPTQ 체크포인트를 사용해 수행합니다.
- 정확도는 WikiText‑103, LAMBADA와 같은 표준 언어 모델 벤치마크에서 측정하여 양자화 및 알고리즘 변경이 성능 저하를 일으키지 않음을 확인합니다.
결과 및 발견
| 지표 | 기준 | LLM‑CoOpt (통합) | Δ |
|---|---|---|---|
| Throughput (tokens / s) | 1.00× | 1.13× | +13.4 % |
| End‑to‑end latency (ms / token) | 1.00× | 0.83× | –16.8 % |
| KV‑cache memory footprint | 100 % | ≈50 % (FP8) | –50 % |
| Accuracy (perplexity / LAMBADA) | Baseline | Within 0.2 % of baseline | No noticeable drop |
데이터는 각 개별 최적화가 전체 성능 향상에 기여하지만, 가장 큰 상승은 메모리 트래픽 감소(Opt‑KV)와 FLOP 감소(Opt‑GQA)의 결합에서 비롯됩니다. Opt‑Pa는 4 k 토큰보다 긴 입력에서 뛰어난 성능을 보이며, 이 경우 기준 메모리 사용량이 급증할 수 있습니다.
Practical Implications
- Faster SaaS APIs – 클라우드 제공업체는 GPU당 더 많은 요청을 처리할 수 있어 챗봇이나 코드 어시스턴트와 같은 서비스의 토큰당 비용을 낮출 수 있습니다.
- Edge & On‑Device Inference – FP8 캐시와 감소된 연산량 덕분에 제한된 메모리 대역폭을 가진 고성능 모바일 또는 임베디드 GPU에서도 13 B 규모 모델을 실행할 수 있습니다.
- Long‑Context Applications – 검색 기반 생성, 문서 요약, 코드 분석 등은 종종 8 k 토큰 이상의 윈도우가 필요합니다; Opt‑Pa는 비용이 많이 드는 모델 분할 기법 없이 이러한 작업을 가능하게 합니다.
- Simplified Deployment – 최적화가 드롭인 커널 교체(예: 맞춤형 CUDA 커널이나 ONNX Runtime 확장) 형태로 구현되었기 때문에 기존 추론 스택이 최소한의 코드 변경만으로 LLM‑CoOpt을 도입할 수 있습니다.
제한 사항 및 향후 작업
- 하드웨어 특수성 – 현재 구현은 NVIDIA GPU와 x86 CPU에 최적화되어 있으며, AMD GPU 또는 ARM 기반 가속기에 대한 성능은 아직 테스트되지 않았습니다.
- 양자화 민감도 – FP8이 LLaMa‑13B‑GPTQ에 잘 작동하지만, 다른 모델군(예: 밀집 학습 모델 또는 지시문 튜닝 변형)에서는 정확도 손실을 방지하기 위해 레이어별 보정이 필요할 수 있습니다.
- 100 B 초과 확장성 – 저자들은 100 B 파라미터를 초과하는 모델의 경우 추가적인 계층 구조(예: 다중 노드 KV 캐싱)가 필요하다고 언급합니다.
- 향후 방향 – Opt‑Pa를 동적 페이지 크기를 지원하도록 확장하고, 희소성 인식 어텐션 커널을 통합하며, 컴파일러 수준 최적화를 통해 공동 설계 과정을 자동화하는 것이 유망한 다음 단계로 강조됩니다.
저자
- Jie Kong
- Wei Wang
- Jiehan Zhou
- Chen Yu
논문 정보
- arXiv ID: 2602.09323v1
- 분류: cs.DC
- 출판일: 2026년 2월 10일
- PDF: Download PDF