[Paper] LLM-CoOpt: 이기종 플랫폼에서 효율적인 LLM 추론을 위한 공동 설계 및 최적화 프레임워크

발행: 3일 전 (2026년 2월 10일 오전 10:31 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.09323v1

Overview

LLM‑CoOpt은 대규모 언어 모델(LLM) 추론에서 지속적으로 발생하는 세 가지 문제점—메모리 대역폭 병목, 중복 연산, 그리고 매우 긴 입력 시퀀스를 처리하기 어려움—을 해결하는 새로운 공동 설계 프레임워크입니다. 알고리즘과 하드웨어 친화적인 데이터 경로를 동시에 재설계함으로써, 저자들은 모델 품질을 희생하지 않으면서 추론 속도를 높이고 메모리 효율성을 개선할 수 있음을 보여줍니다.

핵심 기여

Opt‑KV (Key‑Value Cache Optimization) – KV‑cache 읽기/쓰기 파이프라인을 재설계하고 FP8 양자화를 적용해 캐시 크기를 줄이면서 정확도를 유지합니다.
Opt‑GQA (Grouped‑Query Attention) – 표준 다중‑헤드 자체‑주의를 그룹‑쿼리 형태로 교체하여 헤드 간에 key/value 프로젝션을 공유함으로써 FLOPs와 메모리 트래픽을 감소시킵니다.
Opt‑Pa (Paged Attention) – “세그먼트‑후‑지연‑맵” 두 단계 전략을 도입해 초‑긴 시퀀스를 청크로 나누고 필요한 어텐션 윈도우만 실제로 생성하여 메모리 부담을 크게 낮춥니다.
End‑to‑end co‑optimization – 세 가지 기술을 하나의 추론 스택에 통합하고 실제 LLaMa‑13B‑GPTQ 모델에 적용해 검증합니다.
Performance gains – 최대 13.4 % 높은 처리량과 16.8 % 낮은 지연 시간을 달성했으며, 다운스트림 작업 정확도에 미치는 영향은 거의 없습니다.

방법론

Cache Redesign (Opt‑KV)
- 자동 회귀 생성에 사용되는 중간 활성값을 저장하는 KV 캐시는 전통적으로 FP16/32 형식으로 유지됩니다. LLM‑CoOpt은 이 텐서를 FP8로 압축하여 토큰당 필요한 메모리 대역폭을 절반으로 줄입니다.
- 사용자 정의 쓰기‑백 버퍼와 프리패치 로직을 통해 캐시 접근 순서를 재배열하여 공간 지역성을 향상시키고, CPU/GPU에서 캐시 미스에 의한 대기 시간을 감소시킵니다.
Grouped‑Query Attention (Opt‑GQA)
- 헤드당 독립적인 query/key/value 투영을 수행하는 대신, Opt‑GQA는 여러 헤드를 하나의 key/value 행렬을 공유하도록 그룹화하고, query 행렬은 각각 유지합니다.
- 이를 통해 행렬 곱셈 횟수를 H (헤드 수)에서 G (그룹 수)로 감소시키고, 동일한 key/value 데이터를 여러 헤드가 재사용하도록 하여 SIMD 친화적인 하드웨어에서 특히 효율적입니다.
Paged Attention (Opt‑Pa)
- 긴 시퀀스를 먼저 고정 크기 페이지(예: 512 토큰)로 분할합니다.
- 생성 과정에서는 현재 어텐션 윈도우와 겹치는 페이지만 실제로 메모리에 올려서 “지연 매핑(lazy mapping)”을 수행하고, 나머지 페이지는 압축 저장 상태를 유지합니다.
- 이 방법은 OS 수준의 페이지 폴트 처리와 맞춤형 커널을 활용해 활성 작업 집합을 작게 유지합니다.
Integration & Evaluation
- 세 가지 최적화를 하나의 추론 파이프라인에 결합합니다.
- 실험은 서버급 GPU(NVIDIA A100)와 CPU‑전용 베이스라인에서 LLaMa‑13B‑GPTQ 체크포인트를 사용해 수행합니다.
- 정확도는 WikiText‑103, LAMBADA와 같은 표준 언어 모델 벤치마크에서 측정하여 양자화 및 알고리즘 변경이 성능 저하를 일으키지 않음을 확인합니다.

결과 및 발견

지표	기준	LLM‑CoOpt (통합)	Δ
Throughput (tokens / s)	1.00×	1.13×	+13.4 %
End‑to‑end latency (ms / token)	1.00×	0.83×	–16.8 %
KV‑cache memory footprint	100 %	≈50 % (FP8)	–50 %
Accuracy (perplexity / LAMBADA)	Baseline	Within 0.2 % of baseline	No noticeable drop

데이터는 각 개별 최적화가 전체 성능 향상에 기여하지만, 가장 큰 상승은 메모리 트래픽 감소(Opt‑KV)와 FLOP 감소(Opt‑GQA)의 결합에서 비롯됩니다. Opt‑Pa는 4 k 토큰보다 긴 입력에서 뛰어난 성능을 보이며, 이 경우 기준 메모리 사용량이 급증할 수 있습니다.

Practical Implications

Faster SaaS APIs – 클라우드 제공업체는 GPU당 더 많은 요청을 처리할 수 있어 챗봇이나 코드 어시스턴트와 같은 서비스의 토큰당 비용을 낮출 수 있습니다.
Edge & On‑Device Inference – FP8 캐시와 감소된 연산량 덕분에 제한된 메모리 대역폭을 가진 고성능 모바일 또는 임베디드 GPU에서도 13 B 규모 모델을 실행할 수 있습니다.
Long‑Context Applications – 검색 기반 생성, 문서 요약, 코드 분석 등은 종종 8 k 토큰 이상의 윈도우가 필요합니다; Opt‑Pa는 비용이 많이 드는 모델 분할 기법 없이 이러한 작업을 가능하게 합니다.
Simplified Deployment – 최적화가 드롭인 커널 교체(예: 맞춤형 CUDA 커널이나 ONNX Runtime 확장) 형태로 구현되었기 때문에 기존 추론 스택이 최소한의 코드 변경만으로 LLM‑CoOpt을 도입할 수 있습니다.

제한 사항 및 향후 작업

하드웨어 특수성 – 현재 구현은 NVIDIA GPU와 x86 CPU에 최적화되어 있으며, AMD GPU 또는 ARM 기반 가속기에 대한 성능은 아직 테스트되지 않았습니다.
양자화 민감도 – FP8이 LLaMa‑13B‑GPTQ에 잘 작동하지만, 다른 모델군(예: 밀집 학습 모델 또는 지시문 튜닝 변형)에서는 정확도 손실을 방지하기 위해 레이어별 보정이 필요할 수 있습니다.
100 B 초과 확장성 – 저자들은 100 B 파라미터를 초과하는 모델의 경우 추가적인 계층 구조(예: 다중 노드 KV 캐싱)가 필요하다고 언급합니다.
향후 방향 – Opt‑Pa를 동적 페이지 크기를 지원하도록 확장하고, 희소성 인식 어텐션 커널을 통합하며, 컴파일러 수준 최적화를 통해 공동 설계 과정을 자동화하는 것이 유망한 다음 단계로 강조됩니다.

저자

Jie Kong
Wei Wang
Jiehan Zhou
Chen Yu

논문 정보

arXiv ID: 2602.09323v1
분류: cs.DC
출판일: 2026년 2월 10일
PDF: Download PDF

[Paper] LLM-CoOpt: 이기종 플랫폼에서 효율적인 LLM 추론을 위한 공동 설계 및 최적화 프레임워크

Overview

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] OServe: 공간-시간 워크로드 오케스트레이션을 통한 LLM 서빙 가속화

[Paper] Min‑Sum 균일 커버리지 문제 by 자율 모바일 로봇

[Paper] 네트워크 아키텍처에 대한 Global Distributed Protocols의 구현 가능성

[Paper] AMD MI300A에서 FP8 매트릭스 코어, 비동기 실행 및 구조적 희소성에 대한 실행 중심 특성화