[Paper] LLM-CoOpt: 이기종 플랫폼에서 효율적인 LLM 추론을 위한 공동 설계 및 최적화 프레임워크

발행: (2026년 2월 10일 오전 10:31 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.09323v1

Overview

LLM‑CoOpt은 대규모 언어 모델(LLM) 추론에서 지속적으로 발생하는 세 가지 문제점—메모리 대역폭 병목, 중복 연산, 그리고 매우 긴 입력 시퀀스를 처리하기 어려움—을 해결하는 새로운 공동 설계 프레임워크입니다. 알고리즘과 하드웨어 친화적인 데이터 경로를 동시에 재설계함으로써, 저자들은 모델 품질을 희생하지 않으면서 추론 속도를 높이고 메모리 효율성을 개선할 수 있음을 보여줍니다.

핵심 기여

  • Opt‑KV (Key‑Value Cache Optimization) – KV‑cache 읽기/쓰기 파이프라인을 재설계하고 FP8 양자화를 적용해 캐시 크기를 줄이면서 정확도를 유지합니다.
  • Opt‑GQA (Grouped‑Query Attention) – 표준 다중‑헤드 자체‑주의를 그룹‑쿼리 형태로 교체하여 헤드 간에 key/value 프로젝션을 공유함으로써 FLOPs와 메모리 트래픽을 감소시킵니다.
  • Opt‑Pa (Paged Attention) – “세그먼트‑후‑지연‑맵” 두 단계 전략을 도입해 초‑긴 시퀀스를 청크로 나누고 필요한 어텐션 윈도우만 실제로 생성하여 메모리 부담을 크게 낮춥니다.
  • End‑to‑end co‑optimization – 세 가지 기술을 하나의 추론 스택에 통합하고 실제 LLaMa‑13B‑GPTQ 모델에 적용해 검증합니다.
  • Performance gains – 최대 13.4 % 높은 처리량16.8 % 낮은 지연 시간을 달성했으며, 다운스트림 작업 정확도에 미치는 영향은 거의 없습니다.

방법론

  1. Cache Redesign (Opt‑KV)

    • 자동 회귀 생성에 사용되는 중간 활성값을 저장하는 KV 캐시는 전통적으로 FP16/32 형식으로 유지됩니다. LLM‑CoOpt은 이 텐서를 FP8로 압축하여 토큰당 필요한 메모리 대역폭을 절반으로 줄입니다.
    • 사용자 정의 쓰기‑백 버퍼와 프리패치 로직을 통해 캐시 접근 순서를 재배열하여 공간 지역성을 향상시키고, CPU/GPU에서 캐시 미스에 의한 대기 시간을 감소시킵니다.
  2. Grouped‑Query Attention (Opt‑GQA)

    • 헤드당 독립적인 query/key/value 투영을 수행하는 대신, Opt‑GQA는 여러 헤드를 하나의 key/value 행렬을 공유하도록 그룹화하고, query 행렬은 각각 유지합니다.
    • 이를 통해 행렬 곱셈 횟수를 H (헤드 수)에서 G (그룹 수)로 감소시키고, 동일한 key/value 데이터를 여러 헤드가 재사용하도록 하여 SIMD 친화적인 하드웨어에서 특히 효율적입니다.
  3. Paged Attention (Opt‑Pa)

    • 긴 시퀀스를 먼저 고정 크기 페이지(예: 512 토큰)로 분할합니다.
    • 생성 과정에서는 현재 어텐션 윈도우와 겹치는 페이지만 실제로 메모리에 올려서 “지연 매핑(lazy mapping)”을 수행하고, 나머지 페이지는 압축 저장 상태를 유지합니다.
    • 이 방법은 OS 수준의 페이지 폴트 처리와 맞춤형 커널을 활용해 활성 작업 집합을 작게 유지합니다.
  4. Integration & Evaluation

    • 세 가지 최적화를 하나의 추론 파이프라인에 결합합니다.
    • 실험은 서버급 GPU(NVIDIA A100)와 CPU‑전용 베이스라인에서 LLaMa‑13B‑GPTQ 체크포인트를 사용해 수행합니다.
    • 정확도는 WikiText‑103, LAMBADA와 같은 표준 언어 모델 벤치마크에서 측정하여 양자화 및 알고리즘 변경이 성능 저하를 일으키지 않음을 확인합니다.

결과 및 발견

지표기준LLM‑CoOpt (통합)Δ
Throughput (tokens / s)1.00×1.13×+13.4 %
End‑to‑end latency (ms / token)1.00×0.83×–16.8 %
KV‑cache memory footprint100 %≈50 % (FP8)–50 %
Accuracy (perplexity / LAMBADA)BaselineWithin 0.2 % of baselineNo noticeable drop

데이터는 각 개별 최적화가 전체 성능 향상에 기여하지만, 가장 큰 상승은 메모리 트래픽 감소(Opt‑KV)와 FLOP 감소(Opt‑GQA)의 결합에서 비롯됩니다. Opt‑Pa는 4 k 토큰보다 긴 입력에서 뛰어난 성능을 보이며, 이 경우 기준 메모리 사용량이 급증할 수 있습니다.

Practical Implications

  • Faster SaaS APIs – 클라우드 제공업체는 GPU당 더 많은 요청을 처리할 수 있어 챗봇이나 코드 어시스턴트와 같은 서비스의 토큰당 비용을 낮출 수 있습니다.
  • Edge & On‑Device Inference – FP8 캐시와 감소된 연산량 덕분에 제한된 메모리 대역폭을 가진 고성능 모바일 또는 임베디드 GPU에서도 13 B 규모 모델을 실행할 수 있습니다.
  • Long‑Context Applications – 검색 기반 생성, 문서 요약, 코드 분석 등은 종종 8 k 토큰 이상의 윈도우가 필요합니다; Opt‑Pa는 비용이 많이 드는 모델 분할 기법 없이 이러한 작업을 가능하게 합니다.
  • Simplified Deployment – 최적화가 드롭인 커널 교체(예: 맞춤형 CUDA 커널이나 ONNX Runtime 확장) 형태로 구현되었기 때문에 기존 추론 스택이 최소한의 코드 변경만으로 LLM‑CoOpt을 도입할 수 있습니다.

제한 사항 및 향후 작업

  • 하드웨어 특수성 – 현재 구현은 NVIDIA GPU와 x86 CPU에 최적화되어 있으며, AMD GPU 또는 ARM 기반 가속기에 대한 성능은 아직 테스트되지 않았습니다.
  • 양자화 민감도 – FP8이 LLaMa‑13B‑GPTQ에 잘 작동하지만, 다른 모델군(예: 밀집 학습 모델 또는 지시문 튜닝 변형)에서는 정확도 손실을 방지하기 위해 레이어별 보정이 필요할 수 있습니다.
  • 100 B 초과 확장성 – 저자들은 100 B 파라미터를 초과하는 모델의 경우 추가적인 계층 구조(예: 다중 노드 KV 캐싱)가 필요하다고 언급합니다.
  • 향후 방향 – Opt‑Pa를 동적 페이지 크기를 지원하도록 확장하고, 희소성 인식 어텐션 커널을 통합하며, 컴파일러 수준 최적화를 통해 공동 설계 과정을 자동화하는 것이 유망한 다음 단계로 강조됩니다.

저자

  • Jie Kong
  • Wei Wang
  • Jiehan Zhou
  • Chen Yu

논문 정보

  • arXiv ID: 2602.09323v1
  • 분류: cs.DC
  • 출판일: 2026년 2월 10일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »