[Paper] TokenPowerBench: LLM 추론의 전력 소비 벤치마킹

발행: (2025년 12월 3일 오전 03:50 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.03024v1

Overview

대형 언어 모델(LLM)은 이제 매일 수십억 건의 질의에 응답하고 있으며, 에너지 사용량의 대부분은 학습이 아닌 추론에서 발생합니다. 이 논문은 TokenPowerBench라는 최초의 오픈‑소스 벤치마크를 소개합니다. 이 벤치마크를 통해 엔지니어는 비싼 하드웨어 미터 없이도 LLM 추론의 전력 소비를 토큰당 줄 단위까지 측정·분석할 수 있습니다.

Key Contributions

  • 선언형 벤치마크 구성 – 모델, 프롬프트 집합, 배치 크기, 양자화, 추론 엔진을 선택할 수 있는 간단한 YAML/JSON 인터페이스.
  • 통합 전력 측정 레이어 – GPU, 노드, 전체 시스템 전력을 소프트웨어에서 접근 가능한 카운터(NVIDIA‑SMI, RAPL 등)만으로 캡처하여 외부 미터가 필요 없게 함.
  • 단계 정렬 메트릭 파이프라인 – 에너지 회계를 prefill(컨텍스트 로딩)과 decode(토큰 생성) 단계로 나누어 “토큰당 줄(Joules per token)” 및 “prefill 토큰당 줄”을 제공.
  • 광범위한 평가 – 1 B에서 405 B 파라미터까지의 Llama, Falcon, Qwen, Mistral 계열 모델에 적용했으며, 다양한 배치 크기, 컨텍스트 길이, 병렬화 전략, 양자화 방식을 포괄.
  • 오픈‑소스 공개 – 전체 벤치마크 스위트, 데이터 수집 스크립트, 분석 노트북을 공개하여 재현 가능한 전력 효율 연구를 촉진.

Methodology

  1. 구성 – 사용자는 모델 체크포인트, 프롬프트 집합(길이 분포 포함), 배치 크기, 추론 백엔드(HuggingFace Transformers, vLLM, TensorRT‑LLM 등)를 지정하는 짧은 선언형 파일을 작성합니다.
  2. 계측 – 실행 중 TokenPowerBench는 전력 읽기 API(NVIDIA‑SMI GPU, Intel‑RAPL CPU, OS‑level 카운터 전체 노드)를 설정 가능한 간격(기본 10 ms)으로 폴링합니다.
  3. 단계 태깅 – 벤치마크는 추론 루프에 가벼운 훅을 삽입해 각 요청의 prefilldecode 단계 시작/종료를 표시합니다.
  4. 에너지 할당 – 수집된 전력 샘플을 시간에 대해 적분한 뒤 활성 단계에 비례하여 할당해 토큰당 에너지 값을 산출합니다.
  5. 분석 – 후처리 스크립트가 실행 결과를 집계·토큰 수로 정규화하고, 배치 크기, 컨텍스트 길이, 양자화(INT8, FP16 등), 병렬화(tensor‑ vs pipeline‑parallel)가 에너지 효율에 미치는 영향을 시각화합니다.

전체 파이프라인은 단일 노드 또는 다중 노드 클러스터에서 실행 가능하며, 표준 시스템 인터페이스만 사용하기 때문에 기존 CI/CD 파이프라인에 쉽게 삽입해 지속적인 전력 효율 모니터링이 가능합니다.

Results & Findings

Model (params)Batch sizeContext lenQuantizationJoules / token (decode)
Llama‑2‑7B1512FP160.12 J
Llama‑2‑7B32512FP160.045 J
Falcon‑40B81024INT80.09 J
Mistral‑7B‑V0.1162048FP160.07 J
Llama‑3‑405B12048BF160.31 J

핵심 요약

  • 배치가 승리한다 – 배치 크기를 1에서 32로 늘리면 GPU 활용도가 급격히 상승해 토큰당 에너지가 약 60 % 감소합니다.
  • 컨텍스트 길이의 영향 – prefill 에너지는 컨텍스트 크기에 거의 선형적으로 증가하지만, 디코딩 비용은 일정합니다.
  • 양자화의 효과 – INT8 양자화는 디코딩 에너지를 약 25 % 절감하면서 많은 워크로드에서 품질 손실이 거의 없습니다.
  • 병렬화 트레이드‑오프 – Tensor‑parallelism은 처리량을 높이지만 전체 노드 전력을 증가시킬 수 있으며, 벤치마크는 순수한 토큰당 줄(Joules‑per‑token) 영향을 정량화합니다.
  • 최첨단 모델은 여전히 비용이 높다 – 405 B Llama‑3 모델은 토큰당 >0.3 J를 소비해, 비용 효율적인 배포를 위해 적극적인 양자화 또는 특수 하드웨어가 필요함을 보여줍니다.

Practical Implications

  • 비용 예측 – 운영자는 TokenPowerBench를 배포 파이프라인에 연결해 전기 요금($/M tokens)을 예측하고 클라우드 제공업체 가격 모델을 비교할 수 있습니다.
  • 지속 가능성 보고 – 토큰당 에너지 수치는 LLM 서비스의 탄소 발자국을 정밀하게 계산하게 해 ESG 준수를 지원합니다.
  • 하드웨어 선택 – 동일 벤치마크를 A100, H100, 일반 소비자용 RTX 등 다양한 GPU에서 실행해 데이터 기반으로 하드웨어 업그레이드 결정을 내릴 수 있습니다.
  • 최적화 루프 – 팀은 새로운 양자화 기법, 커널 라이브러리, 추론 엔진의 영향을 자동으로 테스트해 연구 프로토타입과 프로덕션 수준 효율 사이의 격차를 메울 수 있습니다.
  • 서비스 수준 계약(SLA) – “99 % 요청에 대해 토큰당 ≤ 0.08 J”와 같은 에너지 인식 메트릭을 SLA에 포함해 고객에게 운영 지속 가능성에 대한 투명성을 제공할 수 있습니다.

Limitations & Future Work

  • 하드웨어 의존성 – 현재 전력 읽기 방식은 NVIDIA GPU와 Intel CPU에서 최적이며, AMD 또는 ARM 플랫폼은 추가 어댑터가 필요합니다.
  • 단계 태깅의 세분성 – 매우 짧은 프롬프트(< 10 토큰)는 타이밍 노이즈를 일으켜 토큰당 할당이 불안정해질 수 있습니다.
  • 모델 특화 오버헤드 – 벤치마크는 아직 메모리 컨트롤러 전력이나 대규모 클러스터에서 지배적인 냉각 시스템 변동을 포착하지 못합니다.
  • 향후 방향 – 엣지 디바이스 추론 지원 확대, Habana·Gaudi 등 저전력 가속기와의 통합, 배치 크기·양자화를 실시간으로 조정하는 자동 “에너지 예산” 튜닝 루프 추가 등을 목표로 합니다.

Authors

  • Chenxu Niu
  • Wei Zhang
  • Jie Li
  • Yongjian Zhao
  • Tongyang Wang
  • Xi Wang
  • Yong Chen

Paper Information

  • arXiv ID: 2512.03024v1
  • Categories: cs.LG, cs.AI, cs.CY, cs.DC
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…