[논문] AutoMegaKernel: 자체 재타깃 메가커널 합성을 위한 정적 검증 에이전트

발행: (2026년 6월 9일 AM 01:02 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.09682v1

개요

AutoMegaKernel (AMK)은 HuggingFace Llama 계열 모델을 하나의 지속적인 협동 CUDA 커널로 컴파일하여, 한 번의 런치만으로 전체 순전파를 실행합니다. 모델별로 손으로 작성한 CUDA 코드는 전혀 필요하지 않습니다. 여기서 강조하는 것은 시스템 자체이며, 단순한 속도 향상이 아닙니다. 고정된 스케줄‑IR 검증기는 정적 그래프 검사를 통해 교착 상태와 레이스 조건이 없음을 정적으로 인증합니다(기계적 증명이 아니라). 따라서 안전하지 않은 에이전트가 제안한 스케줄은 실행 전 단계에서 거부됩니다. 7,160개의 적대적 스케줄(안전하지 않은 경우 6,091개) 중에서 오탐은 전혀 없었으며, 실제 360개의 낮은 수준 변환 모두를 받아들였습니다. 동일한 소스 코드는 하나의 코드베이스에서 sm_80, sm_90, sm_120을 모두 타깃으로 재컴파일할 수 있으며, 지원되는 10개 모델 전부에 대해 올바른 메가커널를 자동 생성합니다. 실제 SmolLM2‑135M 체크포인트에 대해서는 HuggingFace의 탐욕적 디코딩을 토큰 단위로 정확히 재현했으며(퍼플렉시티 차이 2.5e‑7), 무인 자동 연구 루프가 에이전트에 의해 구동되어 메가커널을 자체 기준 대비 1.25‑1.72배 향상시켰습니다. 탐색을 통해 발견된 int8 (W8A16) 메가커널은 NVIDIA 데이터센터 추론 군집 전반에 걸쳐 배치‑1 디코딩에서 CUDA‑graph 기반 cuBLAS bf16을 능가합니다: L4에서는 최대 1.33배, 최신 세대 L40S에서는 1.25‑1.27배, A10G에서는 규모에 따라 최대 1.08배, 소비자용 RTX 5090에서는 1.19‑1.23배 향상되었습니다. 성능 순서는 단순히 대역폭에 비례하지 않으며(864 GB/s L40S가 600 GB/s A10G를 앞섬), 추론‑클래스와 학습‑클래스의 구분에 따라 달라집니다. 고대역폭 학습‑클래스인 A100/H100에서는 AMK가 cuBLAS보다 뒤처지며, 이는 하네스가 SM 간 동기화 병목을 국소화하기 때문임을 명시적으로 보고합니다. 이번 비교는 디코드 위치 0에서의 정밀도 비대칭(W8A16 vs bf16) 비교이며, 가장 큰 실제 체크포인트는 TinyLlama‑1.1B입니다. 코드와 하네스는 다음에서 확인할 수 있습니다: https://github.com/RightNow-AI/AutoMegaKernel

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.LG
  • cs.DC
  • cs.PF

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

  • Jaber Jaber
  • Osama Jaber

논문 정보

  • arXiv ID: 2606.09682v1
  • 분류: cs.LG, cs.DC, cs.PF
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »