[논문] 최적화된 C++를 CUDA로 포팅하는 LLM 기반 비최적화·재최적화 기법
개요
고성능 컴퓨팅(HPC) 코드를 CPU에서 GPU로 포팅할 때, CPU 중심의 최적화가 LLM 기반 CUDA 변환을 방해할 수 있습니다. 우리는 입력 C++ 코드를 먼저 단순화한 뒤 CUDA용으로 재번역·재최적화하는 Deopt‑Reopt 워크플로우를 설계·평가했습니다. 이를 직접 번역(Direct) 방식과 비교했으며, 12개의 HPC 커널에 두 개의 LLM(gpt‑oss‑120b(O120)와 qwen‑3‑235b‑a22b‑instruct‑2507(Q235))을 사용해 단일 시도(Single‑shot, 한 번 실행)와 반복적(Iterative, 여러 차례 정제) 설정을 실험했습니다.
Single‑shot에서는 테스트 가능한 18건 중 성공적인 시도에서 BH‑FDR 보정 후 Deopt‑Reopt가 유의하게 더 빠른 경우가 5건이었으며, 특히 CPU와 GPU 설계가 크게 달라지는 conv2d에서 가장 뚜렷한 차이를 보였습니다. 반면 Direct가 더 빠른 경우가 3건 있었으므로, CPU‑특화 최적화를 제거하는 것이 항상 유리한 것은 아닙니다. LLM 호출 횟수를 동일하게 맞춘 탐색적 Direct‑3 제어 실험에서는 테스트 가능한 19건 중 Deopt‑Reopt가 앞선 경우가 4건에 불과했으며, Direct‑3가 앞선 경우도 4건이었습니다.
Iterative에서는 반복적인 생성·수정 과정을 통해 격차가 좁혀졌으며, 특히 O120 모델에서 그 효과가 크게 나타났습니다. 반면 Q235는 conv2d, ddgemm, bgemm에서 여전히 Deopt‑Reopt가 큰 이점을 유지했습니다. Deopt‑Reopt가 실현 가능성에 미치는 영향도 혼재했으며, 일부 커널에서는 Direct가 거의 컴파일되지 않는 반면, 다른 커널에서는 오히려 낮은 성공률을 보였습니다. 성능 향상은 성공적인 시도에 한정되므로, 전반적인 엔드‑투‑엔드 이득이 보장되는 것은 아닙니다.
전체적으로 Deopt‑Reopt는 LLM 기반 GPU 포팅에 효과적인 기술이지만 보편적인 해결책은 아니며, 이득은 커널 종류, 모델, 탐색 예산, 성공률 등에 따라 달라집니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다.
- cs.DC
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.DC 분야의 발전에 기여합니다.
저자
- 다이치 무쿠노키
- 료 미카사
- 슈니치로 하야시
- 테츠야 호시노
- 타카히로 카타기리
논문 정보
- arXiv ID: 2606.06063v1
- 분류: cs.DC
- 발표일: 2026년 6월 4일
- PDF: PDF 다운로드