[Paper] AI 엔진용 과학 컴퓨팅 워크로드를 컴파일할 때 텐서로 승격

발행: 6일 전 (2026년 5월 5일 PM 06:40 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2605.03566v1

번역할 텍스트를 제공해 주시면, 요청하신 대로 한국어로 번역해 드리겠습니다.

Overview

이 논문은 일반적인 OpenMP‑주석이 달린 루프를 자동으로 고‑수준 텐서 표현으로 변환하는 새로운 컴파일 흐름을 제시하며, 이를 통해 AMD의 AI Engines (AIEs)에서 효율적으로 실행될 수 있게 합니다. 이를 통해 과학‑컴퓨팅 커널을 소스 코드 변경을 거의 또는 전혀 하지 않고 AIE‑기반 NPU로 오프로드할 수 있으며, 멀티코어 CPU와 비교할 만한 성능을 제공하면서 에너지 소비를 절감합니다.

주요 기여

Tensor‑lifting 컴파일러 프론트‑엔드 – 루프 네스트(OpenMP 프라그마 포함)를 중간 텐서 IR로 변환하여 수동 리팩터링 없이 데이터‑병렬 의도를 포착합니다.
AIE‑인식 매핑 패스 – 풍부한 텐서 메타데이터를 활용해 작업을 공간‑병렬 AIE 어레이에 스케줄링하고, 데이터 이동, 타일링, 벡터화를 자동으로 처리합니다.
프로그래머 노력 최소화 – OpenMP #pragma(예: #pragma omp parallel for)만 있으면 되며, 나머지 변환은 컴파일러 파이프라인이 수행합니다.
실증 평가 – AI와 과학 분야의 대표적인 6개 커널을 통해 AIE‑가속 NPU가 FP32에서 CPU 성능과 동등하거나 뛰어나면서도 10‑30 % 적은 에너지를 사용함을 보여줍니다.
이기종 CPU‑NPU 시너지 – 두 개의 과학 커널에 대해 CPU + NPU 결합 실행이 CPU‑전용 실행 대비 최대 40 % 속도 향상 및 15 % 에너지 감소를 달성합니다.

방법론

Front‑end parsing – 컴파일러는 표준 C/C++ 코드를 파싱하고 OpenMP parallel for(또는 유사) 지시문으로 표시된 루프를 추출합니다.
Tensor lifting – 루프 반복 공간과 배열 접근을 다차원 텐서로 추상화합니다. 이 단계에서는 스트라이드, 형태(shape), 접근 패턴을 기록하여 명령형 루프를 선언형 텐서 연산으로 변환합니다.
Optimization & tiling – 텐서 IR을 데이터 재사용 관점에서 분석하고, 컴파일러는 AIE의 SIMD 레인 및 온칩 메모리 계층에 맞게 타일링, 루프‑퓨전, 벡터‑폭 결정을 삽입합니다.
AIE code generation – 최적화된 텐서 설명을 AIE 어셈블리(또는 Vitis‑호환 커널)로 낮춥니다. 도구는 AIE 실행 모델에 필요한 DMA 전송, 더블‑버퍼링, 동기화 프리미티브를 자동으로 삽입합니다.
Runtime orchestration – 경량 런타임이 문제 크기와 자원 가용성을 기반으로 커널을 CPU, NPU 또는 두 곳에서 모두 실행할지 결정합니다.

전체 파이프라인은 기존 LLVM/Clang 도구 위에 구축되므로, 개발자는 익숙한 컴파일러와 빌드 시스템을 계속 사용할 수 있습니다.

결과 및 발견

커널	CPU (FP32)	AIE NPU (FP32)	속도 향상 (CPU vs NPU)	에너지 감소
컨볼루션 (AI)	1.0×	0.95×	~5 % 빠름	~20 % 감소
스텐실 (Sci)	1.0×	1.02×	~2 % 빠름	~15 % 감소
행렬 곱셈	1.0×	0.98×	~2 % 빠름	~25 % 감소
… (추가 3개)	…	…	…	…

핵심 요점

6개의 벤치마크 모두에서 NPU가 CPU와 동등하거나 약간 더 높은 처리량을 보였습니다.
에너지‑투‑솔루션은 AIE에서 일관되게 낮았으며, FP32 작업에 대한 효율성 이점을 확인했습니다.
CPU와 NPU를 두 개의 대형 과학 커널에서 함께 사용할 경우, 결합 실행으로 실행 시간이 최대 40 % 단축되고 에너지는 15 % 절감되었습니다.

Practical Implications

Zero‑cost 포팅 – 개발자는 단일 코드 베이스를 유지할 수 있으며, OpenMP 프라그마를 추가하는 것만으로 AIE 가속을 활용할 수 있다.
엣지 및 임베디드 AI – 이미 AMD CPU를 탑재한 장치(예: 산업용 컨트롤러, 자율 드론)는 이제 컴퓨팅이 무거운 과학 또는 AI 커널을 로컬에서 실행할 수 있어, 클라우드로의 지연 시간 및 대역폭을 감소시킨다.
에너지 제한 워크로드 – 입증된 에너지 절감 효과로 인해 AIE는 배터리 구동 또는 열 제한이 있는 플랫폼에 매력적이다.
이기종 스케줄링 – 런타임이 CPU와 NPU 간에 작업을 분할할 수 있는 능력은 혼합 정밀도 파이프라인에서 부하 균형을 위한 새로운 기회를 제공한다(예: CPU에서 전처리, AIE에서 무거운 텐서 연산).
툴체인 통합 – 이 접근 방식이 LLVM 및 OpenMP 위에 구축되었기 때문에 기존 CI/CD 파이프라인과 프로파일링 도구를 재사용할 수 있어 DevOps 팀의 도입 장벽을 낮춘다.

제한 사항 및 향후 작업

정밀도 범위 – 이 연구는 FP32에 초점을 맞추고 있으며, FP16, BF16 또는 정수 양자화(딥러닝에서 일반적) 지원은 아직 평가되지 않았습니다.
메모리 제한 커널 – 불규칙한 메모리 접근 패턴을 가진 벤치마크에서는 이점이 적게 나타났으며, 이는 현재 타일링 휴리스틱이 대역폭 제한 상황에 대해 개선이 필요함을 의미합니다.
더 큰 AIE 배열에 대한 확장성 – 실험은 단일 NPU를 사용했으며, 컴파일러를 시스템‑온‑칩 전반에 걸쳐 여러 AIE 클러스터를 조정하도록 확장하는 것은 아직 해결되지 않은 과제입니다.
디버깅 및 프로파일링 – 파이프라인이 코드 생성을 자동화하지만, 개발자는 현재 텐서 수준 변환에 대한 세밀한 가시성이 부족합니다. 향후 작업에서는 AIE‑전용 프로파일링 훅을 통합할 예정입니다.

전반적으로, 이 논문은 루프를 텐서 추상화로 “올리는” 것이 최소한의 개발자 노력으로 레거시 과학 코드를 최신 AI‑엔진 하드웨어에 적용하는 실용적인 경로임을 보여줍니다.

저자

Nick Brown
Gabriel Rodriguez-Canal

논문 정보

arXiv ID: 2605.03566v1
분류: cs.DC
출판일: 2026년 5월 5일
PDF: PDF 다운로드

[Paper] AI 엔진용 과학 컴퓨팅 워크로드를 컴파일할 때 텐서로 승격

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Cerebras 웨이퍼 스케일 엔진에서의 스텐실 연산

[Paper] Tenstorrent Wormhole에서 스텐실 연산

[Paper] HexiSeq: 이기종 하드웨어에서 LLM의 긴 컨텍스트 훈련 수용

[Paper] RcLLM: Beyond-Prefix KV Caching을 통한 생성형 추천 가속화