[논문] CARM 툴: 캐시 인식 루프라인 모델 자동 벤치마킹 및 애플리케이션 분석

발행: 1주 전 (2026년 5월 28일 PM 07:35 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2605.29740v1

개요

이 논문은 CARM Tool이라는 오픈소스 프레임워크를 소개한다. 이 도구는 x86(Intel & AMD), ARM, RISC‑V 등 주요 CPU 아키텍처에 대해 자동으로 Cache‑aware Roofline Models(CARM)을 구축한다. 포괄적인 마이크로벤치마크 모음과 런타임 계측을 결합해, 개발자에게 수동적인 아키텍처‑특정 작업 없이 바로 사용할 수 있는 성능 상한 및 병목 분석을 제공한다.

핵심 기여

크로스‑아키텍처 마이크로벤치마크 스위트 – 스칼라, SIMD(SSE/AVX/NEON/Vector‑Extension) 및 메모리 계층의 모든 레벨을 포괄한다.
완전 자동 CARM 구축 – 피크 연산 처리량과 메모리 대역폭을 실시간으로 측정해, 벤더가 발표한 최대값 대비 < 1 % 오차로 모델 루프를 생성한다.
통합 애플리케이션 프로파일링 – 하드웨어 성능 카운터와 동적 바이너리 계측(DBI)을 활용해 실행 중인 프로그램의 연산 강도를 자동으로 루프라인에 매핑한다.
오픈소스 구현 – Linux에서 x86, ARM, RISC‑V를 지원하며, 벤더 전용 솔루션(예: Intel Advisor) 및 AMD/ARM/RISC‑V에 해당하는 도구가 부족한 상황을 메운다.
다양한 CPU에 대한 검증 – Intel Xeon, AMD EPYC, ARM Neoverse, RISC‑V SiFive 등 여러 CPU에서 일관된 정확도와 낮은 오버헤드를 입증한다.

방법론

마이크로벤치마크 생성 – 저자들은 각 연산 유닛(스칼라 ALU, 벡터 유닛, FMA 등)과 메모리 레벨(L1, L2, L3, DRAM)을 활용하는 작은 어셈블리 커널 집합을 작성했다. 커널은 피연산자 수, 벡터 폭, 스트

[논문] CARM 툴: 캐시 인식 루프라인 모델 자동 벤치마킹 및 애플리케이션 분석

개요

핵심 기여

방법론

관련 글

[논문] 충돌 없는 복제 데이터 타입을 위한 Datalog 프레임워크

[논문] 라디오 네트워크에서 에너지 효율적 집계와 최소 차수 신장 트리

[논문] 산업 4.0 다중 속도 주기 제어를 위한 무선 센서‑액추에이터 네트워크 스케줄링 메커니즘

[논문] 가상 프로세서가 공짜 점심을 되돌리다

개요

핵심 기여

방법론

관련 글

[논문] 충돌 없는 복제 데이터 타입을 위한 Datalog 프레임워크

[논문] 라디오 네트워크에서 에너지 효율적 집계와 최소 차수 신장 트리

[논문] 산업 4.0 다중 속도 주기 제어를 위한 무선 센서‑액추에이터 네트워크 스케줄링 메커니즘

[논문] 가상 프로세서가 공짜 점심을 되돌리다

[논문] 산업 4.0 다중 속도 주기 제어를 위한 무선 센서‑액추에이터 네트워크 스케줄링 메커니즘