NVIDIA Vera CPU가 경쟁에 맞서 ‘강력한 타격’을 가하고 있다
Source: NVIDIA AI Blog
에이전트형 AI로의 전환은 AI 팩토리를 위한 새로운 CPU 요구 사항을 만들었습니다: 빠른 코어, 방대한 메모리 대역폭, 그리고 모든 코어가 활성화될 때 높은 성능을 지속할 수 있는 능력.
Phoronix에서 발표한 초기 벤치마크 결과는 NVIDIA Vera CPU가 이러한 요구를 충족한다는 것을 보여줍니다. 이번 첫 공개에서는 현대 데이터 센터에서 Vera가 설계된 에이전트형 워크로드에 초점을 맞춘 벤치마크 범위가 설정되었습니다.
Vera CPU는 코어 성능과 메모리 대역폭을 효율적인 전력 범위 내에서 결합한 CPU 플랫폼을 제공하며, AI 팩토리가 필요로 하는 처리량을 제공하면서 플랫폼 전력을 최적화합니다. 88개의 NVIDIA 맞춤형 Olympus 코어, 1.2 TB/s 메모리 대역폭, 그리고 고속 온칩 패브릭이 결합되어 코어 성능과 메모리 대역폭을 효율적인 전력 엔벨로프 안에서 제공하는 CPU 플랫폼을 구현합니다.
NVIDIA 올림푸스, 공격적인 성능 제공
Vera의 핵심에는 맞춤형 NVIDIA 올림푸스 CPU 코어가 있습니다. Armv9.2 명령어 집합 아키텍처와 완전히 호환되며, 올림푸스는 에이전트 AI를 뒷받침하는 순차적인 CPU 작업을 위해 설계되었습니다: 분기 중심의 런타임, 샌드박스 코드, 데이터 처리 및 오케스트레이션.
Vera의 단일 다이, 넓은 코어, 고급 분기 예측, 그리고 2세대 NVIDIA Scalable Coherency Fabric은 88개의 모든 코어에 걸쳐 데이터 흐름을 유지하는 데 도움을 줍니다.
Phoronix가 단일 소켓 Vera CPU(450 W TDP, 메모리 전력 <30 W) 테스트에서 해당 전력 프로파일 내에서 뛰어난 성능을 보여주었으며, 코드 컴파일, 파일 압축, 비디오 트랜스코딩, Python, Java, 데이터베이스 관리 등 다양한 워크로드에서 세대 간 성능 향상을 기록했습니다. 이러한 CPU 집약적인 작업은 에이전트와 AI 팩토리가 매일 수행하는 작업으로, 코드 컴파일, 런타임 실행, 데이터 압축, 데이터베이스 쿼리, 대규모 소프트웨어 스택 조정 등이 포함됩니다.
“이 작업을 시작할 때, 새로운 올림푸스 코어가 탑재된 NVIDIA Vera에 대해 무엇을 기대해야 할지 잘 몰랐습니다,” 라고 Phoronix 창립자이자 주요 저자인 Michael Larabel가 썼습니다. “하지만 결국 나는 이것이 Intel과 AMD x86_64 프로세서에 대한 가장 강력한 경쟁임을 깨달았습니다.”
Source: …
‘Incredible Advantage’ in Memory Performance
에이전트 워크로드는 코어 수만으로 제한되지 않습니다. 높은 코어 활용도와 지속적인 메모리 대역폭이 필요하므로, 와트당 메모리 성능이 전체 CPU 효율성의 핵심 요소가 됩니다.
Vera는 2세대 LPDDR5X 메모리 서브시스템을 통합하여 DDR5에 비해 비트당 에너지를 크게 낮춥니다. 이를 통해 Vera는 최대 1.2 TB/s의 대역폭을 제공할 수 있으며, 이는 기존 CPU의 피크 메모리 대역폭의 최대 2배에 해당하면서 메모리 전력 소비는 30 W 미만에 머무릅니다(DDR5 기반 시스템은 100 W 이상).
Phoronix STREAM TRIAD 테스트에서 Vera는 피크 메모리 대역폭의 90 %를 지속적으로 유지했으며, Phoronix가 테스트한 모든 CPU 중에서 정격 피크 대역폭 비율이 가장 높았고, 기존 x86 CPU에 비해 코어당 메모리 대역폭이 4배 이상 높았습니다.
“NVIDIA Vera와 그 LPDDR5X 메모리는 현재 Intel Xeon 및 AMD EPYC 프로세서에 비해 메모리 성능에서 놀라운 이점을 보여주고 있습니다,” 라라벨이 기록했습니다.
Prime Intellect의 별도 테스트에서는 Vera가 더 많은 워크로드가 병렬로 실행될수록 높은 대역폭과 낮고 일관된 메모리 레이턴시를 유지함을 확인했습니다—이는 에이전트 AI에 필요한 예측 가능한 성능입니다.
대규모 세대 도약 — 그리고 Phoronix 테스트에서의 리더십
이전 세대 NVIDIA Grace CPU와 비교했을 때, Vera는 Phoronix 테스트에서 기하 평균 1.6배의 성능 향상을 보여 주었습니다 — 인상적인 세대 간 성능 상승입니다.
“Grace에서 Vera로의 차이는 우리가 일반적으로 프로세서에서 기대하는 세대‑대‑세대(gen‑on‑gen) 성능을 꾸준히 초과했습니다,” 라라벨이 적었습니다. “자체 설계한 Olympus 코어를 탑재한 NVIDIA Vera CPU는 다른 ARM 또는 비‑x86_64 프로세서에서는 볼 수 없었던 인텔/AMD x86_64 CPU와 경쟁할 수 있는 강력한 펀치를 제공합니다.”
Vera는 테스트된 CPU 필드에서 선두를 차지했으며, 최신 세대 128코어 x86 프로세서에 비해 전체 성능이 1.5배 우수했습니다. 이 이점은 실제 개발자 워크로드에서도 나타났습니다: 단일 소켓 Vera는 기본 Linux 커널을 단 20초 만에 컴파일했으며, 이는 Phoronix가 해당 테스트에서 측정한 가장 빠른 결과이며, 128코어 프로세서 대비 코어당 Linux 커널 컴파일 속도가 2배 빨랐습니다.
“기하 평균 기준으로, NVIDIA Vera는 AMD EPYC 9575F 5.0 GHz 고주파 프로세서보다 10 % 더 나은 성능을 제공했습니다,” 라라벨이 언급했습니다.
고객 테스트 중인 Vera, 파트너를 통해 곧 출시
NVIDIA GTC에서 회사는 AI 네이티브, 슈퍼컴퓨팅 센터, 클라우드 서비스 제공업체 및 인프라 제공업체에 이르는 광범위한 에코시스템 지원을 발표했습니다.
NVIDIA는 또한 주요 AI 기업 및 클라우드 제공업체에 최초의 Vera CPU를 제공했으며, 이는 Vera가 연말에 파트너를 통한 공급으로 나아가는 중요한 이정표가 됩니다.
Vera는 듀얼 및 싱글 소켓 시스템으로 파트너를 통해 제공되며, 공기 냉각 및 액체 냉각 옵션을 통해 표준 엔터프라이즈 데이터 센터부터 고밀도 에이전트 AI 인프라에 이르는 AI 팩토리 배치를 지원합니다.
Learn more about NVIDIA Vera.