엔비디아 최고의 모델, 이제 라이브.

발행: 6일 전 (2026년 6월 5일 AM 01:12 GMT+9)

5 분 소요

출처: The New Stack

컴퓨텍스에서 5500억 파라미터 오픈‑웨이트 mixture‑of‑experts 모델인 Nemotron 3 Ultra를 사전 발표한 뒤, 엔비디아는 목요일에 해당 모델을 Hugging Face, ModelScope, OpenRouter (무료 엔드포인트 제공) 및 build.nvidia.com 등 여러 플랫폼에 공개했습니다.

새 모델은 Nemotron 3 패밀리의 다른 모델들과 동일한 latent mixture‑of‑experts 기법과 Mamba 2 아키텍처를 사용해 활성 파라미터 수를 550억에서 55억으로 줄였습니다. 최대 100만 토큰까지 지원하는 컨텍스트 윈도우도 제공합니다.

엔비디아에 따르면, 이 모델은 계획을 세우고 도구를 호출하며 복잡한 작업을 반복 수행해야 하는 장기 실행 에이전트를 구동하도록 튜닝되었습니다. 이를 위해 모델은 단순히 똑똑하기만 한 것이 아니라 충분히 빠르게 동작해야 합니다. 실제로 엔비디아는 이번 출시에서 속도에 중점을 두고 있으며, 이전 세대 모델보다 현저히 빠르다고 강조했습니다.

현재 토큰 비용에 대한 우려가 커지는 상황에서, 엔비디아가 주장하는 또 다른 장점은 동일 수준의 성능을 가진 다른 모델에 비해 최대 30%까지 비용을 절감할 수 있다는 점입니다.

출처: Nvidia

직접적인 경쟁 모델인 Kimi‑K2.6, Qwen‑3.5, GML‑5.1 등보다 빠른 모델이며, 현재까지 미국에서 공개된 오픈‑웨이트 모델 중 가장 우수하지만, 대부분의 벤치마크에서는 여전히 이들 중국 모델에 몇 포인트 뒤처집니다.

엔비디아는 이를 ‘프론티어 모델’이라고 부르지만, 벤치마크 결과는 그 이야기를 완전히 뒷받침하지는 못합니다. 실제 경제적 가치를 가진 작업을 평가하는 GDPVal 테스트에서, Nemotron 3 Ultra—엔비디아의 새로운 양자화 인식 사전학습 기법을 적용한 NVFP4 변형—는 47.9%의 점수를 기록했습니다. 반면 OpenAI의 GPT‑5.5는 84.9%를 기록했습니다.

출처: Nvidia

하지만 벤치마크가 모델의 모든 강점을 포착하는 것은 아니며, 엔비디아는 이 모델이 “장기 코딩 세션에서의 아키텍처 결정, 수백 개의 연구 소스를 아우르는 종합, 수천 개의 상호 의존 제약조건 검증 등 자율 워크플로우에서 가장 어려운 추론 작업을 조율할 수 있다”고 강조했습니다.

출처: Nvidia

이 모델은 14.8조 토큰 규모의 선별된 데이터셋으로 학습되었으며, 12개 언어(영어, 프랑스어, 스페인어, 이탈리아어, 독일어, 일본어, 한국어, 힌디어, 브라질 포르투갈어, 중국어)와 43개의 프로그래밍 언어를 지원합니다.

엔비디아는 가중치, 데이터셋, 학습 레시피를 공개하고 있습니다. 모델은 OpenMDW‑1.1 라이선스 하에 제공됩니다.

YOUTUBE.COM/THENEWSTACK
기술은 빠르게 변합니다. 에피소드를 놓치지 마세요. 우리의 YouTube 채널을 구독하면 모든 팟캐스트, 인터뷰, 데모 등을 스트리밍할 수 있습니다.

SUBSCRIBE

Group
Created with Sketch.

엔비디아 최고의 모델, 이제 라이브.

관련 글

AI가 만든 메모리 부족을 해결하는 방법

클로드 코드, 사상 최대 업그레이드로 5개 에이전트를 동시에 실행 — 그 결과는?

“위험한 조합”: AI 에이전트 워크플로를 ‘오염’시킬 두 요인

“위험한 조합”: AI 에이전트 워크플로를 ‘오염시킬’ 수 있는 두 요인

TRENDING STORIES

관련 글

AI가 만든 메모리 부족을 해결하는 방법

클로드 코드, 사상 최대 업그레이드로 5개 에이전트를 동시에 실행 — 그 결과는?

“위험한 조합”: AI 에이전트 워크플로를 ‘오염’시킬 두 요인

“위험한 조합”: AI 에이전트 워크플로를 ‘오염시킬’ 수 있는 두 요인