새로운 NVIDIA Nemotron 3 Super, Agentic AI를 위해 5배 높은 처리량 제공
I’m happy to translate the article for you, but I’ll need the actual text you’d like translated. Could you please paste the content (or the portion you want translated) here? I’ll keep the source line and all formatting exactly as you specify.
NVIDIA Nemotron 3 Super
오늘 출시된 NVIDIA Nemotron 3 Super는 1,200억 파라미터 규모의 오픈 모델이며 120억 개의 활성 파라미터를 가지고 있습니다. 복잡하고 에이전트 기반 AI 시스템을 대규모로 실행하도록 설계되어, 고급 추론과 높은 정확도의 작업 수행을 자율 에이전트에 제공합니다.
AI‑Native Companies
- Perplexity – 검색용으로 Nemotron 3 Super를 제공하며 Computer에서 20개의 오케스트레이션 모델 중 하나로 사용합니다.
- 소프트웨어 개발 에이전트 –
- CodeRabbit
- Factory
- Greptile
이러한 플랫폼은 Nemotron 3 Super(및 자체 모델)를 통합해 비용을 낮추면서 정확성을 높이고 있습니다.
- 생명과학 및 프론티어 AI – Edison Scientific과 Lila Sciences는 심층 문헌 검색, 데이터 사이언스 워크플로, 분자 이해를 위한 에이전트에 이 모델을 활용할 예정입니다.
Enterprise Software Platforms
Nemotron 3 Super를 배포하고 맞춤화하는 산업 리더는 다음과 같습니다:
- Amdocs – 통신 워크플로 자동화
- Palantir – 데이터 중심 AI 솔루션
- Cadence – 반도체 설계 지원
- Dassault Systèmes – 제품 개발 파이프라인
- Siemens – 제조 및 사이버 보안을 위한 Fuse EDA AI System
이들 플랫폼은 통신, 사이버 보안, 반도체 설계, 제조 등 다양한 분야에서 복잡한 워크플로를 자동화하기 위해 모델을 활용합니다.
멀티‑에이전트 애플리케이션의 도전 과제
컨텍스트 폭증
- 멀티‑에이전트 워크플로는 표준 채팅에 비해 최대 15배 많은 토큰을 생성할 수 있습니다 (각 상호작용이 전체 히스토리, 도구 출력, 중간 추론을 다시 전송함).
- 증가하는 컨텍스트는 비용을 상승시키고, 에이전트가 원래 목표와 정렬을 잃는 목표 드리프트를 초래할 수 있습니다.
사고 비용
- 복잡한 에이전트는 매 단계마다 추론해야 합니다.
- 모든 하위 작업에 대형 모델을 사용하는 것은 멀티‑에이전트 시스템을 비용이 많이 들고 느리게 만듭니다.
Nemotron 3 Super가 이러한 문제를 해결하는 방법
- 1‑백만‑토큰 컨텍스트 윈도우 – 에이전트가 전체 워크플로 상태를 메모리에 유지할 수 있어 컨텍스트 관련 비용을 크게 줄이고 목표 드리프트를 방지합니다.
- 효율성 및 개방성 – Artificial Analysis에서 효율성과 개방성 부문 1위, 동등한 규모 모델 중 최고 수준의 정확도를 기록했습니다.
벤치마크 성능
- NVIDIA AI‑Q 연구 에이전트를 구동하며, No. 1 자리를 차지하고 있습니다:
이 벤치마크는 대규모 문서 집합에서 일관된 추론을 유지하면서 철저하고 다단계 연구를 수행하는 AI 시스템의 능력을 평가합니다.
Nemotron 3 Super는 확장 가능하고 고성능의 다중 에이전트 AI에 대한 새로운 기준을 제시합니다.
하이브리드 아키텍처
Nemotron 3 Super은 하이브리드 mixture‑of‑experts (MoE) 설계를 사용하여 세 가지 핵심 혁신을 결합하고, 이전 Nemotron Super 모델에 비해 처리량을 최대 5배, 정확도를 2배 향상시킵니다.
| 혁신 | 기능 | 이점 |
|---|---|---|
| Hybrid Architecture | Mamba layers(메모리 및 연산 효율)와 Transformer layers(고급 추론)를 결합 | 메모리·연산 효율 4배 향상 |
| MoE | 추론 시 전체 120 B 파라미터 중 12 B만 활성화 | 모델 용량을 유지하면서 연산 비용 감소 |
| Latent MoE | 다음 토큰을 생성할 때 단일 전문가 비용으로 네 명의 전문가를 활성화 | 추가 지연 없이 정확도 향상 |
| Multi‑Token Prediction | 여러 미래 토큰을 병렬로 예측 | 추론 속도 3배 향상 |
NVIDIA Blackwell Platform
- NVFP4 정밀도로 실행 – 메모리 사용량을 줄이고 NVIDIA Hopper의 FP8 대비 최대 4배 빠른 추론을 제공하며, 정확도 손실이 없습니다.
Open Weights, Data, and Recipes
NVIDIA는 허가가 관대한 라이선스 하에 Nemotron 3 Super의 오픈 가중치를 공개합니다. 개발자는 워크스테이션, 데이터 센터 또는 클라우드에서 이를 배포하고 맞춤화할 수 있습니다.
Training Data and Methodology
- 최첨단 추론 모델을 사용해 생성한 합성 데이터로 학습되었습니다.
- NVIDIA는 전체 방법론을 공개합니다. 여기에는 다음이 포함됩니다:
- 10 + 조 토큰의 사전‑학습 및 사후‑학습 데이터셋.
- 강화 학습을 위한 15개의 학습 환경.
- 평가 레시피.
Getting Started
연구자들은 NVIDIA NeMo 플랫폼을 사용하여:
- 모델을 파인‑튜닝할 수 있습니다.
- 자체 모델 및 파이프라인을 구축할 수 있습니다.
에이전트 시스템에서의 활용
- Software development – 에이전트는 전체 코드베이스를 한 번에 컨텍스트에 로드할 수 있어, 문서를 분할할 필요 없이 엔드‑투‑엔드 코드 생성 및 디버깅이 가능합니다.
- Financial analysis – 모델은 수천 페이지에 달하는 보고서를 단일 컨텍스트에 입력할 수 있어, 긴 대화에서 재추론할 필요가 없어지고 효율성이 크게 향상됩니다.
- High‑stakes tool calling – Nemotron 3 Super의 높은 정확도를 갖춘 툴 호출은 자율 에이전트가 방대한 함수 라이브러리를 신뢰성 있게 탐색하도록 하여, 사이버 보안을 위한 자율 보안 오케스트레이션과 같은 중요한 환경에서 실행 오류를 방지합니다.
가용성
NVIDIA Nemotron 3 Super는 Nemotron 3 패밀리의 일부로, 다음을 통해 접근할 수 있습니다:
- NVIDIA 플랫폼 – build.nvidia.com, Perplexity, OpenRouter 및 Hugging Face.
- 엔터프라이즈 통합 – Dell Technologies는 Dell Enterprise Hub on Hugging Face에 모델을 제공하고 있으며(온‑프레미스 배포를 위해 Dell AI Factory에 최적화됨), HPE도 에이전트 허브에 NVIDIA Nemotron을 추가하여 에이전트 AI의 확장 가능한 엔터프라이즈 채택을 지원합니다.
클라우드 서비스 제공업체
- Google Cloud Vertex AI
- Oracle Cloud Infrastructure
- Amazon Web Services (곧 Amazon Bedrock을 통해 제공)
- Microsoft Azure
NVIDIA 클라우드 파트너
- CoreWeave
- Crusoe
- Nebius
- Together AI
추론 서비스 제공업체
데이터 플랫폼 및 서비스
- Distyl
- Dataiku
- DataRobot
- Deloitte
- EY
- Tata Consultancy Services
이 모델은 NVIDIA NIM 마이크로서비스로 패키징되어 온‑프레미스 시스템에서 클라우드까지 배포가 가능합니다.
최신 정보 유지
셀프 페이스 비디오 튜토리얼 및 라이브스트림을 NVIDIA AI YouTube 재생목록에서 확인하세요.