NeurIPS에서 NVIDIA가 디지털 및 물리 AI를 위한 오픈 모델 개발을 진전시킨다
Source: NVIDIA AI Blog
전 세계 연구자들은 오픈 소스 기술을 작업의 기반으로 활용합니다. 디지털 및 물리 AI 분야의 최신 발전을 커뮤니티에 제공하기 위해 NVIDIA는 오픈 AI 모델, 데이터셋, 도구 컬렉션을 더욱 확장하고 있습니다 — 이는 사실상 모든 연구 분야에 적용될 수 있습니다.
NeurIPS와 같은 세계 최고의 AI 컨퍼런스에서 NVIDIA는 자율 주행을 위한 세계 최초 산업 규모 오픈 추론 비전‑언어‑액션(VLA) 모델인 Alpamayo‑R1을 포함한 오픈 물리 AI 모델 및 도구를 공개합니다. 디지털 AI 분야에서는 음성 및 AI 안전을 위한 새로운 모델과 데이터셋을 출시합니다.
NVIDIA 연구원들은 컨퍼런스에서 70편 이상의 논문, 발표, 워크숍을 진행하며 AI 추론, 의료 연구, 자율 주행 차량(AV) 개발 등 다양한 혁신 프로젝트를 공유합니다.
이러한 이니셔티브는 NVIDIA의 오픈 소스에 대한 약속을 더욱 깊게 하며, AI를 벤치마킹하는 독립 기관인 Artificial Analysis의 새로운 Openness Index에서도 인정받았습니다. Artificial Analysis Open Index는 모델 라이선스 허용성, 데이터 투명성, 기술 세부 사항 제공 여부를 기준으로 NVIDIA Nemotron(https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/) 계열 오픈 기술을 AI 생태계에서 가장 개방적인 기술 중 하나로 평가합니다.

NVIDIA DRIVE Alpamayo‑R1, 자율 주행을 위한 새로운 연구 영역을 열다
NVIDIA DRIVE Alpamayo‑R1 (AR1)은 AV 연구를 위한 세계 최초 오픈 추론 VLA 모델(https://www.nvidia.com/en-us/glossary/reasoning-vision-language-action/)로, 체인‑오브‑쓰스(Chain‑of‑Thought) AI 추론(https://www.nvidia.com/en-us/glossary/ai-reasoning/)을 경로 계획과 결합합니다. 이는 복잡한 도로 상황에서 AV 안전성을 향상하고 레벨 4 자율주행(https://blogs.nvidia.com/blog/level-4-autonomous-driving-ai/)을 가능하게 하는 핵심 요소입니다.
이전 자율 주행 모델들은 보행자가 많은 교차로, 다가오는 차선 폐쇄, 자전거 도로에 이중 주차된 차량 등 미묘한 상황을 처리하는 데 어려움을 겪었습니다. 추론 기능은 차량에게 인간과 같은 상식적인 판단을 제공하여 이러한 상황을 더 자연스럽게 대처하게 합니다.
AR1은 시나리오를 단계별로 분해하고 각 단계마다 추론함으로써 이를 구현합니다. 가능한 모든 궤적을 고려한 뒤, 상황에 맞는 데이터를 활용해 최적의 경로를 선택합니다.
예시: 체인‑오브‑쓰스 추론을 활용한 AR1은 보행자가 많이 다니는 지역에서 자전거 도로와 인접한 AV가 자신의 경로 데이터를 받아들이고, 왜 특정 행동을 취했는지에 대한 추론 트레이스(설명)를 포함시켜, 자전거 도로에서 멀어지거나 잠재적인 무단횡단자를 위해 정차하는 등 미래 궤적을 계획할 수 있게 합니다.
document.createElement('video');
AR1의 오픈 기반은 NVIDIA Cosmos Reason를 토대로 하며, 연구자들이 비상업적 용도(벤치마킹 또는 실험적 AV 애플리케이션 구축 등)로 모델을 자유롭게 커스터마이징할 수 있게 합니다.
사후 학습 단계에서 강화 학습(https://www.nvidia.com/en-us/glossary/reinforcement-learning/)은 특히 효과적이었으며, 연구진은 사전 학습된 모델에 비해 AR1의 추론 능력이 크게 향상된 것을 확인했습니다.
NVIDIA DRIVE Alpamayo‑R1은 GitHub와 Hugging Face에서 제공될 예정이며, 모델 학습 및 평가에 사용된 데이터의 일부는 NVIDIA Physical AI Open Datasets에서 확인할 수 있습니다. 또한 NVIDIA는 AR1을 평가하기 위한 오픈‑소스 AlpaSim 프레임워크(https://github.com/NVlabs/alpasim)를 공개했습니다.
자율 주행을 위한 추론 VLA 모델에 대해 더 알아보기.
NVIDIA Cosmos를 모든 물리 AI 사용 사례에 맞게 커스터마이징하기
개발자는 이제 Cosmos Cookbook에서 단계별 레시피, 빠른 시작 추론 예제, 고급 사후 학습 워크플로우 등을 통해 Cosmos 기반 모델을 사용하고 사후 학습하는 방법을 배울 수 있습니다. 이 가이드는 데이터 큐레이션, 합성 데이터 생성(https://www.nvidia.com/en-us/use-cases/synthetic-data/) 및 모델 평가 등 물리 AI 개발 전 과정을 포괄합니다.
Cosmos 기반 애플리케이션 예시
- LidarGen – AV 시뮬레이션을 위한 라이다 데이터를 생성할 수 있는 최초의 월드 모델.
- Omniverse NuRec Fixer – NVIDIA Cosmos(https://www.nvidia.com/en-us/ai/cosmos/) Predict를 활용해 신경 재구성 데이터의 블러, 구멍, 노이즈 등 아티팩트를 거의 실시간으로 수정하는 AV 및 로봇 시뮬레이션 모델.
- Cosmos Policy – 대규모 사전 학습 비디오 모델을 견고한 로봇 정책(로봇 행동을 정의하는 규칙 집합)으로 전환하는 프레임워크.
- ProtoMotions3 – NVIDIA Newton과 Isaac Lab 위에 구축된 오픈‑소스 GPU 가속 프레임워크로, Cosmos 월드 기반 모델(WFMs)로 생성된 현실적인 씬에서 물리 시뮬레이션된 디지털 휴먼 및 인간형 로봇을 학습시킵니다.
LidarGen 모델(코스모스 기반)의 샘플 출력. 상단 행은 입력 데이터이며, 하단 행은 생성된 라이다 데이터