Decart 신월드 모델, 일부 제약에도 포토리얼리즘 운전을 수시간 시뮬레이션 가능.

발행: (2026년 6월 10일 PM 10:07 GMT+9)
12 분 소요
원문: TechCrunch

출처: TechCrunch

AI 스타트업 Decart가 수요일에 Oasis 3를 공개했습니다. 이는 실시간으로 포토리얼리스틱한 운전 환경을 생성할 수 있는 최신 인터랙티브 월드 모델이며, TechCrunch가 독점적으로 입수했습니다. 현재 이 모델은 API를 통해 제공됩니다.

스타트업은 초기 고객으로 대규모로 희귀 운전 시나리오를 시뮬레이션해야 하는 자율주행 차량 기업을 목표로 하고 있으며, 로봇공학 및 기타 물리 AI 응용 분야로도 확장할 계획입니다. 하지만 더 큰 베팅은 개발자들에 있습니다. 출시 첫날부터 API 접근을 제공함으로써 Decart는 언어 모델에서 OpenAI가 했던 것처럼 월드 모델을 중심으로 한 개발자 생태계를 구축하려 하고 있습니다.

“사람들이 실제로 위에 코딩할 수 있는 최초의 실용적인 월드 모델이 될 겁니다,” 라고 Decart 공동 창업자이자 CEO인 Dean Leitersdorf가 TechCrunch에 말했습니다. “이 위에 전체 개발자 커뮤니티가 형성될 것이라고 생각합니다.”

Decart는 이미 10만 명이 넘는 개발자 커뮤니티를 보유하고 있으며, 이들 대부분은 실시간 비디오 모델인 Lucy를 기반으로 전자상거래와 라이브 스트리밍 분야에서 제품을 만들고 있습니다. Oasis 3는 그 기반 모델을 토대로 하며, 회사가 물리 AI 분야로 진출한다는 신호이기도 합니다. 접근 비용은 초당 $0.02이며, 엔터프라이즈 가격은 사용 사례에 따라 달라진다고 Decart는 밝혔습니다.

Decart는 점점 더 붐비는 월드 모델 시장에서 경쟁하고 있습니다. 지난해 Google은 연구 프리뷰 형태로 Genie 3를 출시했고, Fei‑Fei Li의 World Labs는 상업용 제품 Marble을 선보였으며, Luma와 Runway 같은 비디오 생성 스타트업도 물리‑인식 비디오 모델을 월드 모델로 전환하고 있습니다.

Decart의 Oasis 3는 실시간으로 상호작용할 수 있는 포토리얼리스틱 운전 시나리오를 생성합니다.이미지 출처: Decart

Oasis 3 출시 시기는 Decart가 설립 2년 만에 3억 달러를 유치한 지 몇 주 뒤입니다. Leitersdorf는 “전자상거래, 라이브 스트리밍, 물리 AI 분야에서 우리 모델에 대한 수요가 급증했다”고 설명했습니다. 이번 라운드로 Decart의 기업 가치는 거의 40억 달러에 달했으며, 토요타, 어도비, eBay 등 전략적 투자자들이 참여했습니다. 이들 모두 잠재 고객이라고 Leitersdorf는 말했습니다. 기존 투자사인 Nvidia도 이번 라운드에 참여했습니다.

Oasis 3의 강점은 모델의 사진‑같은 사실감과 무한 생성 능력에 있습니다. 이는 Decart가 자체적으로 개발한 DOS(Decart Optimization Stack) 소프트웨어 덕분인데, 이 소프트웨어는 Nvidia, Amazon, Google 하드웨어에서 모델을 효율적으로 실행하도록 최적화해 경쟁사보다 훨씬 저렴하게 운영할 수 있게 합니다.

“우리는 전체 실시간 스택 위에 구축했으며, 하드웨어 수준까지 최적화했습니다,” 라고 Leitersdorf는 말했습니다. “수직적으로 완전 통합돼 있기 때문에 업계 어느 누구보다 10배 이상 저렴하게 모델을 실행할 수 있습니다.”

Leitersdorf에 따르면, 스타트업의 모델은 매우 효율적이라 지금까지 총 $1억 이하의 비용만 소모했다고 합니다.

Oasis 3는 물리적으로 정확한 다중 카메라 환경(전방 1대, 측면 2대)을 생성해 훈련 및 테스트 시스템에 활용할 수 있습니다. 또한 제한된 데모나 연구 프리뷰 대신 개발자에게 무한히 시나리오를 생성할 수 있는 권한을 부여해, 가능한 한 많은 엣지 케이스를 시험하고자 하는 자율주행 차량 개발자에게 최적입니다.

제가 직접 사용해 본 다른 모델들—Google의 Genie 3나 World Labs의 Marble—과 비교했을 때, Oasis 3는 단일 텍스트 프롬프트만으로도 지금까지 본 것 중 가장 포토리얼리스틱한 환경을 제공했습니다. 그리고 몇 시간 동안 상호작용할 수 있다는 점은 경쟁 모델들이 갖추지 못한 효율성을 보여줍니다.

하지만 이렇게 오랫동안 세계를 생성하도록 허용하면 모델이 크게 퇴화하기도 합니다.

Oasis 3는 프롬프트만으로 정확한 포토리얼리스틱 거리 를 생성하지만 아직 객체 인식은 부족합니다.이미지 출처: Rebecca Bellan / Decart

테스트 결과, 시스템은 프롬프트와 일치하는 강력한 초기 씬을 꾸준히 만들지만, 세계를 이동하면서 주제적 일관성이 급격히 떨어졌습니다. “뉴욕 시내 거리, 아침”을 요청했을 때는 아름답게 구현됐지만, 운전하면서 보이는 풍경은 점점 뉴욕이라기보다 일반적인 서구 도시와 비슷해졌습니다.

돌아가서 처음 교차로로 되돌아가려 하면, 그곳은 사라지고 완전히 새로운 환경으로 대체되었습니다. 게다가 조작감이 둔하고 차량이 어디로 움직이는지 제어하기 어려운 경우가 많았습니다(다른 월드 모델에서도 흔히 보이는 단점). 전체적인 경험은 일관된 시뮬레이션이라기보다, 점점 비논리적으로 변해가는 꿈같은 흐름에 가까웠습니다.

또 다른 문제는 차량이 다른 차량을 뚫고 지나간다는 점입니다. 이는 모델이 물리 엔진을 제대로 시뮬레이션하지 못한다는 의미이며, Leitersdorf는 이를 “우리가 지금 해결하고 있는 주요 연구 과제”라며 “좋은 운전 데이터는 사고 데이터에 비해 압도적으로 많다”는 이유를 꼽았습니다.

이러한 물리 일관성 문제가 어려운 이유는 모델의 근본 구조에 있습니다. Oasis 3는 자동 회귀 방식으로, 한 프레임씩 생성하고 이전에 만든 내용을 참고해 다음 프레임을 결정합니다. 이는 많은 월드 모델이 공유하는 핵심 설계이자, 연산 집약적인 특성입니다.

같은 NYC 거리 씬에서도 여름이 되면서 일관성이 무너지기 시작했습니다.이미지 출처: Rebecca Bellan / Decart

일관성을 유지하기 위해 Leitersdorf는 Decart 팀이 모델 메모리 길이를 늘리는 작업을 진행 중이라고 밝혔습니다.

“우리가 생성하는 각 프레임은 대략 8,000 토큰에 해당합니다,” 라고 그는 말했습니다. “초당 수십 프레임을 생성하면 초당 수십만 토큰이 됩니다. 컨텍스트 윈도우가 금방 가득 차죠. 우리는 수백만 토큰을 저장할 수 있는 더 긴 컨텍스트와 토큰 수를 줄이는 압축 방법을 연구하고 있습니다.”

Leitersdorf는 다음 버전에서 일관성 문제가 부분적으로 해결될 수 있다고 보며, 사용자가 이미지가 아니라 환경 영상을 입력해 세계를 생성할 수 있게 할 계획이라고 말했습니다. 그는 월드 모델 분야가 아직 초기 단계임을 인정했습니다.

그럼에도 창업자는 현재 기술의 한계보다는 개발자들이 손에 넣었을 때 일어날 일에 더 큰 관심을 두고 있습니다.

“OpenAI가 모델용 API를 만들었을 때 LLM 초기 시절을 떠올리게 합니다,” 라고 그는 말하며, 개발자 커뮤니티가 새로운 사용 사례를 찾아내고 구축함으로써 분야를 발전시킨 사례를 언급했습니다.

“3개월 뒤 다시 만나면 ‘우리는 Oasis로 만든 100가지 서로 다른 애플리케이션을 만든 100명의 개발자를 보게 될 거야’ 라고 말하게 될 겁니다,” 라고 그는 덧붙였습니다.

우리 기사에 포함된 링크를 통해 구매하시면, 소정의 커미션을 받을 수 있습니다. 이는 편집 독립성에 영향을 주지 않습니다.

0 조회
Back to Blog

관련 글

더 보기 »