[Paper] HERMES++: 통합 운전 월드 모델을 향한 3D 씬 이해 및 생성

발행: 19시간 전 (2026년 5월 1일 AM 02:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2604.28196v1

Overview

이 논문은 3D 주행 장면을 동시에 이해하고 가까운 미래에 어떻게 변할지를 예측하는 통합 “주행 세계 모델”인 **HERMES++**를 소개한다. Bird’s‑Eye‑View (BEV) 시각 백본과 대형 언어 모델(LLM) 추론을 결합함으로써, 저자들은 의미 해석(장면에 무엇이 있는가)과 물리 시뮬레이션(장면이 어떻게 변하는가) 사이의 오랜 격차를 메운다.

핵심 기여

Unified architecture는 3D 장면 이해(예: 객체 탐지, 의미 매핑)와 미래 기하학 생성을 단일 네트워크에서 처리합니다.
BEV‑centric multi‑view fusion은 원시 카메라 스트림을 LLM 프롬프트와 호환되는 압축된 탑‑다운 표현으로 변환합니다.
LLM‑enhanced world queries는 이해 브랜치의 고수준 의미 지식을 예측 브랜치에 주입합니다.
Current‑to‑Future Link는 LLM이 제공하는 의미 컨텍스트를 기반으로 미래 포인트 클라우드 생성을 조건화합니다.
Joint Geometric Optimization은 명시적 기하학 제약(예: 강성, 충돌 회피)과 잠재 정규화를 결합하여 생성된 장면이 물리적으로 타당하도록 유지합니다.
State‑of‑the‑art results는 여러 자율주행 벤치마크에서 최첨단 결과를 달성하며, 인식 및 예측 작업 모두에서 특화된 모델을 능가합니다.

Source: …

Methodology

Multi‑Camera BEV Encoder – 주변 카메라에서 얻은 이미지를 트랜스포머 기반 뷰‑어그리게이션 모듈을 사용해 공유 BEV 그리드로 변환합니다. 이를 통해 깊이 정보를 보존하면서 입력 뷰 수에 구애받지 않는 밀집 공간 맵을 생성합니다.
Understanding Branch – BEV 맵을 인식 헤드(객체 탐지기, 의미 분할기 등)에 전달합니다. 얻어진 고수준 디스크립터를 토크나이즈한 뒤, 고정된 LLM(예: GPT‑4‑style)에 입력하여 world queries—장면 의미를 설명하는 자연어 스타일 임베딩(예: “보행자 횡단보도 앞”, “신호등 빨강”)을 생성합니다.
Prediction Branch – 조건부 생성 모듈이 현재 BEV 표현과 LLM에서 파생된 world queries를 받아들입니다. Current‑to‑Future Link는 이 신호들을 연결하여 네트워크가 의미적 제약을 인식하면서(예: 차량이 건물을 통과할 수 없음) 다음 프레임의 포인트 클라우드를 예측하도록 합니다.
Joint Geometric Optimization – 학습 중 두 가지 손실을 동시에 적용합니다:
- Explicit geometric loss(예: 챔퍼 거리, 점유 일관성, 충돌 페널티).
- Implicit latent regularization은 대규모 3D 데이터셋에서 학습된 사전(prior)을 따르도록 잠재 공간을 유도하여 부드럽고 현실적인 움직임을 보장합니다.
End‑to‑End Training – 모든 구성 요소를 공동으로 최적화하여 인식 헤드, LLM 쿼리 생성기, 미래 기하 디코더가 서로 적응하도록 함으로써 이해‑예측 루프가 긴밀히 결합됩니다.

결과 및 발견

벤치마크	작업	메트릭 (높을수록 좋음)	HERMES++ vs. Specialist
nuScenes (3D 탐지)	이해	mAP = 0.48	베이스라인 대비 +6 %
Waymo Open (미래 포인트‑클라우드)	예측	CD = 0.021 m	기존 연구 대비 −18 % 오류
Argoverse (통합 작업)	통합	종합 점수 = 0.62	절대값 +9 % 향상

이중 작업 우수성: HERMES++는 탐지에 대한 전용 인식 모델과 미래 포인트‑클라우드 생성을 위한 전용 예측 모델을 모두 능가하며, 공유 표현이 성능을 저해하지 않음을 확인했습니다.
센서 드롭아웃에 대한 강인성: BEV 인코더는 누락된 카메라 뷰를 우아하게 처리하고, LLM 쿼리는 의미적 사전 정보를 제공하여 악천후 상황에서도 안정적인 예측을 가능하게 합니다.
소거 연구에서는 LLM‑강화 쿼리를 제거하면 미래 예측 정확도가 약 12 % 감소함을 보여, 언어 수준 추론의 가치가 강조됩니다.

Practical Implications

Simplified stack for autonomous vehicles – 엔지니어는 두 개의 별도 파이프라인(인식 + 예측)을 단일 모델로 대체하여 지연 시간, 메모리 사용량 및 통합 복잡성을 줄일 수 있습니다.
Better scenario planning – 의미론적 세계 쿼리를 노출함으로써 개발자는 고수준 제약 조건(예: “학교 구역 회피”)을 손수 규칙 기반 필터를 만들 필요 없이 보다 쉽게 삽입할 수 있습니다.
Cross‑modal extensibility – BEV‑LLM 인터페이스는 지도 데이터, V2X 메시지, 혹은 운전자 의도 언어 명령까지 통합하도록 확장될 수 있어 보다 인터랙티브한 ADAS 기능의 문을 엽니다.
Safety‑oriented generation – 공동 기하학 최적화는 물리적 타당성을 보장하며, 이는 시뮬레이션 기반 테스트와 가상 검증 파이프라인에서의 위험 평가에 필수적입니다.

제한 사항 및 향후 작업

LLM 의존성 – 현재 설계는 대규모 사전 학습된 LLM에 의존하고 있으며, 모델 증류 없이 실시간 엣지 배포 시 추론 비용이 부담될 수 있습니다.
정적 장면 편향 – 학습 데이터는 주로 비교적 정적인 도시 환경으로 구성되어 있어, 매우 동적인 오프로드나 건설 구역에 대한 성능은 아직 검증되지 않았습니다.
제한된 센서 모달리티 – 프레임워크는 카메라 기반 BEV에 초점을 맞추고 있으며, LiDAR 또는 레이더를 직접 통합하면 깊이 정확도와 견고성을 향상시킬 수 있습니다.
향후 연구 방향은 저경량 LLM 어댑터, 다중 모달 센서 융합, 강화 학습 기반 계획을 활용한 장기 궤적 예측 모델 확장이 포함됩니다.

저자

Xin Zhou
Dingkang Liang
Xiwu Chen
Feiyang Tan
Dingyuan Zhang
Hengshuang Zhao
Xiang Bai

논문 정보

arXiv ID: 2604.28196v1
분류: cs.CV
출판일: 2026년 4월 30일
PDF: PDF 다운로드

[Paper] HERMES++: 통합 운전 월드 모델을 향한 3D 씬 이해 및 생성

Overview

핵심 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] OmniRobotHome: 실시간 멀티 카메라 플랫폼을 이용한 Multiadic 인간-로봇 상호작용

[Paper] 일반화 가능한 Sparse-View 3D 재구성 (제한 없는 이미지)

[Paper] LaST‑R1: VLA 모델을 위한 적응형 물리 잠재 추론을 통한 행동 강화

[Paper] 시각 생성용 Representation Fréchet Loss