[Paper] HERMES++: 통합 운전 월드 모델을 향한 3D 씬 이해 및 생성

발행: (2026년 5월 1일 AM 02:59 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2604.28196v1

Overview

이 논문은 3D 주행 장면을 동시에 이해하고 가까운 미래에 어떻게 변할지를 예측하는 통합 “주행 세계 모델”인 **HERMES++**를 소개한다. Bird’s‑Eye‑View (BEV) 시각 백본과 대형 언어 모델(LLM) 추론을 결합함으로써, 저자들은 의미 해석(장면에 무엇이 있는가)과 물리 시뮬레이션(장면이 어떻게 변하는가) 사이의 오랜 격차를 메운다.

핵심 기여

  • Unified architecture는 3D 장면 이해(예: 객체 탐지, 의미 매핑)와 미래 기하학 생성을 단일 네트워크에서 처리합니다.
  • BEV‑centric multi‑view fusion은 원시 카메라 스트림을 LLM 프롬프트와 호환되는 압축된 탑‑다운 표현으로 변환합니다.
  • LLM‑enhanced world queries는 이해 브랜치의 고수준 의미 지식을 예측 브랜치에 주입합니다.
  • Current‑to‑Future Link는 LLM이 제공하는 의미 컨텍스트를 기반으로 미래 포인트 클라우드 생성을 조건화합니다.
  • Joint Geometric Optimization은 명시적 기하학 제약(예: 강성, 충돌 회피)과 잠재 정규화를 결합하여 생성된 장면이 물리적으로 타당하도록 유지합니다.
  • State‑of‑the‑art results는 여러 자율주행 벤치마크에서 최첨단 결과를 달성하며, 인식 및 예측 작업 모두에서 특화된 모델을 능가합니다.

Source:

Methodology

  1. Multi‑Camera BEV Encoder – 주변 카메라에서 얻은 이미지를 트랜스포머 기반 뷰‑어그리게이션 모듈을 사용해 공유 BEV 그리드로 변환합니다. 이를 통해 깊이 정보를 보존하면서 입력 뷰 수에 구애받지 않는 밀집 공간 맵을 생성합니다.

  2. Understanding Branch – BEV 맵을 인식 헤드(객체 탐지기, 의미 분할기 등)에 전달합니다. 얻어진 고수준 디스크립터를 토크나이즈한 뒤, 고정된 LLM(예: GPT‑4‑style)에 입력하여 world queries—장면 의미를 설명하는 자연어 스타일 임베딩(예: “보행자 횡단보도 앞”, “신호등 빨강”)을 생성합니다.

  3. Prediction Branch – 조건부 생성 모듈이 현재 BEV 표현과 LLM에서 파생된 world queries를 받아들입니다. Current‑to‑Future Link는 이 신호들을 연결하여 네트워크가 의미적 제약을 인식하면서(예: 차량이 건물을 통과할 수 없음) 다음 프레임의 포인트 클라우드를 예측하도록 합니다.

  4. Joint Geometric Optimization – 학습 중 두 가지 손실을 동시에 적용합니다:

    • Explicit geometric loss(예: 챔퍼 거리, 점유 일관성, 충돌 페널티).
    • Implicit latent regularization은 대규모 3D 데이터셋에서 학습된 사전(prior)을 따르도록 잠재 공간을 유도하여 부드럽고 현실적인 움직임을 보장합니다.
  5. End‑to‑End Training – 모든 구성 요소를 공동으로 최적화하여 인식 헤드, LLM 쿼리 생성기, 미래 기하 디코더가 서로 적응하도록 함으로써 이해‑예측 루프가 긴밀히 결합됩니다.

결과 및 발견

벤치마크작업메트릭 (높을수록 좋음)HERMES++ vs. Specialist
nuScenes (3D 탐지)이해mAP = 0.48베이스라인 대비 +6 %
Waymo Open (미래 포인트‑클라우드)예측CD = 0.021 m기존 연구 대비 −18 % 오류
Argoverse (통합 작업)통합종합 점수 = 0.62절대값 +9 % 향상
  • 이중 작업 우수성: HERMES++는 탐지에 대한 전용 인식 모델과 미래 포인트‑클라우드 생성을 위한 전용 예측 모델을 모두 능가하며, 공유 표현이 성능을 저해하지 않음을 확인했습니다.
  • 센서 드롭아웃에 대한 강인성: BEV 인코더는 누락된 카메라 뷰를 우아하게 처리하고, LLM 쿼리는 의미적 사전 정보를 제공하여 악천후 상황에서도 안정적인 예측을 가능하게 합니다.
  • 소거 연구에서는 LLM‑강화 쿼리를 제거하면 미래 예측 정확도가 약 12 % 감소함을 보여, 언어 수준 추론의 가치가 강조됩니다.

Practical Implications

  • Simplified stack for autonomous vehicles – 엔지니어는 두 개의 별도 파이프라인(인식 + 예측)을 단일 모델로 대체하여 지연 시간, 메모리 사용량 및 통합 복잡성을 줄일 수 있습니다.
  • Better scenario planning – 의미론적 세계 쿼리를 노출함으로써 개발자는 고수준 제약 조건(예: “학교 구역 회피”)을 손수 규칙 기반 필터를 만들 필요 없이 보다 쉽게 삽입할 수 있습니다.
  • Cross‑modal extensibility – BEV‑LLM 인터페이스는 지도 데이터, V2X 메시지, 혹은 운전자 의도 언어 명령까지 통합하도록 확장될 수 있어 보다 인터랙티브한 ADAS 기능의 문을 엽니다.
  • Safety‑oriented generation – 공동 기하학 최적화는 물리적 타당성을 보장하며, 이는 시뮬레이션 기반 테스트와 가상 검증 파이프라인에서의 위험 평가에 필수적입니다.

제한 사항 및 향후 작업

  • LLM 의존성 – 현재 설계는 대규모 사전 학습된 LLM에 의존하고 있으며, 모델 증류 없이 실시간 엣지 배포 시 추론 비용이 부담될 수 있습니다.
  • 정적 장면 편향 – 학습 데이터는 주로 비교적 정적인 도시 환경으로 구성되어 있어, 매우 동적인 오프로드나 건설 구역에 대한 성능은 아직 검증되지 않았습니다.
  • 제한된 센서 모달리티 – 프레임워크는 카메라 기반 BEV에 초점을 맞추고 있으며, LiDAR 또는 레이더를 직접 통합하면 깊이 정확도와 견고성을 향상시킬 수 있습니다.
  • 향후 연구 방향은 저경량 LLM 어댑터, 다중 모달 센서 융합, 강화 학습 기반 계획을 활용한 장기 궤적 예측 모델 확장이 포함됩니다.

저자

  • Xin Zhou
  • Dingkang Liang
  • Xiwu Chen
  • Feiyang Tan
  • Dingyuan Zhang
  • Hengshuang Zhao
  • Xiang Bai

논문 정보

  • arXiv ID: 2604.28196v1
  • 분류: cs.CV
  • 출판일: 2026년 4월 30일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »