[논문] 장기 컨텍스트 자율주행을 위한 계획에 맞춘 토큰 압축

발행: 5일 전 (2026년 6월 6일 AM 02:16 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.07464v1

개요

단일형 비전‑액션 모델은 자율 주행 분야에서 떠오르는 패러다임을 나타낸다. 그러나 이 아키텍처는 복잡한 상호작용을 위한 확장된 시간적 컨텍스트를 인코딩할 때 토큰 시퀀스가 실시간 연산 예산을 빠르게 초과한다. 선형 트랜스포머나 외부 메모리와 같은 접근법이 컨텍스트를 경량화하려 시도하지만, 토큰 압축은 백본 수정이 필요 없다는 점에서 아키텍처와 가장 호환된다. 그럼에도 기존 압축 방식은 시간 감쇠와 같은 규칙 기반 휴리스틱을 사용해 계획과 분리되어 있어, 의사결정에 중요한 정보를 잃을 위험이 있다. 우리는 COMPACT‑VA를 제안한다. 이는 조건부 VQ‑VAE 기반의 계획 정렬 작업 메모리 프레임워크로, 확장된 컨텍스트를 제한된 표현으로 압축한다. 압축은 과거 궤적과 훈련 중 후방 인코더가 미래 궤적에서 추출한 학습된 계획 의도(플래닝 인텐트) 모두에 조건화되며, 사전 인코더는 압축된 관측으로부터 이를 예측하도록 학습한다. 압축된 메모리를 예측된 잠재와 연결해 정책에 전달함으로써 엔드‑투‑엔드 최적화를 수행하고, 의사결정에 중요한 정보를 유지한 채 계획을 수행한다. 우리는 행동 정확도에 과거 컨텍스트가 가장 중요한 고신호 동적 시나리오(예: 정지, 양보, 진행)를 대상으로 평가하고, 이에 맞는 행동 지표를 설계하였다. 동일한 토큰 예산 하에서 성공률을 6 % 이상(68.3 %) 향상시키고, 모든 지표에서 일관된 개선을 달성하였다. 소거 실험을 통해 계획 정렬 결합 효과를 검증했으며, 폐루프 평가 결과 COMPACT‑VA가 압축되지 않은 처리 대비 3.3× 속도 향상 및 2.7× 메모리 감소를 이루면서 일반 주행 성능을 유지함을 확인하였다.

주요 기여

본 논문은 다음 분야의 연구를 제시합니다:

cs.RO
cs.AI
cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.RO 분야의 발전에 기여합니다.

저자

Zhixuan Liang
Yuxiao Chen
Yurong You
Peter Karkus
Wenhao Ding
Boyi Li
Alexander Popov
Yan Wang
Maximilian Igl
Yiming Li
Danfei Xu
Nikolai Smolyanskiy
Boris Ivanovic
Ping Luo
Marco Pavone

논문 정보

arXiv ID: 2606.07464v1
Categories: cs.RO, cs.AI, cs.CV
Published: 2026년 6월 5일
PDF: PDF 다운로드

[논문] 장기 컨텍스트 자율주행을 위한 계획에 맞춘 토큰 압축

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선

[논문] 시청·기억·추론: 인간 시각 비디오 이해와 MLLM

[논문] 데이터 부족 상황에서 합성 병변 MR 이미지가 자동 국소 피질 이형성증 탐지에 미치는 영향