[논문] 당신의 모델은 이미 알고 있다: 시각‑언어‑행동 모델을 위한 주의 기반 안전 필터
개요
Vision‑Language‑Action (VLA) 모델은 다양한 로봇 조작 작업에서 인상적인 엔드‑투‑엔드 성능을 보여주었습니다. 하지만 이러한 정책은 장면에 존재하는 작업과 무관한 물체와의 충돌에 대해 어떠한 보장도 하지 못합니다. 기존 안전 필터들은 비전‑언어 모델(VLM)에 질의하여 장애물과 그 위치를 식별함으로써 이 문제를 회피했지만, 이는 제어 루프에서 실행하기엔 너무 느리고 에피소드 초기화 시점에만 호출될 수 있어 움직이는 장애물을 추적하지 못합니다. 우리는 VLA 모델 내부의 소수의 어텐션 헤드가 정책이 접근하려는 대상을 안정적으로 위치시킨다는 사실을 발견했습니다. 이러한 헤드를 활용해 훈련이 필요 없는 안전 프레임워크를 구성할 수 있습니다. 이 프레임워크는 매 단계마다 어텐션 헤드로부터 현재 목표를 얻고, 나머지 장면을 장애물로 간주하여 이를 제어 장벽 함수(CBF) 필터에 입력합니다. 가벼운 실시간 객체 추적기와 결합하면 비정적 장애물에 대해서도 충돌 회피가 가능합니다. 우리는 이동 장애물을 추가한 SafeLIBERO에서 본 프레임워크를 평가했습니다. 원래의 정적 벤치마크에서는, 목표를 식별하기 위해 특권 시뮬레이터 상태를 사용하는 오라클과 비교했을 때, 에피소드 초기화 시 한 번만 실행되는 VLM 기반 식별 단계를 모방한 우리 방법이 비슷한 성능을 보였습니다. 동적 변형에서는 오라클의 초기 목표 할당이 오래되어 효율이 떨어지는 반면, 우리 방법은 평균 43% 정도 크게 앞섰습니다. 우리의 결과는 실시간 안전 필터링에 필요한 지각 신호가 이미 VLA 정책 내부에 존재하며, 추가 학습이나 무거운 보조 모델 없이도 활용될 수 있음을 시사합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.RO
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.RO 분야의 발전에 기여합니다.
저자
- Seongbin Park
- Fan Zhang
- Baharan Mirzasoleiman
- Shahriar Talebi
- Nader Sehatbakhsh
논문 정보
- arXiv ID: 2606.09749v1
- Categories: cs.RO, cs.LG
- Published: 2026년 6월 8일
- PDF: PDF 다운로드