[Paper] Scaling Verification이 Vision-Language-Action Alignment을 위해 Scaling Policy Learning보다 더 효과적일 수 있다

발행: 3일 전 (2026년 2월 13일 오전 03:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.12281v1

개요

이 논문은 Vision‑Language‑Action (VLA) 시스템을 개선하는 새로운 관점을 제시합니다. 더 큰 정책을 학습하기 위해 컴퓨팅 자원을 늘리는 대신, 저자들은 테스트 시 검증에 초점을 맞춰 사용자가 의도한 바와 로봇이 실제로 수행하는 행동 사이의 차이를 줄이고자 합니다. 명령을 여러 형태로 재구성하고 다수의 후보 행동을 생성한 뒤, 학습된 검증자를 이용해 최적의 매치를 선택함으로써 여러 명령 수행 벤치마크와 실제 로봇 작업에서 상당한 성능 향상을 달성했습니다.

주요 기여

Scaling law for test‑time diversity – 명령어 재구성 수와 행동 후보 수를 동시에 늘리면, 어느 하나만 늘리는 것보다 훨씬 더 유용한 샘플을 얻을 수 있음을 보여줍니다.
CoVer (Contrastive Verifier) – (시각, 언어, 행동) 삼중항이 얼마나 잘 정렬되는지를 점수화하는 모듈형 검증기 아키텍처이며, 추가 데이터와 연산량에 따라 부드럽게 확장됩니다.
Boot‑time compute & hierarchical inference pipeline – 비전‑언어 모델(VLM)을 사용해 풍부한 재구성 프롬프트를 사전 계산하고, 이후 반복적으로 저수준 행동 조각을 생성하며 배포 시 최적의 고수준 프롬프트를 선택합니다.
Empirical gains – SIMPLER 벤치마크에서 검증 기반 추론은 순수 정책 스케일링보다 22 % (in‑distribution) 및 13 % (out‑of‑distribution) 만큼 우수합니다; 실제 로봇 실험에서는 향상이 **45 %**까지 급증합니다. PolaRiS 벤치마크에서도 유사한 상승이 보고되었으며(작업 진행 14 %, 성공률 9 %).

방법론

Instruction Diversification – 대규모 VLM(예: GPT‑4‑style)을 오프라인에서 사용해 원래 자연어 명령의 다양한 패러프레이즈를 많이 생성한다. 이 “boot‑time compute” 단계는 작업당 한 번 수행되며 빠른 조회를 위해 저장된다.
Action Candidate Generation – 각 패러프레이즈마다 VLA 정책(예: transformer‑based planner)이 여러 고수준 프롬프트와 저수준 모션 프리미티브를 샘플링하여 (프롬프트, 액션) 쌍의 grid를 만든다.
Contrastive Verification (CoVer) – CoVer는 현재 시각 관찰, 후보 언어 프롬프트, 후보 액션 시퀀스의 세 입력을 받는다. 올바르게 정렬된 삼중항은 서로 가깝게, 정렬이 맞지 않은 것은 멀어지도록 하는 공동 임베딩을 학습하며, (observation, instruction, action) 삼중항 대규모 데이터셋에 대한 contrastive loss를 사용한다.
Hierarchical Selection – 추론 시점에 CoVer는 생성된 모든 삼중항에 점수를 매겨 먼저 최적의 고수준 프롬프트를 선택하고, 그 다음 해당 프롬프트에 이어지는 최적의 저수준 액션 청크를 선택한다. 선택된 계획은 로봇에서 실행된다.
Scaling Experiments – 저자들은 패러프레이즈 수(Nₚ)와 패러프레이즈당 액션 후보 수(Nₐ)를 체계적으로 변화시켜 경험적으로 스케일링 법칙을 도출한다: 성능 ≈ f(Nₚ × Nₐ), 이는 하나의 요소만 스케일링하는 것보다 공동 스케일링이 훨씬 효율적임을 확인한다.

결과 및 발견

Benchmark	Metric	Policy‑only scaling	Verification (CoVer)	Relative Gain
SIMPLER (in‑dist)	성공률	58 %	71 %	+22 %
SIMPLER (out‑dist)	성공률	44 %	57 %	+13 %
실제 로봇 작업	작업 완료율	40 %	58 %	+45 %
PolaRiS	작업 진행도	0.62	0.71	+14 %
PolaRiS	성공률	0.48	0.57	+9 %

공동 스케일링 승리: Nₚ와 Nₐ를 모두 두 배로 늘리면 하나만 두 배로 늘리는 것보다 2배 이상의 성능 향상을 얻는다.
검증자 효율성: CoVer의 추론 비용은 후보 수에 따라 선형적으로 증가하므로, 사전 계산된 패러프레이즈와 결합했을 때 디바이스 내 배포가 실용적이다.
견고성: 검증 파이프라인은 분포 외 언어 또는 시각적 변형에 직면해도 이득을 유지하며, 단순히 큰 정책만 사용하는 것보다 일반화가 더 우수함을 나타낸다.

Practical Implications

Developer-friendly API: 계층적 파이프라인을 “generate‑and‑verify” 서비스로 래핑하여 로봇 팀이 기존 VLA 정책을 처음부터 재학습하지 않고도 연결할 수 있다.
Cost‑effective scaling: 정책 사전 학습에 대규모 GPU 시간을 투입하는 대신, 팀은 한 번만 수행되는 “boot‑time compute”(패러프레이즈 생성) 단계와 검증을 위한 적당한 추론 연산에 투자하여 동등하거나 더 나은 성능을 달성할 수 있다.
Improved safety and reliability: 실행 전에 정렬을 명시적으로 확인함으로써 로봇이 의도치 않은 행동을 할 가능성이 줄어들며, 이는 가정, 창고, 협업 환경 등에서 배포할 때 중요한 요소이다.
Modular upgrades: CoVer를 최신 대비 모델(예: CLIP‑based 또는 멀티모달 트랜스포머)로 교체해도 기본 정책을 수정할 필요가 없으며, 지속적인 개선이 가능하다.
Cross‑domain applicability: 동일한 검증 개념을 자율 주행, 드론 내비게이션, 시각 입력을 기반으로 동작하는 가상 비서 등 다른 구현형 AI 작업에도 적용할 수 있다.

제한 사항 및 향후 연구

추론 시 연산: 검증이 전체 정책 스케일링보다 저렴하지만, 여전히 많은 후보 삼중항을 평가해야 하므로 전력 소모가 매우 낮은 엣지 디바이스에서는 부담이 될 수 있습니다.
패러프레이즈 품질 의존: 이 접근 방식은 VLM이 다양하고 의미적으로 충실한 재표현을 생성할 수 있다고 가정합니다. 이 단계에서 실패하면 검증 효과가 제한될 수 있습니다.
데이터셋 편향: 대조 검증자는 평가에 사용된 동일한 작업 분포에서 학습됩니다. 완전히 새로운 도메인(예: 산업용 조작)에서의 성능은 아직 검증되지 않았습니다.
저자들이 제시한 향후 방향:
1. 초기 검증 점수를 기반으로 후보 집합을 적응적으로 가지치기하는 방법 학습.
2. 온라인 학습을 통합하여 검증자가 실제 실행 피드백으로부터 개선되도록 함.
3. 여러 로봇이 동시에 정렬을 검증해야 하는 다중 에이전트 협업 시나리오로 프레임워크 확장.

저자

Jacky Kwok
Xilun Zhang
Mengdi Xu
Yuejiang Liu
Azalia Mirhoseini
Chelsea Finn
Marco Pavone

논문 정보

arXiv ID: 2602.12281v1
분류: cs.RO, cs.AI, eess.SY
출판일: 2026년 2월 12일
PDF: PDF 다운로드

[Paper] Scaling Verification이 Vision-Language-Action Alignment을 위해 Scaling Policy Learning보다 더 효과적일 수 있다

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling

[Paper] MonarchRT: 실시간 비디오 생성을 위한 효율적인 어텐션

[Paper] 시계열 데이터에 대한 Flow-Guided Neural Operator 기반 Self‑Supervised Learning

[논문] T3D: Trajectory Self-Distillation과 Direct Discriminative Optimization을 이용한 Few-Step Diffusion Language Models