시각 검증으로 추론 시 제어 및 자율 정책 개선 가능

발행: 2일 전 (2026년 6월 17일 AM 02:59 GMT+9)

3 분 소요

원문: arXiv

Overview

실제 세계에 배치된 로봇은 경험을 학습하고 시간이 지남에 따라 향상되어야 합니다. 이를 위해서는 피드백을 기반으로 연습하고 학습하는 메커니즘이 필요합니다. 본 논문에서는 VERITAS라는 생성자‑검증 프레임워크를 제안합니다. 이는 일반 로봇 정책에 대해 추론 시점의 정책 방향 전환 및 자기 개선을 목표로 합니다. 우리는 사전 학습된 일반 로봇 정책을 생성자로 사용하고, 추론 시점에 행동을 평가하는 그라디언트 없는 시각 검증기와 결합합니다. 이 프레임워크는 추가 학습 없이도 정책 성능을 향상시키는 추론 시점의 방향 전환을 가능하게 합니다. 우리는 인지‑시간 검증이 추가 démonstration 데이터에 대한 훈련 없이도 일반적인 로봇 정책(vanilla)보다 일관되게 우수함을 보여줍니다. 또한, 검증된 롤아웃은 오프라인 정책 개선에 효과적인 감독을 제공한다는 점을 보여줍니다. 검증된 자체 생성 트래젝тория로 미세조정된 정책은 일관된 성능 향상을 달성합니다. 특히, 검증된 롤아웃을 이용한 사후 학습은 전문가 시연과 유사한 효율성을 보이며, 인간 개입 없이도 가능합니다. 우리의 결과는 배포 중에 로봇 정책을 향상시키는 실용적이고 확장 가능한 메커니즘으로서 인지‑시간 검증을 강조합니다.

Key Contributions

cs.RO
cs.AI

Methodology

자세한 방법については 전체 논문을 참고하십시오.

Practical Implications

본 연구는 cs.RO 분야의 발전에 기여합니다.

Authors

Mingtong Zhang
Dhruv Shah

Paper Information

arXiv ID: 2606.18247v1
Categories: cs.RO, cs.AI
Published: 2026년 6월 16일
PDF: PDF 다운로드

시각 검증으로 추론 시 제어 및 자율 정책 개선 가능

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[논문] 차이나‑가이아 대응 카탈로그: 머신러닝으로 차이나 소스 카탈로그에 있는 애매한 가이아 대조를 X‑선 원천과 연결

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

[논문] 참조 기반 다중 스피커 오디오 씬 생성