[Paper] AnyTask: Sim-to-Real 정책 학습을 향상시키기 위한 자동화된 작업 및 데이터 생성 프레임워크

발행: (2025년 12월 20일 오전 02:55 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.17853v1

개요

AnyTask는 대규모 GPU 기반 시뮬레이션과 대규모 기반 모델(비전‑언어 모델 및 대형 언어 모델)을 결합한 완전 자동화 파이프라인으로, 수천 개의 다양한 로봇 조작 작업을 생성하고 전문가 시연을 만들며, 실제 로봇에 바로 적용할 수 있는 정책을 학습합니다. 작업 설계, 장면 생성 및 데이터 수집이라는 수동 병목 현상을 제거함으로써, 이 프레임워크는 일반화 가능한 로봇 학습을 현대 AI 시스템 수준의 규모에 한층 가깝게 끌어올립니다.

주요 기여

  • End‑to‑end automation: 인간‑인‑루프 엔지니어링 없이 작업을 설계하고, 작업‑인식 씬을 구축하며, 전문가 궤적을 합성하고, 시뮬‑투‑실 전이를 수행하는 단일 프레임워크.
  • ViPR (Vision‑Language‑in‑the‑Loop Planner): 비전‑언어 모델(VLM)을 사용해 계획의 실행 가능성과 안전성을 보장하며 반복적으로 계획을 다듬는 새로운 작업‑및‑동작‑계획 에이전트.
  • ViPR‑Eureka: LLM이 생성한 작업 설명으로부터 밀집 보상 함수를 자동으로 구성하고, 언어 단서에 따라 접촉점을 샘플링하는 RL 에이전트.
  • ViPR‑RL (Hybrid Planner‑Learner): 희소 보상만 존재할 때도 고품질 시연을 생성하는 혼합 계획‑학습 접근법.
  • Large‑scale data generation: 다양한 객체, 자세, 작업군(픽‑앤‑플레이스, 서랍 열기, 접촉‑풍부 푸시, 장기 시퀀스)에서 수백만 개의 시뮬레이션 상호작용.
  • Real‑world validation: 합성 데이터만으로 학습된 정책이 보지 못한 실제 작업에서 44 % 평균 성공을 달성하여 견고한 시뮬‑투‑실 전이를 입증.

Methodology

  1. Task Specification via LLMs – 자연어 프롬프트를 사용해 조작 목표를 설명합니다 (예: “위쪽 서랍을 열고 빨간 블록을 안에 넣어라”). LLM은 이를 전제조건, 목표 상태, 제약조건을 포함한 구조화된 작업 그래프로 확장합니다.
  2. Scene Generation – VLM이 작업 그래프를 파싱하고, 적절한 객체들을 배치하여 시뮬레이션 환경을 생성합니다. 포즈, 텍스처, 조명을 무작위로 변형시켜 다양성을 극대화합니다.
  3. Expert Demonstration Synthesis – 세 개의 에이전트가 병렬로 작동합니다:
    • ViPR은 고전적인 task‑and‑motion planner를 실행한 뒤, VLM에 각 단계가 충돌이 없고 잡을 수 있는지 검증하도록 질의하고, 계획을 반복적으로 정제합니다.
    • ViPR‑Eureka는 LLM 설명으로부터 밀집 보상 모델을 구축하고, 접촉‑샘플링 휴리스틱을 활용한 RL로 고품질 궤적을 탐색합니다.
    • ViPR‑RL은 희소 보상 RL에 가끔씩 planner가 생성한 웨이포인트를 결합하여, 밀집 보상을 정의하기 어려운 작업도 해결할 수 있게 합니다.
  4. Behavior Cloning – 모든 생성된 궤적을 하나의 대규모 데이터셋으로 통합합니다. 트랜스포머 기반 정책 네트워크를 시각 관찰에 조건화된 전문가 행동을 모방하도록 학습합니다.
  5. Sim‑to‑Real Transfer – 학습 과정에서 도메인 랜덤화(카메라 노이즈, 마찰 변동, 액추에이터 지연)를 적용합니다. 이렇게 얻어진 정책은 RGB‑D 카메라가 장착된 물리적 로봇 팔에 그대로 배포됩니다.

결과 및 발견

MetricSimulationReal‑World (unseen tasks)
Success Rate (average across 10 task families)92 %44 %
Number of generated tasks> 5 k distinct task definitions
Demonstrations per task (average)20–50
Policy inference latency~30 ms on RTX 3090~45 ms on embedded GPU
  • 정책은 광범위한 시각 및 물리적 랜덤화를 통해 시뮬레이션에서 보지 못한 객체 자세와 심지어 시뮬레이션에 등장하지 않은 객체에도 일반화됩니다.
  • ViPR은 인간이 시연한 계획에 가장 가깝게 높은 충실도의 궤적을 생성하고, ViPR‑Eureka는 밀집 보상이 중요한 접촉이 풍부한 작업에서 뛰어납니다.
  • Hybrid ViPR‑RL은 환경 상호작용을 훨씬 적게 사용하면서도 비슷한 성능을 달성하여 격차를 메웁니다.

실용적 시사점

  • 로봇 스킬의 빠른 프로토타이핑 – 엔지니어가 새로운 조작 목표를 평범한 영어로 설명하면, 수시간 내에 바로 실행 가능한 정책을 얻을 수 있어 수동적인 씬 설정 및 데이터 수집을 건너뛸 수 있다.
  • 확장 가능한 데이터 파이프라인 – 기업은 클라우드 GPU 팜을 활용해 페타바이트 규모의 합성 로봇 경험을 생성하고, 이를 대규모 기반 모델에 공급하여 지속적인 학습을 가능하게 한다.
  • 범용 로봇 플랫폼 – 이 접근 방식은 작업을 실시간으로 전환할 수 있는 “원‑사이즈‑핏‑올” 매니퓰레이터의 길을 열어, 작업 변동성이 큰 물류, 가정 지원, 제조 분야에 유용하다.
  • 비용이 많이 드는 실제 실험에 대한 의존도 감소 – 실제 데이터를 전혀 사용하지 않고도 보지 못한 실제 작업에서 40 % 이상의 성공률을 달성함으로써, AnyTask는 비용이 많이 드는 원격 조작이나 인간 시연 캠페인의 필요성을 줄인다.
  • 오픈‑소스 확장성 – 모듈형 에이전트(ViPR, ViPR‑Eureka, ViPR‑RL)를 독점 플래너와 교체하거나 결합할 수 있어 기존 로봇 스택에 통합이 가능하다.

제한 사항 및 향후 작업

  • Success ceiling – 44 %가 제로‑실데이터 정책에 비해 인상적이지만, 많은 산업용 사례는 여전히 >80 % 신뢰성을 요구합니다; 추가적인 도메인 적응이나 few‑shot 실 데이터 미세 조정이 필요할 수 있습니다.
  • Task complexity bound – 현재 LLM 프롬프트 파서는 약 10개의 순차 단계까지 작업을 처리합니다; 매우 장기‑수평 또는 계층적 작업은 플래너를 압도할 수 있습니다.
  • Simulation fidelity – 특정 접촉 역학(예: 연성 물체 변형)은 여전히 근사치이며, 고변형 재료에 대한 전이성을 제한합니다.
  • Safety guarantees – VLM‑in‑the‑loop 검증은 충돌을 감소시키지만 공식적인 안전 증명을 제공하지 않습니다; 모션‑플래닝 안전 인증서를 통합하는 것이 계획된 방향입니다.
  • Scalability of LLM/VLM calls – 대규모 병렬 생성은 높은 API 비용을 초래합니다; 향후 작업은 온‑디바이스 증류 모델을 통해 계산 오버헤드를 낮추는 것을 목표로 합니다.

전체적으로 AnyTask는 대규모 시뮬레이션과 기반 모델을 결합함으로써 다목적 로봇 조작 정책의 생성 속도를 크게 가속화할 수 있음을 보여주며, 실제 세계에서 일반화된 데이터‑집약적 로봇 학습을 위한 실용적인 경로를 열어줍니다.

저자

  • Ran Gong
  • Xiaohan Zhang
  • Jinghuan Shang
  • Maria Vittoria Minniti
  • Jigarkumar Patel
  • Valerio Pepe
  • Riedana Yan
  • Ahmet Gundogdu
  • Ivan Kapelyukh
  • Ali Abbas
  • Xiaoqiang Yan
  • Harsh Patel
  • Laura Herlant
  • Karl Schmeckpeper

논문 정보

  • arXiv ID: 2512.17853v1
  • 분류: cs.RO, cs.AI
  • 발행일: 2025년 12월 19일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »