[Paper] RoboCasa365: 대규모 시뮬레이션 프레임워크를 통한 Generalist Robots 훈련 및 벤치마킹

발행: 1일 전 (2026년 3월 5일 오전 03:20 GMT+9)

12 분 소요

원문: arXiv

Source: arXiv - 2603.04356v1

개요

RoboCasa365는 새로운, 오픈‑소스 시뮬레이션 벤치마크로, 연구자와 엔지니어가 “generalist” 가정용 로봇을 대규모로 훈련하고 평가할 수 있게 합니다. 2,500개의 풍부하게 다양화된 주방 레이아웃에 걸쳐 365개의 일상 작업을 제공하고, 인간이 기록한 시연과 합성 시연 수천 시간을 함께 제공함으로써, 이 플랫폼은 오랫동안 존재해 온 격차를 메웁니다: 진정으로 다재다능한 가정용 로봇에 얼마나 가까워졌는지를 측정할 수 있는 재현 가능하고 대규모의 기준점.

주요 기여

대규모 작업 모음 – 365개의 서로 다른 주방 관련 조작 작업(예: “커피 만들기”, “식기세척기 적재”, “남은 음식 보관”).
다양한 환경 – 서로 다른 레이아웃, 가전 모델, 물체 배치를 포함하는 2,500개의 절차적으로 생성된 주방 장면.
방대한 시연 코퍼스 – 600시간 이상의 실제 인간 원격 조작 데이터 + 1,600시간 이상의 고충실도 합성 시연, 모두 타임스탬프와 주석이 포함됨.
통합 평가 API – 다중 작업 학습, 기반 모델 사전 학습, 평생 학습 시나리오를 위한 표준화된 메트릭으로 공정한 직접 비교를 가능하게 함.
광범위한 베이스라인 연구 – 최신 강화학습(RL), 모방 학습, 하이브리드 방법을 이용한 체계적인 실험으로 작업 다양성, 데이터셋 규모, 환경 변이가 일반화에 미치는 영향을 분석.
오픈소스 공개 – 전체 시뮬레이션 코드, 데이터 파이프라인, 벤치마크 스크립트가 관용적인 라이선스 하에 공개됨.

방법론

RoboCasa365는 기존 RoboCasa 물리 기반 시뮬레이터(Python‑Bullet/IsaacGym 기반)를 기반으로 구축됩니다. 저자들은 먼저 다음을 무작위화하여 주방 환경 라이브러리를 절차적으로 생성합니다:

레이아웃 기하 – 캐비닛 위치, 카운터탑 치수, 가전제품 위치.
오브젝트 인벤토리 – 그릇, 음식 아이템, 식기류 등의 종류, 수량 및 초기 자세.

각 환경은 목표 상태를 지정하는 작업 정의와 짝을 이룹니다(예: “컵을 코스터 위에 놓기”). 데이터 수집을 위해 두 가지 파이프라인을 사용합니다:

인간 텔레오퍼레이션 – 숙련된 운영자가 햅틱 디바이스를 통해 가상 로봇 팔을 제어하여 고품질 시연을 생성합니다.
합성 생성 – 자동 플래너(샘플링 기반 모션 플래너 + 그립 합성)가 추가 궤적을 만든 뒤, 도메인 랜덤화를 적용해 인간 변동성을 모방하도록 정제합니다.

모든 시연은 로봇 관절 명령, RGB‑D 관측, 의미론적 씬 그래프 시퀀스로 저장됩니다. 벤치마크는 세 가지 평가 체계를 정의합니다:

체계	목표	전형적인 알고리즘
다중‑작업 학습	365개의 모든 작업을 해결하는 단일 정책 학습	멀티‑헤드 RL / 작업‑조건부 IL
기초 모델 사전‑학습	전체 시연 코퍼스를 사전 학습한 뒤, 일부에 대해 미세 조정	대규모 행동 클로닝 + 미세 조정
지속 학습	재앙적 망각 없이 새로운 작업/환경을 점진적으로 추가	지속 RL / 리플레이 버퍼

성능은 성공률, 완료 시간, 그리고 일반화 점수(특정 주방 레이아웃에 과도하게 맞춰지는 것을 벌점으로 처리)로 측정됩니다.

결과 및 발견

실험	핵심 변수	결과
데모 데이터 스케일링 (0 h → 2 200 h)	데이터셋 크기	기본 행동‑복제 모델에서 성공률이 약 22 %에서 약 58 %로 상승했으며, 약 1 500 h 이후에는 수익 감소가 나타났습니다.
환경 다양성 변화 (500 → 2 500 kitchens)	장면 다양성	전체 세트로 학습했을 때 일반화 점수가 약 30 % 향상되었으며, 시각적 및 기하학적 다양성이 중요함을 확인했습니다.
다중 작업 vs. 단일 작업 훈련	정책 범위	단일 범용 정책이 모든 작업에서 평균 약 45 % 성공률을 달성했으며, 전체 데이터 효율성 측면에서 365개의 작업‑특정 정책(평균 약 38 %)보다 우수했습니다.
리플레이 버퍼를 활용한 지속 학습	재앙적 망각	적당한 리플레이 버퍼(과거 데이터의 5 %)를 추가하면 50개의 새로운 작업을 도입할 때 망각이 70 % 이상 감소에서 15 % 미만으로 감소했습니다.

전반적으로 저자들은 데이터 규모와 환경 다양성이 순수한 모델 크기보다 일반화 예측에 더 강력한 요인임을 결론짓습니다. 또한, 벤치마크의 폭넓은 범위를 활용한다면 통합된 범용 정책이 다수의 좁은 전문가들을 훈련하는 것보다 데이터 효율성이 높을 수 있습니다.

Practical Implications

Rapid prototyping for home‑robot startups – 개발자는 이제 물리 하드웨어에 배포하기 전에 현실적이고 다양하게 구성된 주방 환경에서 새로운 인식‑행동 파이프라인을 벤치마크할 수 있어 비용이 많이 드는 실제 세계의 시행착오를 줄일 수 있습니다.
Foundation‑model pre‑training pipelines – 방대한 데모 코퍼스는 대규모 모방 학습 모델(예: Diffusion‑based policies)을 훈련시키기에 이상적이며, 이후 특정 가정 업무에 맞게 미세 조정할 수 있습니다.
Curriculum design for lifelong robots – 리플레이 버퍼 크기와 환경 무작위화에 대한 인사이트는 기존 기술을 잊지 않으면서 지속적으로 새로운 기술을 습득하는 로봇을 구축하기 위한 구체적인 지침을 제공합니다.
Standardized reporting – 공유 API와 메트릭을 통해 기업은 실제 데모와 함께 “success rates on RoboCasa365”를 공개할 수 있어 업계 전반에서 진행 상황을 비교 가능하게 합니다.
Simulation‑to‑real transfer research – 합성 데모가 인간의 변동성을 모방하고 환경이 매우 다양하기 때문에, 이 벤치마크는 도메인 무작위화 및 sim‑to‑real 기법에 대한 스트레스 테스트 역할을 하여 시뮬레이션에서 실용적인 주방 보조 로봇으로의 전환을 가속화합니다.

제한 사항 및 향후 연구

시뮬레이션 정확도 – 물리 시뮬레이션은 비교적 정확하지만, 부드러운 음식 변형이나 정밀 마찰과 같은 촉각적 미세 차이는 여전히 근사치로 처리되어 섬세한 조작이 필요한 실제 작업으로의 직접 전이에는 제한이 있을 수 있습니다.
작업 범위 – 이 벤치마크는 주방 환경에 초점을 맞추고 있으며, 거실이나 욕실 등 다른 가정 영역으로 확장하면 적용 범위가 넓어집니다.
인간 데이터 편향 – 원격 조작 시연은 비교적 적은 수의 운영자들로부터 수집되어 조작 스타일이 제한적일 수 있습니다. 향후 버전에서는 크라우드소싱된 시연을 도입해 행동 다양성을 높일 수 있습니다.
지속 학습의 확장성 – 현재 실험에서는 최대 50개의 새로운 작업을 추가했으며, 수개월에 걸쳐 수백 개의 작업으로 구성된 진정한 개방형 커리큘럼을 평가하는 것은 아직 해결되지 않은 과제입니다.
벤치마크 진화 – 저자들은 동적인 객체(예: 흘러넘치는 액체)와 다중 에이전트 시나리오를 포함한 “RoboCasa‑plus” 버전을 출시할 예정이며, 이를 통해 일반 정책에 대한 스트레스 테스트를 더욱 강화할 것입니다.

RoboCasa365는 가정용 로봇의 체계적이고 대규모 평가를 향한 중요한 발걸음입니다. 재현 가능한 벤치마킹 장벽을 낮춤으로써 개발자들에게 실용적인 실험 환경을 제공하고, 언젠가 유용한 주방 로봇이라는 꿈을 일상 현실로 만들 수 있는 알고리즘을 반복 개발할 수 있게 합니다.

저자

Soroush Nasiriany
Sepehr Nasiriany
Abhiram Maddukuri
Yuke Zhu

논문 정보

arXiv ID: 2603.04356v1
Categories: cs.RO, cs.AI, cs.LG
Published: 2026년 3월 4일
PDF: PDF 다운로드

[Paper] RoboCasa365: 대규모 시뮬레이션 프레임워크를 통한 Generalist Robots 훈련 및 벤치마킹

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] SimpliHuMoN: 인간 동작 예측을 간소화

[Paper] SELDON: Deep ODE Networks에 의해 학습된 초신성 폭발

[Paper] ZipMap: Linear-Time Stateful 3D 재구성과 Test-Time Training

[Paper] 신뢰를 거래로 전환: 유튜브 인플루언서 경제에서 Affiliate Marketing 및 FTC Compliance 추적