[Paper] CRoSS: 높은 과제 다양성과 현실적인 물리 시뮬레이션을 갖춘 확장 가능한 강화 학습을 위한 지속적인 로봇 시뮬레이션 스위트

발행: 4일 전 (2026년 2월 5일 오전 03:54 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.04868v1

개요

이 논문은 CRoSS라는 새로운 벤치마크 스위트를 소개한다. 이 스위트를 통해 연구자들은 현실감 있게 시뮬레이션된 로봇에서 지속적 강화학습(CRL) 에이전트를 훈련하고 평가할 수 있다. Gazebo 물리 엔진과 다양한 센서 모달리티를 활용함으로써, CRoSS는 높은 충실도와 높은 확장성을 갖춘 플랫폼을 제공하여 에이전트가 이전 기술을 잊지 않고 일련의 작업을 학습하는 방법을 연구할 수 있게 한다.

주요 기여

두 개의 완전 시뮬레이션 로봇 플랫폼 – 차동 구동 로봇(lidar, 카메라, 범퍼)과 7‑DoF 로봇 팔, 모바일 로봇 및 조작 분야 모두를 포괄합니다.
다양한 작업 – 시각 텍스처, 경기장 레이아웃, 객체 속성을 체계적으로 변형하여 수백 개의 고유한 라인 따라가기, 물체 밀기, 목표 도달 작업을 생성합니다.
팔에 대한 이중 레벨 제어 – 고수준 Cartesian 목표(Continual World 벤치마크와 동일)와 저수준 관절 각도 명령을 제공하며, 물리 시뮬레이션이 필요 없을 때 약 100× 빠른 운동학 전용 모드도 포함합니다.
컨테이너화된 재현 가능한 설정 – 모든 종속성을 포함한 Apptainer(구 Singularity) 이미지가 제공되어 Linux, HPC 클러스터 또는 클라우드 VM에서 원클릭 실행이 가능합니다.
베이스라인 결과 – 전체 작업 스위트에 걸친 고전 RL 알고리즘(DQN, PPO, SAC)의 성능 수치를 제공하여 향후 CRL 연구를 위한 기준점을 설정합니다.

방법론

시뮬레이션 환경 – CRoSS는 정확한 강체 역학, 접촉 모델링 및 센서 노이즈를 제공하는 오픈‑소스 Gazebo 시뮬레이터를 기반으로 구축됩니다. 두 로봇은 URDF 파일로 정의되고, 원시 센서 스트림(예: 라이다 포인트 클라우드, RGB 이미지)을 학습 에이전트에 노출하는 플러그인을 장착합니다.
작업 생성 – 각 로봇에 대해 파라미터 그리드가 경기장 크기, 선 곡률, 물체 형태, 조명 및 텍스처와 같은 요소를 제어합니다. 이 그리드를 샘플링하면 에이전트가 연속적으로 마스터해야 하는 작업 시퀀스가 생성됩니다.
지속 학습 프로토콜 – 에이전트는 성능 임계값에 도달할 때까지 하나의 작업을 학습하고, 이후 정책 네트워크를 초기화하지 않은 채 환경을 다음 작업으로 전환합니다. 평균 반환, 망각률, 전이 학습과 같은 지표가 기록됩니다.
기본 알고리즘 – 저자들은 세 가지 기존 RL 방법을 구현했습니다:
- DQN (값 기반, 휠 로봇을 위한 이산 행동)
- PPO (정책 그라디언트, 팔을 위한 연속 행동)
- SAC (소프트 액터‑크리틱, 엔트로피 정규화를 포함한 연속 행동)
각 알고리즘은 소규모 신경망 구조(2–3개의 은닉층, 각 256 유닛)와 표준 하이퍼파라미터를 사용하여 작업 간 공정한 비교가 가능하도록 합니다.
Fast‑Path 운동학 모드 – 촉각 피드백이 필요 없는 조작 작업의 경우 물리 엔진을 우회할 수 있습니다. 팔의 전방 운동학을 해석적으로 계산하면 시뮬레이션 시간이 단계당 약 30 ms에서 ~0.3 ms로 감소하여 대규모 하이퍼파라미터 탐색에 유용합니다.

결과 및 발견

로봇	벤치마크	알고리즘	최종 평균 반환	망각 (5 작업 후 Δ)
Wheeled	Line‑follow (100 variants)	DQN	0.78 (normalized)	0.12
Wheeled	Object‑push (80 variants)	DQN	0.71	0.18
Arm (high‑level)	Goal‑reach (50 variants)	PPO	0.84	0.09
Arm (low‑level)	Goal‑reach (50 variants)	SAC	0.88	0.07

학습 곡선은 에이전트가 초기 몇 개의 작업에 빠르게 적응하지만, 시퀀스가 진행됨에 따라 이전 작업들의 성능이 약간 감소하는 모습을 보여줍니다—이는 전형적인 재앙적 망각 현상입니다.
**정책 그래디언트 방법(PPO, SAC)**은 연속 제어 작업에서 값 기반 DQN보다 성능이 우수하며, 망각 비율도 낮습니다.
운동학 전용 모드는 팔에 대해 동일한 학습 성능을 제공하면서도 실제 시계 시간 훈련 시간을 대략 100배 정도 단축시켜, 특정 CRL 연구에서는 전체 물리 시뮬레이션이 항상 필요하지 않음을 확인합니다.

Practical Implications

Robotics developers는 실제 하드웨어에 배포하기 전에 연속 학습 파이프라인을 위한 즉시 사용 가능한 테스트베드로 CRoSS를 활용할 수 있어 물리적 로봇에서 비용이 많이 드는 시행착오를 줄일 수 있습니다.
현실감 있는 센서 모델(카메라 노이즈, 라이다 드롭아웃)과 물리 엔진 덕분에 시뮬레이션‑실제 전이가 용이해지며, CRoSS에서 학습된 정책은 sim‑2‑real 미세 조정의 강력한 출발점이 됩니다.
새로운 CRL 알고리즘의 벤치마킹이 더 투명해집니다: 컨테이너화된 환경은 “내 컴퓨터에서는 동작한다”는 문제를 없애고, 작업 스위트의 파라미터화 덕분에 팀이 맞춤형 커리큘럼(예: 커리큘럼 학습, 메타‑학습)을 설계할 수 있습니다.
엣지 컴퓨팅 연구는 빠른 운동학 모드의 혜택을 받아 경량 모델에 대한 빠른 반복이 가능해지며, 이는 궁극적으로 임베디드 로봇 컨트롤러에서 실행될 수 있습니다.

제한 사항 및 향후 작업

시뮬레이션 정확도와 속도 간의 트레이드‑오프: Gazebo는 높은 현실감을 제공하지만 순수 운동학 시뮬레이터보다 느리며, 이는 물리‑집약적인 작업에 대한 대규모 하이퍼파라미터 탐색을 제한할 수 있습니다.
센서 다양성은 아직 제한적: 현재 이 스위트는 라이다, RGB 카메라, 범퍼를 지원하며, 촉각 또는 힘‑토크 센서를 추가하면 보다 정교한 조작 시나리오에 적용 범위를 넓힐 수 있습니다.
작업 순서는 고정되어 있으며, 제시된 실험에서는 순서가 고정되었습니다; 적응형 커리큘럼이나 적대적 작업 순서를 탐색하면 지속 학습 역학에 대한 더 깊은 통찰을 얻을 수 있습니다.
실제 세계 검증은 향후 과제로 남겨두었습니다—CRoSS 정책과 실제 로봇 배치를 연결하는 것이 벤치마크의 실용적 관련성을 확인하는 데 필수적일 것입니다.

저자

Yannick Denker
Alexander Gepperth

논문 정보

arXiv ID: 2602.04868v1
분류: cs.LG, cs.AI
출판일: 2026년 2월 4일
PDF: PDF 다운로드

[Paper] CRoSS: 높은 과제 다양성과 현실적인 물리 시뮬레이션을 갖춘 확장 가능한 강화 학습을 위한 지속적인 로봇 시뮬레이션 스위트

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] Pseudo-Invertible Neural Networks

[Paper] 거의 엄격한 지속 학습을 위한 공유 LoRA 서브스페이스

[Paper] DyTopo: 시맨틱 매칭을 통한 다중 에이전트 추론을 위한 동적 토폴로지 라우팅

[Paper] CommCP: 효율적인 다중 에이전트 협조를 위한 LLM 기반 커뮤니케이션과 컨포멀 프레딕션