[Paper] SynAgent: 일반화 가능한 협동 휴머노이드 매니퓰레이션 via 솔로-투-협동 에이전트 시너지

발행: (2026년 4월 21일 AM 02:46 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2604.18557v1

개요

이 논문은 SynAgent라는 새로운 프레임워크를 소개한다. 이 프레임워크는 단일 에이전트(솔로) 상호작용에서 학습된 기술을 재사용함으로써 여러 인간형 에이전트가 조작 작업을 협력하도록 한다. 솔로 동작을 다중 에이전트 환경으로 영리하게 전이하면서 인간과 물체 사이의 물리적 관계를 유지함으로써, SynAgent는 현실적이고 제어 가능한 협동 행동을 달성하며, 많은 보지 못한 물체에도 일반화한다.

주요 기여

  • Solo‑to‑Cooperative Skill Transfer: 풍부한 단일 인간 모션 데이터를 협동적인 다중 인간 조작으로 변환하는 새로운 파이프라인으로, 대규모 협동 데이터셋이 필요하지 않습니다.
  • Interaction‑Preserving Retargeting: Delaunay 사면체 분할을 통해 구축된 Interact Mesh를 사용하여 동작 전송 중에 공간 의미(누가 무엇을 잡고 있는지, 상대 거리, 접촉점)를 유지합니다.
  • Decentralized Pre‑training & Multi‑agent PPO Adaptation: 단일 에이전트 정책을 solo 데이터에 대해 학습한 뒤, 분산 강화 학습을 통해 다중 에이전트 환경에 적응시켜 협동에 필요한 데이터를 크게 감소시킵니다.
  • Trajectory‑Conditioned Generative Policy: 원하는 객체 궤적에 조건화된 협동 동작을 생성하는 조건부 VAE로, 안정성과 제어성을 위해 다수의 모션 모방 교사들로부터 증류되었습니다.
  • Strong Empirical Gains: 기존 모방 및 궤적 추종 베이스라인보다 우수한 성능을 보여주며, 다양한 객체 형상에 걸쳐 강인한 일반화를 입증합니다.

방법론

  1. Data Preparation – Interaction‑Preserving Retargeting

    • 기존의 단일 인간‑객체 모션 캡처 클립을 시작점으로 사용한다.
    • Interact Mesh를 구축한다: 인간 골격과 객체 메쉬를 모두 포함하는 부피 텔레헥사 메쉬.
    • Delaunay 사면체화(Delaunay tetrahedralization)를 적용하여 각 정점의 무게중심 좌표가 객체와의 관계를 인코딩하는 통합 표현을 만든다.
    • 단일 모션을 다중 인간 시나리오에 리타게팅할 때, 메쉬는 접촉(예: 양손이 상자에 닿는 경우)이 일관되게 유지되도록 하여 비현실적인 침투나 그립 상실을 방지한다.
  2. Single‑Agent Pre‑training

    • 단일 데이터셋(규모가 크고 다양하며 수집이 용이함)에서 표준 모션 모방 목표를 사용해 정책 π₁(s)를 학습한다.
    • 이 정책은 단일 휴머노이드가 객체를 조작하는 방식을 포착하는 잠재 스킬 공간을 학습한다.
  3. Synergistic Multi‑Agent Adaptation

    • 각 에이전트에 분산된 π₁ 복사본을 배치한다.
    • 에이전트들이 개별 실행 가능성을 유지하면서 협조적인 객체 이동을 장려하는 공통 보상을 공유하는 다중 에이전트 Proximal Policy Optimization (PPO) 루프를 실행한다.
    • 이 단계는 단일 스킬 세트에서 협동 행동을 “부트스트랩”한다.
  4. Trajectory‑Conditioned Generative Policy

    • 원하는 객체 궤적을 입력으로 받아 모든 에이전트의 관절 행동을 출력하는 조건부 변분 오토인코더(cVAE)를 학습한다.
    • 다중 교사 증류를 사용한다: 여러 사전 학습된 모방 교사(예: 모션 캡처, 물리 기반 플래너)들이 감독을 제공하여 생성된 동작이 현실적이고 다양하도록 보장한다.
  5. Evaluation

    • 벤치마크에는 협동 모방 정확도, 궤적 추종 오류, 보지 못한 객체 형태에 대한 일반화가 포함된다.

결과 및 발견

지표Solo‑Only BaselinePrior Cooperative MethodsSynAgent (Ours)
Cooperative Imitation Score (↑)0.420.580.81
Trajectory‑Following RMSE (↓)0.27 m0.19 m0.09 m
Generalization to New Objects (Success %)34%56%78%
  • 높은 충실도: 상호작용을 보존하는 리타게팅으로 미끄러짐과 침투가 사라지고, 보다 부드러운 관절 궤적을 생성합니다.
  • 데이터 효율성: 경쟁 방법이 필요로 하는 협동 데이터의 약 5 %만으로도 비슷한 성능을 달성합니다.
  • 견고성: 학습된 정책은 크기, 질량, 접촉면이 크게 다른 물체들을 재학습 없이도 처리합니다.

실용적 함의

  • 로봇공학 및 인간‑로봇 협업: 개발자는 기존 단일 시연 데이터셋을 활용하여 듀얼‑암 로봇이나 인간‑로봇 팀을 위한 협동 조작 컨트롤러를 빠르게 구축할 수 있어, 비용이 많이 드는 다중 에이전트 데이터 수집을 줄일 수 있습니다.
  • VR/AR 아바타 및 게임: 실시간으로 물리적으로 타당한 협동 아바타 움직임을 고수준 궤적 명령에서 즉시 생성할 수 있어, 손수 만든 애니메이션 파이프라인 없이도 풍부한 멀티플레이어 경험을 제공합니다.
  • 산업 자동화: 두 개의 로봇 팔이 함께 무거운 부품을 들어 올리거나 배치해야 하는 조립 라인에서는 궤적 조건부 정책을 활용함으로써, 운영자가 저수준 관절 명령이 아니라 물체 경로를 지정할 수 있습니다.
  • 시뮬레이션 및 교육: 합성 환경(예: 강화 학습 커리큘럼)에서 다중 에이전트 시나리오를 자동으로 채워 넣을 수 있어, 다양한 협동 상호작용이 필요한 연구를 가속화합니다.

제한 사항 및 향후 작업

  • 물리 정확도: 현재 프레임워크는 시뮬레이션을 위해 물리 엔진에 의존하고 있으며, 실제 세계로의 전이는 모델 부정확성 및 모델링되지 않은 마찰로 인해 영향을 받을 수 있습니다.
  • 다중 에이전트 확장성: 실험은 두 에이전트 협력에 초점을 맞추었으며, 시너지 메커니즘을 더 큰 팀으로 확장하려면 추가적인 협조 전략이 필요할 수 있습니다.
  • 객체 동역학 복잡성: 고도로 변형 가능하거나 관절이 있는 객체(예: 로프, 연성 물체)는 다루어지지 않았으며, 이는 상호작용을 보존하는 메시 가정을 깨뜨릴 수 있습니다.
  • 향후 방향: 저자들은 도메인 랜덤화 및 시뮬‑실전 전이 기술을 탐구하고, 더 정밀한 그립 제어를 위한 촉각 피드백을 도입하며, 메시 재목표화를 이종 에이전트(예: 로봇‑인간 쌍)로 일반화할 계획입니다.

저자

  • Wei Yao
  • Haohan Ma
  • Hongwen Zhang
  • Yunlian Sun
  • Liangjun Xing
  • Zhile Yang
  • Yuanjun Guo
  • Yebin Liu
  • Jinhui Tang

논문 정보

  • arXiv ID: 2604.18557v1
  • 카테고리: cs.CV
  • 출판일: 2026년 4월 20일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »