[Paper] InterPrior: 물리 기반 인간-객체 상호작용을 위한 Generative Control 스케일링
발행: (2026년 2월 6일 오전 03:59 GMT+9)
8 분 소요
원문: arXiv
Source: arXiv - 2602.06035v1
Overview
이 논문은 InterPrior라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 생성형 컨트롤러가 물체와 상호작용하는 인간의 전신 움직임을 물리적으로 타당하게 생성하도록 학습시킵니다. 대규모 모방 학습과 강화 학습 미세 조정을 결합함으로써, 저자들은 컵을 집어 들기, 문을 열기, 움직이는 플랫폼 위에서 균형 잡기와 같은 다양한 로코‑매니퓰레이션 작업을 물리적 기반을 유지하면서 처리할 수 있는 모션 프라이어리를 만들었습니다.
주요 기여
- 통합 생성 컨트롤러: 대규모 모션 캡처 데이터셋으로 학습하고, “잡기”, “밀기”, “걷기”와 같은 고수준 의도에 조건화될 수 있음.
- 목표 조건 변분 정책: 다중 모달 관측치(포즈, 접촉, 객체 상태)와 고수준 명령을 재구성함.
- 물리적 데이터 증강(교란, 힘 주입): 사전 학습 단계에서 모델이 분포 외 상황에 노출되도록 함.
- 강화 학습 미세 조정: 증류된 정책을 다듬어 보지 못한 목표와 초기 상태에 대한 강인성을 향상시킴.
- 인터랙티브 제어 시연(실시간 사용자 조작) 및 실제 로봇으로의 전이를 통해 모델의 실용성을 입증함.
방법론
-
Imitation Pre‑training
- 사람과 물체의 상호작용 클립(예: 물건을 들고 걷는 모션 캡처 기록) 대규모 데이터셋을 수집합니다.
- 전체 미래 궤적을 모두 볼 수 있는 full‑reference expert(고용량 모델)를 학습시켜 이 클립들을 모방하게 합니다.
- 이 전문가를 goal‑conditioned variational policy로 증류합니다. 이 정책은 현재 관찰과 고수준 의도만을 입력으로 받아, 원래 동작을 재구성할 수 있는 잠재 “skill space”를 학습합니다.
-
Physical Perturbation Augmentation
- 학습 중에 무작위로 힘을 가하거나, 물체 질량을 변경하거나, 관절 위치에 잡음을 추가합니다.
- 이를 통해 정책이 물리적으로 비현실적인 상태에서 회복하는 방법을 배우게 하여, 도달 가능한 잠재 매니폴드를 확장합니다.
-
Reinforcement‑Learning Fine‑tuning
- 물리 위반(예: 관통, 균형 상실)을 벌점으로 주고, 작업 완수(예: 목표 물체에 도달)를 장려하는 보상을 정의합니다.
- RL(예: PPO)을 사용해 정책 파라미터를 조정함으로써 보지 못한 목표와 새로운 물체 구성에 대한 성능을 향상시킵니다.
-
Inference & Interaction
- 실행 시 개발자가 고수준 명령(예: “빨간 상자를 집어 들어”)과 선택적인 제약조건(원하는 손 위치)을 제공합니다.
- 정책은 잠재 공간에서 샘플링하여 물리 법칙과 사용자의 의도를 모두 만족하는 전신 궤적을 생성합니다.
결과 및 발견
- 일반화: 미세 조정된 정책은 모방 학습 중에 보지 못한 객체와 자세를 성공적으로 처리했으며, RL 미세 조정이 없는 기본 모델보다 우수한 성능을 보였습니다.
- 물리적 일관성: 정량적 지표(예: 무게 중심 안정성, 접촉력)에서 순수 모방 기반 모델에 비해 균형 위반이 30 % 감소했습니다.
- 인터랙티브 제어: 실시간 사용자 조향 실험에서 의도 간 부드러운 전환이 이루어졌으며, 눈에 띄는 진동이나 발 미끄러짐이 없었습니다.
- 로봇 전이: 인간형 로봇 플랫폼에 배치했을 때, 컨트롤러는 로봇의 토크 한계를 준수하는 실행 가능한 관절 명령을 생성했으며, “의자를 밀기”와 “상자를 들어올리기”와 같은 작업을 최소한의 추가 튜닝으로 수행할 수 있었습니다.
실용적 함의
- Game & VR Development: InterPrior는 동적 환경과 상호작용해야 하는 아바타를 위한 플러그‑앤‑플레이 모션 프라이어로 활용될 수 있어, 수작업 애니메이션 블렌드의 필요성을 줄여줍니다.
- Robotics: 인간형 로봇은 학습된 프라이어를 활용하여 방대한 작업‑특정 프로그래밍 없이도 새로운 조작 기술을 빠르게 습득할 수 있습니다—가정이나 창고에서 서비스 로봇에 특히 유용합니다.
- Simulation‑Based Training: 자율 주행이나 군중 시뮬레이션 파이프라인에 현실적인 인간‑물체 상호작용을 주입함으로써 안전 검증과 시나리오 다양성을 향상시킬 수 있습니다.
- Human‑Centric AI Assistants: 인간 행동을 시연하거나 예측해야 하는 가상 비서(예: AR 코칭 앱)는 모델을 사용해 즉석에서 그럴듯한 전신 시연을 생성할 수 있습니다.
제한 사항 및 향후 작업
- 데이터셋 편향: 모델의 성능은 모방 데이터셋의 다양성에 좌우됩니다; 희귀하거나 매우 전문화된 상호작용은 여전히 충분히 대표되지 않을 수 있습니다.
- 계산 비용: 고자유도 인간형 로봇의 실시간 추론은 GPU 가속이 필요하며, 이는 엣지 디바이스에 병목이 될 수 있습니다.
- 세밀한 손재주: 프레임워크가 거친 이동‑조작을 잘 처리하지만, 세밀한 손가락 조작(예: 타이핑)은 현재 범위 밖에 있습니다.
- 향후 방향: 저자들은 다중 에이전트 시나리오로 확장하고, 실시간 객체 탐지를 위한 비전 기반 인식을 통합하며, 보다 샘플 효율적인 강화학습 미세조정 방법을 탐구할 것을 제안합니다.
저자
- Sirui Xu
- Samuel Schulter
- Morteza Ziyadi
- Xialin He
- Xiaohan Fei
- Yu‑Xiong Wang
- Liangyan Gui
논문 정보
- arXiv ID: 2602.06035v1
- Categories: cs.CV, cs.GR, cs.RO
- Published: February 5, 2026
- PDF: PDF 다운로드