[Paper] ImplicitRDP: 구조적 슬로우-패스트 학습을 이용한 엔드투엔드 비주얼-포스 디퓨전 정책
발행: (2025년 12월 12일 오전 03:59 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.10946v1
개요
이 논문은 ImplicitRDP라는 단일 네트워크 확산 정책을 소개한다. 이 정책은 시각 인식과 힘 피드백을 융합하여 접촉이 많은 로봇 조작을 가능하게 한다. 시각을 “느린” 전역 신호, 힘을 “빠른” 국부 신호로 취급함으로써, 저자는 로봇이 높은 힘 센서 주파수에서 반응하면서도 일관된 움직임 시퀀스를 계획할 수 있는 학습 방식을 고안했다. 이는 로봇 손이 실제 조립, 삽입, 취급 작업에서 더 신뢰할 수 있게 만드는 진전이다.
주요 기여
- 통합 시각‑힘 확산 정책: 기존의 두 단계(시각 플래너 + 힘 컨트롤러) 파이프라인을 대체한다.
- 구조적 슬로우‑패스트 학습: 비동기 시각 토큰(저속)과 힘 토큰(고속)을 동일한 트랜스포머 내에서 처리하는 인과‑어텐션 메커니즘으로, 행동 청크의 시간적 일관성을 유지하면서 빠른 힘 수준 보정을 가능하게 한다.
- 가상‑목표 표현 정규화: 힘 피드백을 로봇 행동과 동일한 잠재 공간으로 매핑하는 보조 손실로, 네트워크가 힘 모달리티를 무시하는 현상(모달리티 붕괴)을 방지한다.
- 엔드‑투‑엔드 학습: 원시 RGB‑D와 힘 스트림을 별도의 특징 엔지니어링이나 별도 컨트롤러 없이 학습한다.
- 실증 검증: 여러 접촉‑풍부 작업(구멍에 못 박기, 서랍 열기, 케이블 라우팅)에서 시각‑전용 및 계층적 베이스라인에 비해 성공률이 높고 지연 시간이 낮음을 보여준다.
방법론
1. 데이터 표현
- 시각 토큰: 짧은 비디오 클립(예: 5 Hz)에서 사전 학습된 CNN 인코더로 추출한다.
- 힘 토큰: 센서의 원시 샘플링 속도(≈100 Hz)에서 추출하고 가벼운 MLP로 임베딩한다.
2. 슬로우‑패스트 트랜스포머
- 모델은 두 스트림의 토큰을 쌓는다.
- 인과 어텐션은 각 힘 토큰이 과거의 모든 시각 토큰에만 주목하도록 하여 “느린” 컨텍스트를 보존하고 “빠른” 반응 업데이트를 가능하게 한다.
- 트랜스포머는 확산 잠재를 출력하고, 이는 이후에 로봇 관절 행동(행동 청크) 시퀀스로 디노이징된다.
3. 확산 정책
- 표준 디노이징 확산 확률 모델(DDPM)이 노이즈가 섞인 잠재 샘플로부터 부드러운 행동 궤적을 생성한다.
- 확산 과정은 결합된 시각‑힘 표현에 조건화되어, 정책이 전역 기하와 순간 접촉 힘을 모두 고려한 행동을 샘플링하도록 한다.
4. 가상‑목표 정규화
- 보조 네트워크가 힘 임베딩으로부터 “가상 목표” 벡터를 예측하고, 이 벡터를 확산 디코더가 만든 행동 임베딩과 L2 손실을 통해 정렬하도록 강제한다.
- 정규화자는 물리 기반 그래디언트를 제공하여 정책이 실제로 힘 정보를 활용하도록 유도한다.
5. 학습
- 수집된 시연(시각 + 힘) 데이터를 사용해 전체 시스템을 세 가지 손실(확산 재구성, 힘‑대‑행동 정규화, 잠재 안정성을 위한 작은 KL 항)로 공동 학습한다.
- 별도의 힘 컨트롤러 미세조정이 필요하지 않다.
결과 및 발견
| 작업 | 성공률 (ImplicitRDP) | Vision‑Only 베이스라인 | Hierarchical (Vision + Force) |
|---|---|---|---|
| 구멍에 못 박기 (엄격한 공차) | 92 % | 68 % | 81 % |
| 서랍 열기 (가변 마찰) | 88 % | 55 % | 73 % |
| 케이블 라우팅 (동적 장애물) | 84 % | 60 % | 77 % |
- 반응성: ImplicitRDP는 힘 스파이크에 ≈10 ms 내에 반응하며, 이는 시각‑전용 플래너(≈100 ms)보다 한 차례 빠르다.
- 부드러움: 확산 디코더는 저진동 궤적을 생성해 하드웨어 마모를 감소시킨다.
- 소거 실험: 가상‑목표 정규화를 제거하면 성공률이 약 10 % 감소하고 모델이 힘 입력을 무시하게 된다; 인과 어텐션을 비활성화하면 힘 보정이 불안정해진다.
전반적으로, 통합 정책은 단일 모달리티 및 단계적 접근법을 모두 능가하면서 학습 파이프라인을 단순화한다.
실용적 함의
- 스택 간소화: 개발자는 복잡한 계층(시각 플래너 → 힘 컨트롤러)을 단일 모델로 교체할 수 있어 통합 노력과 지연 시간이 크게 감소한다.
- 플러그‑앤‑플레이 센서: 이 아키텍처는 일반적인 RGB‑D 카메라와 표준 6‑DoF 힘/토크 센서와 함께 작동하므로 기존 로봇 팔에 바로 적용 가능하다.
- 생산성 향상: 더 빠른 반응 루프는 조립 라인의 사이클 타임을 줄이며, 삽입, 체결, 표면 연마 등 접촉 역학이 지배적인 작업에 특히 유리하다.
- 변동성에 대한 강인성: 정책이 전역 컨텍스트와 국부 접촉 신호를 융합해 학습하기 때문에 부품 공차, 표면 마감, 예기치 않은 방해에 더 잘 적응한다—이는 유연한 제조와 서비스 로봇에 핵심적인 장점이다.
- 오픈‑소스 공개: 저자들은 코드와 데모 영상을 제공할 예정이며, 이를 통해 산업 연구실에서 빠른 프로토타이핑 및 벤치마킹이 가능해진다.
제한점 및 향후 연구
- 센서 의존성: 방법은 동기화되고 저지연인 힘 스트리밍을 전제로 한다; 잡음이 많거나 지연된 힘 데이터는 성능 저하를 초래할 수 있다.
- 토큰 길이 확장성: 매우 긴 시각 히스토리는 트랜스포머 메모리 사용량을 급증시킨다; 현재 구현은 시각 토큰 윈도우를 몇 초 수준으로 제한한다.
- 새 작업에 대한 일반화: 모델은 테스트된 작업들 간에 좋은 전이성을 보이지만, 완전히 새로운 접촉 역학(예: 연성 물체 조작)으로의 제로샷 적응은 아직 미해결 문제이다.
- 미래 방향: 저자들은 다중 모달 확장(예: 촉각 어레이), 장기 시계열을 위한 계층적 확산, 그리고 강인성을 높이기 위한 커리큘럼 기반 데이터 수집 등을 탐구할 것을 제안한다.
저자
- Wendi Chen
- Han Xue
- Yi Wang
- Fangyuan Zhou
- Jun Lv
- Yang Jin
- Shirun Tang
- Chuan Wen
- Cewu Lu
논문 정보
- arXiv ID: 2512.10946v1
- 분류: cs.RO, cs.AI, cs.LG
- 발표일: 2025년 12월 11일
- PDF: Download PDF