[Paper] OSMO: 오픈소스 촉각 장갑을 이용한 인간‑로봇 스킬 전이

발행: (2025년 12월 10일 오전 03:56 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.08920v1

Overview

이 논문은 OSMO라는 오픈소스 촉각 장갑을 소개한다. 이 장갑은 인간 시연자로부터 고해상도 접촉 데이터(법선 및 전단력)를 캡처하고 이를 로봇 학습 파이프라인에 직접 전달한다. “시각‑촉각 구현 격차”를 메우면서 OSMO는 로봇이 순수 인간 비디오 시연만으로 접촉이 풍부한 조작 기술을 습득하도록 한다—로봇 측 데이터 수집이 전혀 필요하지 않다.

Key Contributions

  • 오픈소스 하드웨어: 12개의 센서와 3축 촉각 장갑에 대한 전체 CAD 파일, PCB 레이아웃, 펌웨어, 단계별 조립 설명서 제공.
  • 통합 센싱 인터페이스: 인간 시연자와 로봇 엔드‑이펙터 모두에 동일한 촉각 데이터 스트림을 제공해 도메인 전이를 단순화.
  • 접촉 인식 학습 파이프라인: 인간이 수집한 촉각 궤적만으로 학습된 정책이 실제 와이핑 작업을 72 % 성공률로 해결함을 시연.
  • 시각‑전용 베이스라인과의 벤치마크: 촉각 피드백을 통합했을 때 접촉 관련 실패 모드가 명확히 감소함을 보여줌.
  • 기존 손 추적과의 호환성: “현장(in‑the‑wild)” 데이터 캡처를 위해 최첨단 비전 기반 손 자세 추정기와 함께 동작하도록 설계.

Methodology

  1. Glove Design – 각 손끝과 손바닥에 3축 힘 센서(총 12개)를 탑재하여 법선 및 전단력을 ~200 Hz로 스트리밍한다. 장갑은 가볍고 무선이며 작은 Li‑Po 배터리로 구동된다.
  2. Data Collection – 인간 작업자는 장갑을 착용하고 표준 RGB 카메라와 손‑추적 시스템(예: MediaPipe)으로 캡처된 조작 시연을 수행한다. 촉각 스트림은 비디오 및 자세 데이터와 동기화된다.
  3. Policy Training – 저자들은 행동 클로닝을 사용한다: 로봇의 신경망은 동기화된 시각 자세와 촉각 판독값을 입력으로 받아 관절 명령을 예측한다. 학습 과정에서 로봇 측 인터랙션 데이터는 전혀 사용되지 않는다.
  4. Deployment – 동일한 장갑(또는 로봇에 장착된 복제본)을 6‑DOF 매니퓰레이터에 부착한다. 실행 중 로봇은 자체 촉각 센서를 읽어 학습된 정책에 피드백하여 폐루프 제어를 수행한다.
  5. Evaluation – 접촉이 집중되는 와이핑 작업(표면에 일정 압력을 유지하면서 측면으로 이동)을 사용해 촉각 인식 정책과 시각 전용 베이스라인을 비교한다.

Results & Findings

  • Success Rate: 촉각 인식 정책은 50번 시도 중 **72 %**의 작업 성공률을 기록했으며, 최고 시각 전용 베이스라인은 약 45 %에 머물렀다.
  • Failure Mode Reduction: 대부분의 시각 전용 실패는 접촉 손실(슬립)이나 과도한 힘 때문이었으며, 촉각 피드백을 통해 로봇이 실시간으로 압력을 조정할 수 있었다.
  • Generalization: 인간 시연으로 학습된 정책이 로봇에 그대로 전이되었으며, 별도의 파인‑튜닝 없이도 구현 차이를 효과적으로 메워준다.
  • Latency: 센싱‑to‑액션 전체 지연은 30 ms 이하로 유지돼 테스트 시나리오에서 안정적인 폐루프 힘 제어에 충분했다.

Practical Implications

  • Rapid Skill Acquisition: 개발자는 YouTube와 같은 대규모 인간 시연 라이브러리를 수집해 로봇 측 데이터 수집 비용 없이 즉시 촉각 인식 로봇을 학습시킬 수 있다.
  • Lower Barrier to Contact‑Rich Tasks: 힘 제어가 중요한 조립, 청소, 식품 취급 등 산업 분야에서 OSMO를 활용하면 견고한 조작 파이프라인을 더 빠르게 프로토타이핑할 수 있다.
  • Modular Integration: 장갑이 표준 ROS 메시지를 출력하므로 기존 인식‑행동 스택에 손쉽게 삽입해 비전 전용 데이터셋에 힘 정보를 보강할 수 있다.
  • Open‑source Ecosystem: 공개된 하드웨어와 펌웨어는 커뮤니티가 센서 밀도 확대, 원격 조작을 위한 햅틱 피드백 등으로 확장하도록 장려하며 재현성을 높인다.

Limitations & Future Work

  • Sensor Coverage: 손끝과 손바닥만 계측되며, 손가락 패드와 같은 미세 접촉 지점은 캡처되지 않아 섬세한 힘 조절이 필요한 작업에서 성능이 제한될 수 있다.
  • Calibration Overhead: 정확한 힘 판독을 위해 각 장갑마다 별도 보정이 필요해 대규모 배포 시 설정 단계가 추가된다.
  • Scalability of Demonstrations: 장갑 자체는 저렴하지만, 다양한 고품질 인간 시연을 확보하려면 신중한 교육과 일관된 손 추적 품질 관리가 필요하다.
  • Future Directions: 저자들은 (1) 손등에 추가 전단‑감지 센서를 통합, (2) 보정 노력을 줄이기 위한 자체 지도 도메인 적응 탐색, (3) 촉각, 비전, 오디오 신호를 융합한 다중 모달 학습으로 기술 전이 범위를 더욱 풍부하게 확장하는 방안을 계획하고 있다.

Authors

  • Jessica Yin
  • Haozhi Qi
  • Youngsun Wi
  • Sayantan Kundu
  • Mike Lambeta
  • William Yang
  • Changhao Wang
  • Tingfan Wu
  • Jitendra Malik
  • Tess Hellebrekers

Paper Information

  • arXiv ID: 2512.08920v1
  • Categories: cs.RO, cs.LG
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »