[Paper] VTAM: 복잡한 물리적 상호작용을 위한 Video‑Tactile‑Action Models, VLAs를 넘어

발행: 1일 전 (2026년 3월 25일 AM 02:45 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.23481v1

번역할 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. (코드 블록이나 URL은 그대로 유지됩니다.)

Overview

논문은 **VTAM (Video‑Tactile‑Action Model)**을 소개한다. 이는 원시 비디오 스트림과 촉각 센서 데이터를 융합하여 접촉이 많은 작업에서 로봇 조작을 향상시키는 멀티모달 프레임워크이다. 사전 학습된 비디오 트랜스포머에 경량 촉각‑모달리티 어댑터를 추가함으로써, 저자들은 시각만으로는 부족한 상황에서 촉각을 추가하면 행동 예측의 신뢰성이 크게 향상된다는 것을 보여준다.

핵심 기여

멀티모달 융합 아키텍처: 별도의 촉각 사전학습 단계 없이 기존 비디오 트랜스포머에 촉각 스트림을 주입하는 간단한 “모달리티‑전이” 파인튜닝 레이어를 소개합니다.
촉각 정규화 손실: 시각 및 촉각 표현을 균형 있게 유지하도록 하는 교차‑모달 어텐션 정규화자를 제안하여 모델이 터치 신호를 무시하는 것을 방지합니다.
실제 조작에서의 실증적 향상: 다양한 접촉‑중심 벤치마크에서 평균 90 % 성공률을 달성했으며, 강력한 비디오‑전용 베이스라인에 비해 어려운 감자칩 집기‑배치 작업에서 80 %의 상대적 개선을 보여줍니다.
확장 가능한 기반 모델 접근법: 대규모 비디오‑액션 모델에 촉각 기반을 추가할 수 있음을 입증했으며, 방대한 페어링된 비디오‑촉각‑언어 데이터셋이 필요 없어 기존 로봇 파이프라인에 실용적으로 적용할 수 있습니다.

방법론

Base Model – 사전 학습된 비디오 트랜스포머(예: ViViT 또는 TimeSformer)를 시작점으로 사용합니다. 이 모델은 이미 시공간 시각 패턴을 포착하고 있습니다.
Tactile Stream Encoder – 얕은 MLP가 원시 촉각 판독값(힘, 압력, 전단)을 비디오 트랜스포머의 입력 형식과 호환되는 토큰 시퀀스로 처리합니다.
Modality‑Transfer Finetuning – 촉각 토큰을 시각 토큰과 연결하고 트랜스포머의 어텐션 레이어에 전달합니다. 훈련 중에는 새로운 촉각 인코더와 소량의 어댑터 가중치만 업데이트하고, 비디오 모델의 대부분은 고정된 상태를 유지합니다.
Tactile Regularization – 각 순전파 단계에서 모델은 어텐션 분포 손실을 계산하여 시각 토큰이 과도하게 지배하는 것을 벌합니다. 이를 통해 정보가 있을 때 네트워크가 실제로 촉각 정보를 주목하도록 장려합니다.
Training Objective – 전체 손실은 표준 행동 예측 교차 엔트로피(또는 회귀)와 촉각 정규화 항을 결합한 형태입니다. 짝지어진 비디오‑촉각‑언어 데이터는 필요하지 않으며, 모델은 이미 동기화된 비디오와 촉각 기록을 포함하고 있는 일반 로봇 시연 로그로부터 학습합니다.

결과 및 발견

벤치마크	성공률 (VTAM)	성공률 (비디오 전용)	상대 향상
일반적인 접촉‑풍부 조작 (5 작업)	90 %	68 %	+32 %
감자칩 집‑놓기 (고정밀 힘)	84 %	46 %	+80 %
Ablation (촉각 정규화 없음)	78 %	–	–
Ablation (촉각 전용)	55 %	–	–

안정성: VTAM이 생성한 동작 시퀀스는 더 부드러운 힘 프로파일과 적은 미끄러짐 이벤트를 보여주며, 촉각 피드백이 접촉 상태에 대한 시각적 오판을 교정한다는 것을 확인한다.
일반화: 유사한 재질 특성을 가진 보지 않은 객체에 대해 평가했을 때, VTAM은 85 % 이상의 성공률을 유지하며, 촉각 인코더가 전이 가능한 힘 패턴을 학습한다는 것을 나타낸다.

실용적 시사점

견고한 Pick‑and‑Place 파이프라인: 저렴한 촉각 스킨(예: 압전식 또는 정전용량 배열)을 기존 비전 기반 로봇에 추가하면 섬세한 조립이나 식품 취급 라인에서 성공률을 즉시 높일 수 있다.
데이터 수집 감소: VTAM은 동기화된 비디오‑촉각 로그만 필요하므로(이미 로봇 연구실에서 흔함) 기업은 대규모 다중모달 사전 학습에 투자하는 대신 기존 데이터셋을 개조할 수 있다.
안전이 중요한 작업: 과도한 힘이 부품을 손상시키거나 인간에게 해를 끼칠 수 있는 작업(예: 외과 보조, 협동 코봇)에서 촉각 정규화는 시각적 가림이 발생해도 모델이 힘 제한을 준수하도록 보장한다.
플러그‑앤‑플레이 통합: 모달리티 전이 어댑터는 가볍고(전체 파라미터의 ≈2 %) 어떤 트랜스포머 기반 비디오‑액션 모델에도 삽입할 수 있어 PyTorch‑Lightning이나 ROS‑2와 같은 인기 프레임워크와 호환된다.

제한 사항 및 향후 연구

센서 의존성: VTAM은 고주파, 저지연 촉각 스트림을 가정합니다; 저해상도 또는 노이즈가 많은 터치 센서에서는 성능이 저하될 수 있습니다.
제한된 언어 기반: 현재 설정은 자연어 지시를 포함하지 않으므로, 지시 수행 시나리오로 확장하려면 추가적인 멀티모달 정렬이 필요합니다.
3‑D 비전 확장성: 실험은 RGB 비디오에 초점을 맞추었으며, 깊이 또는 포인트 클라우드 스트림을 통합하면 접촉 추정을 더욱 향상시킬 수 있습니다.
향후 방향: 저자들은 자체 지도 촉각 사전학습, 장기 예측을 위한 계층적 어텐션 메커니즘, 그리고 폐쇄 루프 제어를 위한 엣지 하드웨어 실시간 배포를 탐구할 것을 제안합니다.

저자

Haoran Yuan
Weigang Yi
Zhenyu Zhang
Wendi Chen
Yuchen Mo
Jiashi Yin
Xinzhuo Li
Xiangyu Zeng
Chuan Wen
Cewu Lu
Katherine Driggs‑Campbell
Ismini Lourentzou

논문 정보

arXiv ID: 2603.23481v1
분류: cs.RO, cs.AI, cs.CV, cs.LG
발표일: 2026년 3월 24일
PDF: PDF 다운로드

[Paper] VTAM: 복잡한 물리적 상호작용을 위한 Video‑Tactile‑Action Models, VLAs를 넘어

Overview

핵심 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] MedObvious: Clinical Triage를 이용한 VLM에서의 Medical Moravec's Paradox 공개

[Paper] VISion On Request: 희소하고 동적으로 선택된 비전-언어 상호작용을 통한 VLLM 효율성 향상

[Paper] InverFill: 향상된 Few-Step Diffusion Inpainting을 위한 One-Step Inversion

[Paper] WorldCache: 콘텐츠 인식 캐싱을 통한 가속화된 비디오 월드 모델