[Paper] Diffusion은 투명성을 안다: 투명 객체 깊이 및 노멀 추정을 위한 Video Diffusion 재활용

발행: (2025년 12월 30일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.23705v1

Overview

투명하고 반사되는 물체—예를 들어 유리 머그컵, 연마된 금속 도구, 혹은 투명 플라스틱 용기—는 오랫동안 컴퓨터 비전 시스템에게 악몽이었습니다. 새로운 논문은 이미 현실적인 투명 효과를 생성하는 데 능숙한 최신 비디오 디퓨전 모델을 이해하도록 재활용할 수 있음을 보여줍니다. 방대한 합성 비디오 데이터셋에 가벼운 어댑터를 학습시킴으로써, 저자들은 실제 비디오에서도 투명 장면에 대한 최첨단 깊이와 표면‑법선 추정치를 달성하고, 로봇 그리핑에서 실질적인 향상을 입증합니다.

주요 기여

  • TransPhy3D 데이터셋: 물리 기반 레이 트레이싱으로 렌더링된 투명/반사 물체의 고충실도 합성 비디오 시퀀스 11 k개 (RGB, 깊이, 노멀).
  • DKT (Diffusion‑Knows‑Transparency) 모델: 사전 학습된 비디오 디퓨전 백본(DiT) 위에 작은 LoRA 어댑터를 추가한 비디오‑투‑비디오 변환 네트워크로, 합성 데이터와 기존 데이터셋을 공동 학습.
  • Zero‑shot SOTA 성능: ClearPose, DREDS (CatKnown/CatNovel) 등 벤치마크와 보류된 TransPhy3D 테스트 세트에서 이미지 및 비디오 기반 베이스라인을 능가.
  • 시간적 일관성: 프레임 단위 방법에서 흔히 발생하는 문제를 해결하여, 임의 길이의 비디오에 대해 부드러운 깊이/노멀 스트림을 생성.
  • 실제 적용 효과: 로봇 그리핑 파이프라인에 통합되어, DKT의 깊이 예측이 투명, 반사, 확산 물체에 대한 성공률을 기존 추정기보다 높임.
  • 효율적인 추론: 1.3 B 파라미터의 컴팩트 버전이 프레임당 약 0.17 초로 실행되어 로봇 현장 배치가 가능.

방법론

  1. Synthetic data generation – Blender의 Cycles 렌더러와 OptiX 디노이징을 사용하여 저자들은 정적 및 절차적 3D 자산(컵, 병, 금속 부품 등)의 라이브러리를 구축하고 유리, 플라스틱, 금속 셰이더를 적용했습니다. 각 장면은 동기화된 RGB, 깊이 및 노멀 맵을 생성합니다.

  2. Video diffusion backbone – 그들은 수십억 개의 자연 비디오로 학습된 대규모 사전 학습 비디오 확산 모델(DiT)에서 시작합니다. 이 모델은 이미 빛 전달의 물리학을 포착하고 있습니다.

  3. LoRA adapters for translation – 경량 저랭크 어댑테이션(LoRA) 모듈을 확산 모델의 어텐션 레이어에 삽입합니다. 학습 중에는 RGB 프레임과 노이즈가 있는 깊이 잠재 변수를 연결하여 백본에 전달함으로써 네트워크가 비디오 프레임을 깊이(또는 노멀) 스트림에 매핑하도록 학습합니다.

  4. Joint training – 모델을 새로운 TransPhy3D 코퍼스와 기존 합성 프레임별 데이터셋 모두에 미세 조정하여 도메인 간 일반화를 촉진하고 시간적 일관성을 유지합니다.

  5. Inference – 테스트 시 입력 비디오를 적응된 확산 모델에 통과시키면, 후처리나 프레임별 최적화 없이 동일한 길이의 깊이(또는 노멀) 비디오를 직접 출력합니다.

Results & Findings

BenchmarkMetric (lower is better)DKT vs. Best Prior
ClearPose (depth)RMSE ↓ 0.12 + 23 % improvement
DREDS (CatKnown)Abs‑Rel ↓ 0.08 + 19 %
DREDS (CatNovel)Abs‑Rel ↓ 0.09 + 21 %
TransPhy3D‑Test (depth)MAE ↓ 0.07 + 25 %
ClearPose (normals)Angular error ↓ 6.3° + 18 %
  • Temporal smoothness: DKT는 가장 강력한 비디오 베이스라인에 비해 프레임 간 깊이 진동을 >30 % 감소시킵니다.
  • Real‑world grasping: 7‑DoF 팔을 이용한 픽‑앤‑플레이스 실험에서 투명 물체에 대한 성공률이 기존 추정기 62 %에서 DKT의 깊이를 사용했을 때 81 %로 상승했습니다.
  • Speed: 1.3 B 모델은 30‑fps 영상을 단일 RTX 4090에서 약 6 FPS로 처리하여 많은 로봇 루프에 적합합니다.

실용적 함의

  • 로보틱스 및 조작 – 유리나 연마된 금속에 대한 신뢰할 수 있는 깊이 정보는 로봇이 비용이 많이 드는 촉각 센서 없이도 실험실 기구, 주방용품 및 산업 부품을 다룰 수 있게 합니다.
  • AR/VR 및 혼합 현실 – 투명 물체에 대한 정확한 표면 법선은 헤드‑마운트 디스플레이에서 반사와 굴절을 현실감 있게 렌더링하는 데 도움이 됩니다.
  • 자율 검사 – 드론이나 검사 로봇이 이제 유리 파사드나 반사성 기계 표면의 일관된 3D 지도를 생성할 수 있습니다.
  • 저비용 인식 – 모델이 공개된 diffusion 체크포인트를 기반으로 미세 조정되었기 때문에 개발자는 라벨이 지정된 투명 물체 데이터셋을 수집하지 않고도 고품질 깊이 정보를 얻을 수 있습니다.
  • 플러그‑앤‑플레이 – 비디오‑투‑비디오 변환 인터페이스 덕분에 기존 인식 파이프라인은 최소한의 코드 수정으로 DKT를 교체할 수 있습니다(단순히 RGB 비디오를 입력하고 깊이 출력을 읽기만 하면 됩니다).

제한 사항 및 향후 작업

  • 합성‑실제 간극 – 제로샷 성능이 뛰어나지만, 강한 역광과 같은 극단적인 조명 조건에서는 여전히 가끔 실패가 발생합니다.
  • 재료 다양성 – 현재 자산 은행은 일반적인 유리, 플라스틱, 금속에 초점을 맞추고 있으며, 서리 낀 유리나 이방성 금속과 같은 이색 재료는 포함되지 않습니다.
  • 초고해상도 비디오에 대한 확장성 – 1.3 B 모델은 720p에서 원활히 실행되지만, 4K로 확장하려면 추가 최적화 또는 모델 프루닝이 필요합니다.
  • 향후 방향 – 저자들이 제시한 향후 방향에는 보다 다양한 조명을 포함한 합성 코퍼스 확대, 다중 모달 단서(예: 편광) 통합, 그리고 깊이, 법선, 하위 제어 정책을 공동으로 최적화하는 엔드‑투‑엔드 학습 탐구가 포함됩니다.

저자

  • Shaocong Xu
  • Songlin Wei
  • Qizhe Wei
  • Zheng Geng
  • Hong Li
  • Licheng Shen
  • Qianpu Sun
  • Shu Han
  • Bin Ma
  • Bohan Li
  • Chongjie Ye
  • Yuhang Zheng
  • Nan Wang
  • Saining Zhang
  • Hao Zhao

논문 정보

  • arXiv ID: 2512.23705v1
  • 카테고리: cs.CV
  • 출판일: 2025년 12월 29일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »