[Paper] Diffusion은 투명성을 안다: 투명 객체 깊이 및 노멀 추정을 위한 Video Diffusion 재활용
Source: arXiv - 2512.23705v1
Overview
투명하고 반사되는 물체—예를 들어 유리 머그컵, 연마된 금속 도구, 혹은 투명 플라스틱 용기—는 오랫동안 컴퓨터 비전 시스템에게 악몽이었습니다. 새로운 논문은 이미 현실적인 투명 효과를 생성하는 데 능숙한 최신 비디오 디퓨전 모델을 이해하도록 재활용할 수 있음을 보여줍니다. 방대한 합성 비디오 데이터셋에 가벼운 어댑터를 학습시킴으로써, 저자들은 실제 비디오에서도 투명 장면에 대한 최첨단 깊이와 표면‑법선 추정치를 달성하고, 로봇 그리핑에서 실질적인 향상을 입증합니다.
주요 기여
- TransPhy3D 데이터셋: 물리 기반 레이 트레이싱으로 렌더링된 투명/반사 물체의 고충실도 합성 비디오 시퀀스 11 k개 (RGB, 깊이, 노멀).
- DKT (Diffusion‑Knows‑Transparency) 모델: 사전 학습된 비디오 디퓨전 백본(DiT) 위에 작은 LoRA 어댑터를 추가한 비디오‑투‑비디오 변환 네트워크로, 합성 데이터와 기존 데이터셋을 공동 학습.
- Zero‑shot SOTA 성능: ClearPose, DREDS (CatKnown/CatNovel) 등 벤치마크와 보류된 TransPhy3D 테스트 세트에서 이미지 및 비디오 기반 베이스라인을 능가.
- 시간적 일관성: 프레임 단위 방법에서 흔히 발생하는 문제를 해결하여, 임의 길이의 비디오에 대해 부드러운 깊이/노멀 스트림을 생성.
- 실제 적용 효과: 로봇 그리핑 파이프라인에 통합되어, DKT의 깊이 예측이 투명, 반사, 확산 물체에 대한 성공률을 기존 추정기보다 높임.
- 효율적인 추론: 1.3 B 파라미터의 컴팩트 버전이 프레임당 약 0.17 초로 실행되어 로봇 현장 배치가 가능.
방법론
-
Synthetic data generation – Blender의 Cycles 렌더러와 OptiX 디노이징을 사용하여 저자들은 정적 및 절차적 3D 자산(컵, 병, 금속 부품 등)의 라이브러리를 구축하고 유리, 플라스틱, 금속 셰이더를 적용했습니다. 각 장면은 동기화된 RGB, 깊이 및 노멀 맵을 생성합니다.
-
Video diffusion backbone – 그들은 수십억 개의 자연 비디오로 학습된 대규모 사전 학습 비디오 확산 모델(DiT)에서 시작합니다. 이 모델은 이미 빛 전달의 물리학을 포착하고 있습니다.
-
LoRA adapters for translation – 경량 저랭크 어댑테이션(LoRA) 모듈을 확산 모델의 어텐션 레이어에 삽입합니다. 학습 중에는 RGB 프레임과 노이즈가 있는 깊이 잠재 변수를 연결하여 백본에 전달함으로써 네트워크가 비디오 프레임을 깊이(또는 노멀) 스트림에 매핑하도록 학습합니다.
-
Joint training – 모델을 새로운 TransPhy3D 코퍼스와 기존 합성 프레임별 데이터셋 모두에 미세 조정하여 도메인 간 일반화를 촉진하고 시간적 일관성을 유지합니다.
-
Inference – 테스트 시 입력 비디오를 적응된 확산 모델에 통과시키면, 후처리나 프레임별 최적화 없이 동일한 길이의 깊이(또는 노멀) 비디오를 직접 출력합니다.
Results & Findings
| Benchmark | Metric (lower is better) | DKT vs. Best Prior |
|---|---|---|
| ClearPose (depth) | RMSE ↓ 0.12 | + 23 % improvement |
| DREDS (CatKnown) | Abs‑Rel ↓ 0.08 | + 19 % |
| DREDS (CatNovel) | Abs‑Rel ↓ 0.09 | + 21 % |
| TransPhy3D‑Test (depth) | MAE ↓ 0.07 | + 25 % |
| ClearPose (normals) | Angular error ↓ 6.3° | + 18 % |
- Temporal smoothness: DKT는 가장 강력한 비디오 베이스라인에 비해 프레임 간 깊이 진동을 >30 % 감소시킵니다.
- Real‑world grasping: 7‑DoF 팔을 이용한 픽‑앤‑플레이스 실험에서 투명 물체에 대한 성공률이 기존 추정기 62 %에서 DKT의 깊이를 사용했을 때 81 %로 상승했습니다.
- Speed: 1.3 B 모델은 30‑fps 영상을 단일 RTX 4090에서 약 6 FPS로 처리하여 많은 로봇 루프에 적합합니다.
실용적 함의
- 로보틱스 및 조작 – 유리나 연마된 금속에 대한 신뢰할 수 있는 깊이 정보는 로봇이 비용이 많이 드는 촉각 센서 없이도 실험실 기구, 주방용품 및 산업 부품을 다룰 수 있게 합니다.
- AR/VR 및 혼합 현실 – 투명 물체에 대한 정확한 표면 법선은 헤드‑마운트 디스플레이에서 반사와 굴절을 현실감 있게 렌더링하는 데 도움이 됩니다.
- 자율 검사 – 드론이나 검사 로봇이 이제 유리 파사드나 반사성 기계 표면의 일관된 3D 지도를 생성할 수 있습니다.
- 저비용 인식 – 모델이 공개된 diffusion 체크포인트를 기반으로 미세 조정되었기 때문에 개발자는 라벨이 지정된 투명 물체 데이터셋을 수집하지 않고도 고품질 깊이 정보를 얻을 수 있습니다.
- 플러그‑앤‑플레이 – 비디오‑투‑비디오 변환 인터페이스 덕분에 기존 인식 파이프라인은 최소한의 코드 수정으로 DKT를 교체할 수 있습니다(단순히 RGB 비디오를 입력하고 깊이 출력을 읽기만 하면 됩니다).
제한 사항 및 향후 작업
- 합성‑실제 간극 – 제로샷 성능이 뛰어나지만, 강한 역광과 같은 극단적인 조명 조건에서는 여전히 가끔 실패가 발생합니다.
- 재료 다양성 – 현재 자산 은행은 일반적인 유리, 플라스틱, 금속에 초점을 맞추고 있으며, 서리 낀 유리나 이방성 금속과 같은 이색 재료는 포함되지 않습니다.
- 초고해상도 비디오에 대한 확장성 – 1.3 B 모델은 720p에서 원활히 실행되지만, 4K로 확장하려면 추가 최적화 또는 모델 프루닝이 필요합니다.
- 향후 방향 – 저자들이 제시한 향후 방향에는 보다 다양한 조명을 포함한 합성 코퍼스 확대, 다중 모달 단서(예: 편광) 통합, 그리고 깊이, 법선, 하위 제어 정책을 공동으로 최적화하는 엔드‑투‑엔드 학습 탐구가 포함됩니다.
저자
- Shaocong Xu
- Songlin Wei
- Qizhe Wei
- Zheng Geng
- Hong Li
- Licheng Shen
- Qianpu Sun
- Shu Han
- Bin Ma
- Bohan Li
- Chongjie Ye
- Yuhang Zheng
- Nan Wang
- Saining Zhang
- Hao Zhao
논문 정보
- arXiv ID: 2512.23705v1
- 카테고리: cs.CV
- 출판일: 2025년 12월 29일
- PDF: Download PDF