[Paper] Image2Garment: 단일 이미지에서 시뮬레이션용 의류 생성
Source: arXiv - 2601.09658v1
개요
이 논문은 Image2Garment이라는 피드‑포워드 시스템을 소개한다. 이 시스템은 옷의 단일 사진을 시뮬레이션‑가능 3‑D 의류로 변환할 수 있으며, 여기에는 기하학, 소재 구성 및 물리적 원단 파라미터가 모두 포함된다. 정교하게 파인‑튜닝된 비전‑언어 모델과 소규모 물리‑측정 데이터셋을 활용함으로써, 저자들은 기존에 주류를 이루어 온 비용이 많이 드는 다중‑뷰 캡처 및 반복 최적화 파이프라인을 우회한다.
주요 기여
- 단일 이미지, 시뮬레이션 준비 파이프라인: 하나의 RGB 이미지만으로 전체 의상 메쉬 및 기본 물리 재료를 생성합니다.
- 패브릭 의미를 위한 비전‑언어 파인튜닝: 대규모 사전 학습 모델(예: CLIP)을 실제 사진에서 직접 직물 속성(예: 직조, 신축성, 두께)을 예측하도록 조정합니다.
- 두 개의 새로운 데이터셋:
- FTAG – 재료 구성 및 고수준 직물 속성이 주석된 패션 이미지의 선별된 컬렉션.
- T2P – 이러한 속성을 구체적인 물리 파라미터(예: 영률, 감쇠)와 연결하는 측정된 직물 샘플의 소형 집합.
- 경량 물리 파라미터 예측기: 예측된 속성을 표준 옷감 시뮬레이터에 필요한 수치값으로 매핑하는 작은 신경망.
- 최첨단 정확도: 기존 이미지‑투‑의상 방법에 비해 재료 구성 추정 및 시뮬레이션 드레이프의 높은 충실도를 보여줍니다.
방법론
-
데이터 수집
- FTAG: 온라인 카탈로그에서 수집한 약 10천 장의 패션 이미지로, 소재 태그(면, 폴리에스터, 실크 등)와 설명적 속성(니트 vs. 직조, 신축성 수준, 두께)으로 수동 라벨링되었습니다.
- T2P: 실험실에서 측정한 200개의 실제 천 샘플로, 탄성계수, 전단계수, 밀도 및 감쇠 계수를 얻었습니다.
-
비전‑언어 모델 파인튜닝
- 사전 학습된 CLIP 유사 인코더‑디코더 쌍을 시작점으로 사용합니다.
- FTAG에 대해 이미지 임베딩과 텍스트 속성 기술자를 정렬하는 대비 손실을 사용해 학습하여, 모델이 소재 클래스에 대한 확률 분포와 연속적인 천 속성 벡터를 출력하도록 합니다.
-
물리 파라미터 추정
- 속성 벡터를 얕은 MLP(3–4층, 파라미터 < 500k)로 입력합니다.
- T2P 측정값으로 감독 학습을 진행하여, 고수준 속성에서 전형적인 위치 기반 역학(PBD) 또는 유한 요소법(FEM) 옷감 시뮬레이터에 필요한 저수준 물리 상수로의 매핑을 학습합니다.
-
의류 기하학 복원
- 기존의 단일 이미지 3‑D 복원 네트워크(예: SMPL 기반 바디 추정기 + 실루엣 기반 메쉬 정제)를 사용해 의류 형태를 얻습니다.
- 복원된 메쉬에 예측된 물리 파라미터를 추가하여 완전한 시뮬레이션 준비 자산을 생성합니다.
-
엔드‑투‑엔드 추론
- 테스트 시, 비전‑언어 모델과 MLP를 한 번의 순전파만 수행하여 소재 설명과 물리 상수를 모두 생성함으로써 반복 최적화를 없앱니다.
결과 및 발견
| 지표 | Image2Garment | 기존 단일 뷰 방법 |
|---|---|---|
| 재질 구성 정확도 (top‑1) | 92.4 % | 78.1 % |
| 패브릭 속성 MAE (예: 신축성, 두께) | 0.07 | 0.15 |
| 시뮬레이션 드레이프 오류 (RMSE vs. 실제 스캔) | 1.8 mm | 3.4 mm |
| 추론 시간 (옷당) | ≈120 ms (GPU) | 2–5 s (반복) |
- 파인튜닝된 비전‑언어 모델은 재질 감지에서 일반 ResNet 분류기보다 큰 차이로 성능이 뛰어납니다.
- 예측된 물리 파라미터를 표준 옷감 시뮬레이터(예: NVIDIA Flex)에 입력하면, 결과 드레이프가 기하학만 예측하는 기존 방법보다 실제 레퍼런스 스캔과 현저히 더 잘 일치합니다.
- 소거 연구 결과, 두 단계 속성‑to‑물리 매핑이 이미지에서 물리 파라미터를 직접 학습하는 것보다 데이터 효율성이 높다는 것이 확인되었습니다.
Practical Implications
- E‑commerce & Virtual Try‑On: 소매업체는 비용이 많이 드는 다중 카메라 장비 없이도 AR/VR 피팅룸용 물리적으로 정확한 3‑D 의류를 자동으로 생성할 수 있습니다.
- Game & Film Production: 아티스트는 하나의 컨셉 스케치나 사진을 가져와 즉시 애니메이션 시 현실적으로 동작하는 옷 자산을 얻을 수 있어 수동 리깅 및 조정 작업을 크게 줄일 수 있습니다.
- Digital Twin for Apparel Manufacturing: 디자이너는 물리적 프로토타입을 만들기 전에 새로운 소재가 몸에 어떻게 드레이프되는지 시뮬레이션할 수 있어 소재 선택을 가속화하고 폐기물을 줄일 수 있습니다.
- Open‑Source Tooling: 파이프라인이 피드‑포워드이며 경량 모델에 의존하기 때문에 인기 엔진(Unity, Unreal)의 플러그인으로 패키징하거나 Blender와 같은 파이프라인에 통합할 수 있습니다.
제한 사항 및 향후 연구
- 데이터셋 범위: FTAG는 일반 소비자용 직물을 다루지만, 이색적이거나 고도로 엔지니어링된 섬유(예: 스마트 패브릭, 복합재)에는 포함되지 않습니다. 속성 분류 체계를 확장하면 적용 범위를 넓힐 수 있습니다.
- 신체 자세 의존성: 기하학 복구 단계는 비교적 직립 자세를 전제로 합니다; 극심한 가림이나 비표준 신체 형태는 메쉬 품질을 저하시킬 수 있습니다.
- 물리 모델 단순성: 현재 매핑은 표준 선형 탄성 파라미터를 목표로 하며, 점탄성이나 이방성 거동은 포착되지 않습니다. 향후 작업에서는 보다 풍부한 구성 모델을 도입하고 동적 비디오 데이터로부터 학습할 수 있습니다.
- 실제 검증: 드레이프 오류는 실험실 스캔과 비교하여 측정했지만, 인터랙티브 환경에서 인지된 현실감에 대한 사용자 연구는 아직 진행 중입니다.
Image2Garment는 비전‑언어 의미론과 소규모 물리 데이터셋의巧妙한 결합이 단일 제품 사진만으로도 고충실도 옷감 시뮬레이션을 가능하게 함을 보여줍니다. 이 접근법은 소매, 엔터테인먼트, 디자인 전반에 걸쳐 확장 가능한 물리‑인식 가상 의류 파이프라인의 문을 열어줍니다.
저자
- Selim Emir Can
- Jan Ackermann
- Kiyohiro Nakayama
- Ruofan Liu
- Tong Wu
- Yang Zheng
- Hugo Bertiche
- Menglei Chai
- Thabo Beeler
- Gordon Wetzstein
논문 정보
- arXiv ID: 2601.09658v1
- Categories: cs.CV
- Published: 2026년 1월 14일
- PDF: PDF 다운로드