[Paper] Tstars-Tryon 1.0: 견고하고 현실적인 Virtual Try-On을 위한 다양한 패션 아이템

발행: 19시간 전 (2026년 4월 22일 AM 02:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2604.19748v1

Overview

이 논문은 Tstars‑Tryon 1.0을 소개한다. 이는 상업용 등급의 가상 피팅 시스템으로, 셔츠와 드레스부터 액세서리까지 다양한 패션 아이템을 현실감 있게 착용시킬 수 있다. 극단적인 포즈, 강한 조명, 움직임에 의한 흐림 등 현실 세계의 어려운 조건에서도 작동한다. 정교하게 설계된 모델 파이프라인과 방대한 데이터 엔진을 결합함으로써, 저자들은 이미 타오바오 앱에서 수백만 사용자를 서비스하고 있는 거의 실시간 성능을 달성했다.

주요 기여

실제 환경 시나리오 전반에 걸친 견고성 – 극단적인 포즈, 저조도, 움직임 흐림, 가림 현상이 있는 입력에서도 높은 성공률.
사진과 같은 실제감 출력 – 세밀한 텍스처, 재질 및 구조적 충실도를 유지하면서 일반적인 AI 아티팩트(예: 흐릿한 이음새, 유령 현상)를 억제.
다중 카테고리·다중 이미지 구성 – 최대 6개의 레퍼런스 이미지와 8개의 패션 카테고리를 지원하며, 인물 정체성과 배경을 제어 가능.
속도 최적화 추론 – 단일 GPU에서 약 30 fps의 거의 실시간 실행이 가능하도록 설계되어 대규모 소비자 앱에 적합.
엔드‑투‑엔드 시스템 설계 – 통합 아키텍처, 확장 가능한 데이터 파이프라인, 다단계 학습 체계를 통해 상용 배포를 가능하게 함.
공개 벤치마크 및 데이터셋 – 저자들은 현실적인 가상 피팅 연구를 촉진하기 위해 포괄적인 벤치마크를 공개함.

방법론

Data Engine & Pre‑processing
- 전자상거래 플랫폼에서 1천만 개 이상의 의류‑인물 쌍을 수집했습니다.
- 자동화된 정리, 포즈 정규화 및 조명 균형을 통해 다양하면서도 고품질의 학습 샘플을 확보했습니다.
Model Architecture
- Coarse Stage: 조건부 확산 모델이 대상 몸에 옷의 대략적인 레이아웃을 예측하며, 포즈 워핑 및 가림 현상을 처리합니다.
- Refinement Stage: 고해상도 GAN(공간 인식 어텐션 포함)이 텍스처 디테일, 소재 단서(예: 실크 광택, 데님 직조) 등을 주입하고 가장자리 아티팩트를 수정합니다.
- Control Module: 경량 인코더를 통해 사용자가 정체성(얼굴, 체형)과 배경을 지정할 수 있어 원활한 다중 이미지 합성이 가능합니다.
Training Paradigm
- Stage‑1: 합성 오버레이를 활용한 자체 지도 포즈 기반 워핑.
- Stage‑2: 정제된 데이터셋을 이용한 쌍대적 적대 학습으로 현실적인 텍스처 전송을 학습합니다.
- Stage‑3: 사전 학습된 지각 품질 네트워크가 감지한 시각적 아티팩트에 페널티를 부과하는 강화형 손실을 사용해 미세 조정합니다.
Inference Optimizations
- 모델 프루닝 및 양자화를 통해 메모리 사용량을 감소시킵니다.
- TensorRT 기반 커널 융합 및 비동기 파이프라인 스케줄링으로 V100 GPU에서 요청당 지연 시간을 30 ms 미만으로 줄입니다.

결과 및 발견

지표	Tstars‑Tryon 1.0	기존 최고 성능 (예: VITON‑HD)
성공률 (유효 착용)	96.8 %	84.3 %
FID (이미지 품질)	12.4	21.7
LPIPS (지각적 유사도)	0.098	0.167
추론 지연 시간 (GPU)	≈30 ms	180 ms
지원 카테고리	8 (의류 + 액세서리)	3–4

견고성: 시스템은 극단적인 포즈 테스트 세트(예: 스쿼트, 측면 보기)와 저조도 이미지에서도 95 % 이상의 성공률을 유지했으며, 이전 방법들은 심각하게 실패했습니다.
현실감: 인간 평가자들은 경쟁 방법보다 Tstars‑Tryon 출력물을 82 %의 비율로 선호했으며, 자연스러운 드레이프와 정확한 소재 광택을 이유로 들었습니다.
확장성: 타오바오에 배포된 서비스는 일일 1,000만 건 이상의 요청을 < 0.5 % 오류율로 처리했으며, 엔지니어링 최적화가 실제 운영 안정성으로 이어짐을 확인했습니다.

실용적 시사점

E‑commerce 통합: 소매업체는 “see‑it‑on‑me” 버튼을 삽입하여 쇼핑객이 업로드한 사진에 즉시 의류를 시각화할 수 있으며, 반품률을 낮추고 전환율을 높일 수 있다.
맞춤형 스타일링 앱: 개발자는 사용자의 얼굴과 배경을 유지하면서 카테고리 간 아이템(예: 신발 + 가방)을 조합할 수 있는 가상 옷장을 구축하여 보다 풍부한 AR 경험을 제공할 수 있다.
콘텐츠 제작: 마케팅 팀은 제품 카탈로그 이미지를 모델에 입력하기만 하면 비용이 많이 드는 사진 촬영 없이도 고품질 룩북 이미지를 생성할 수 있다.
엣지 배포: 낮은 지연 시간의 추론 파이프라인 덕분에 모델을 강력한 엣지 디바이스(예: 최신 스마트폰)에서 오프라인 가상 착용에 실행할 수 있어 사용자 프라이버시를 보호한다.

제한 사항 및 향후 작업

극단적인 가림: 시스템이 견고하지만, 큰 신체 부위가 완전히 가려질 때(예: 사람이 큰 물체를 들고 있을 때) 여전히 어려움을 겪는다.
세밀한 재질 물리: 동적인 천(예: 흐르는 스카프)은 물리적으로 시뮬레이션되지 않고 근사화되어, 매우 움직이는 의류의 사실감을 제한한다.
교차 도메인 일반화: 입력 의상이 학습 데이터에 포함되지 않은 스타일이나 조명 조건(예: 수중 사진)일 경우 성능이 저하된다.
향후 방향: 저자들은 더 나은 드레이프를 위해 물리 기반 옷감 시뮬레이션을 통합하고, 보다 이국적인 조명 조건을 포괄하도록 데이터셋을 확장하며, 지연 시간을 더욱 줄이기 위해 온디바이스 모델 증류를 탐구할 계획이다.

저자

Mengting Chen
Zhengrui Chen
Yongchao Du
Zuan Gao
Taihang Hu
Jinsong Lan
Chao Lin
Yefeng Shen
Xingjian Wang
Zhao Wang
Zhengtao Wu
Xiaoli Xu
Zhengze Xu
Hao Yan
Mingzhou Zhang
Jun Zheng
Qinye Zhou
Xiaoyong Zhu
Bo Zheng

논문 정보

arXiv ID: 2604.19748v1
Categories: cs.CV
Published: 2026년 4월 21일
PDF: Download PDF

[Paper] Tstars-Tryon 1.0: 견고하고 현실적인 Virtual Try-On을 위한 다양한 패션 아이템

Overview

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 안정성의 경계에서의 일반화

[Paper] VLA Foundry: Vision-Language-Action 모델 학습을 위한 통합 프레임워크

[Paper] ReImagine: 제어 가능한 고품질 인간 비디오 생성 재고, 이미지-우선 합성을 통해

[Paper] SpanVLA: 효율적인 액션 브리징 및 네거티브-리커버리 샘플을 통한 Vision-Language-Action 모델 학습