[Paper] Tstars-Tryon 1.0: 견고하고 현실적인 Virtual Try-On을 위한 다양한 패션 아이템

발행: (2026년 4월 22일 AM 02:59 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2604.19748v1

Overview

이 논문은 Tstars‑Tryon 1.0을 소개한다. 이는 상업용 등급의 가상 피팅 시스템으로, 셔츠와 드레스부터 액세서리까지 다양한 패션 아이템을 현실감 있게 착용시킬 수 있다. 극단적인 포즈, 강한 조명, 움직임에 의한 흐림 등 현실 세계의 어려운 조건에서도 작동한다. 정교하게 설계된 모델 파이프라인과 방대한 데이터 엔진을 결합함으로써, 저자들은 이미 타오바오 앱에서 수백만 사용자를 서비스하고 있는 거의 실시간 성능을 달성했다.

주요 기여

  • 실제 환경 시나리오 전반에 걸친 견고성 – 극단적인 포즈, 저조도, 움직임 흐림, 가림 현상이 있는 입력에서도 높은 성공률.
  • 사진과 같은 실제감 출력 – 세밀한 텍스처, 재질 및 구조적 충실도를 유지하면서 일반적인 AI 아티팩트(예: 흐릿한 이음새, 유령 현상)를 억제.
  • 다중 카테고리·다중 이미지 구성 – 최대 6개의 레퍼런스 이미지와 8개의 패션 카테고리를 지원하며, 인물 정체성과 배경을 제어 가능.
  • 속도 최적화 추론 – 단일 GPU에서 약 30 fps의 거의 실시간 실행이 가능하도록 설계되어 대규모 소비자 앱에 적합.
  • 엔드‑투‑엔드 시스템 설계 – 통합 아키텍처, 확장 가능한 데이터 파이프라인, 다단계 학습 체계를 통해 상용 배포를 가능하게 함.
  • 공개 벤치마크 및 데이터셋 – 저자들은 현실적인 가상 피팅 연구를 촉진하기 위해 포괄적인 벤치마크를 공개함.

방법론

  1. Data Engine & Pre‑processing

    • 전자상거래 플랫폼에서 1천만 개 이상의 의류‑인물 쌍을 수집했습니다.
    • 자동화된 정리, 포즈 정규화 및 조명 균형을 통해 다양하면서도 고품질의 학습 샘플을 확보했습니다.
  2. Model Architecture

    • Coarse Stage: 조건부 확산 모델이 대상 몸에 옷의 대략적인 레이아웃을 예측하며, 포즈 워핑 및 가림 현상을 처리합니다.
    • Refinement Stage: 고해상도 GAN(공간 인식 어텐션 포함)이 텍스처 디테일, 소재 단서(예: 실크 광택, 데님 직조) 등을 주입하고 가장자리 아티팩트를 수정합니다.
    • Control Module: 경량 인코더를 통해 사용자가 정체성(얼굴, 체형)과 배경을 지정할 수 있어 원활한 다중 이미지 합성이 가능합니다.
  3. Training Paradigm

    • Stage‑1: 합성 오버레이를 활용한 자체 지도 포즈 기반 워핑.
    • Stage‑2: 정제된 데이터셋을 이용한 쌍대적 적대 학습으로 현실적인 텍스처 전송을 학습합니다.
    • Stage‑3: 사전 학습된 지각 품질 네트워크가 감지한 시각적 아티팩트에 페널티를 부과하는 강화형 손실을 사용해 미세 조정합니다.
  4. Inference Optimizations

    • 모델 프루닝 및 양자화를 통해 메모리 사용량을 감소시킵니다.
    • TensorRT 기반 커널 융합 및 비동기 파이프라인 스케줄링으로 V100 GPU에서 요청당 지연 시간을 30 ms 미만으로 줄입니다.

결과 및 발견

지표Tstars‑Tryon 1.0기존 최고 성능 (예: VITON‑HD)
성공률 (유효 착용)96.8 %84.3 %
FID (이미지 품질)12.421.7
LPIPS (지각적 유사도)0.0980.167
추론 지연 시간 (GPU)≈30 ms180 ms
지원 카테고리8 (의류 + 액세서리)3–4
  • 견고성: 시스템은 극단적인 포즈 테스트 세트(예: 스쿼트, 측면 보기)와 저조도 이미지에서도 95 % 이상의 성공률을 유지했으며, 이전 방법들은 심각하게 실패했습니다.
  • 현실감: 인간 평가자들은 경쟁 방법보다 Tstars‑Tryon 출력물을 82 %의 비율로 선호했으며, 자연스러운 드레이프와 정확한 소재 광택을 이유로 들었습니다.
  • 확장성: 타오바오에 배포된 서비스는 일일 1,000만 건 이상의 요청을 < 0.5 % 오류율로 처리했으며, 엔지니어링 최적화가 실제 운영 안정성으로 이어짐을 확인했습니다.

실용적 시사점

  • E‑commerce 통합: 소매업체는 “see‑it‑on‑me” 버튼을 삽입하여 쇼핑객이 업로드한 사진에 즉시 의류를 시각화할 수 있으며, 반품률을 낮추고 전환율을 높일 수 있다.
  • 맞춤형 스타일링 앱: 개발자는 사용자의 얼굴과 배경을 유지하면서 카테고리 간 아이템(예: 신발 + 가방)을 조합할 수 있는 가상 옷장을 구축하여 보다 풍부한 AR 경험을 제공할 수 있다.
  • 콘텐츠 제작: 마케팅 팀은 제품 카탈로그 이미지를 모델에 입력하기만 하면 비용이 많이 드는 사진 촬영 없이도 고품질 룩북 이미지를 생성할 수 있다.
  • 엣지 배포: 낮은 지연 시간의 추론 파이프라인 덕분에 모델을 강력한 엣지 디바이스(예: 최신 스마트폰)에서 오프라인 가상 착용에 실행할 수 있어 사용자 프라이버시를 보호한다.

제한 사항 및 향후 작업

  • 극단적인 가림: 시스템이 견고하지만, 큰 신체 부위가 완전히 가려질 때(예: 사람이 큰 물체를 들고 있을 때) 여전히 어려움을 겪는다.
  • 세밀한 재질 물리: 동적인 천(예: 흐르는 스카프)은 물리적으로 시뮬레이션되지 않고 근사화되어, 매우 움직이는 의류의 사실감을 제한한다.
  • 교차 도메인 일반화: 입력 의상이 학습 데이터에 포함되지 않은 스타일이나 조명 조건(예: 수중 사진)일 경우 성능이 저하된다.
  • 향후 방향: 저자들은 더 나은 드레이프를 위해 물리 기반 옷감 시뮬레이션을 통합하고, 보다 이국적인 조명 조건을 포괄하도록 데이터셋을 확장하며, 지연 시간을 더욱 줄이기 위해 온디바이스 모델 증류를 탐구할 계획이다.

저자

  • Mengting Chen
  • Zhengrui Chen
  • Yongchao Du
  • Zuan Gao
  • Taihang Hu
  • Jinsong Lan
  • Chao Lin
  • Yefeng Shen
  • Xingjian Wang
  • Zhao Wang
  • Zhengtao Wu
  • Xiaoli Xu
  • Zhengze Xu
  • Hao Yan
  • Mingzhou Zhang
  • Jun Zheng
  • Qinye Zhou
  • Xiaoyong Zhu
  • Bo Zheng

논문 정보

  • arXiv ID: 2604.19748v1
  • Categories: cs.CV
  • Published: 2026년 4월 21일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »