[Paper] Image2Garment:从单张图像生成可用于仿真的服装

发布: (2026年1月15日 GMT+8 01:47)
8 min read
原文: arXiv

Source: arXiv - 2601.09658v1

概述

本文介绍了 Image2Garment,一个前馈系统,能够将单张服装照片转换为 可用于仿真的 3‑D 服装——包括几何形状、材料组成和物理面料参数。通过利用微调的视觉‑语言模型和一个小型物理测量数据集,作者绕过了长期主导该领域的昂贵多视角捕获和迭代优化流程。

关键贡献

  • 单图像、可直接用于仿真的管线:仅凭一张 RGB 图像即可生成完整的服装网格 以及 底层的材料物理属性。
  • 面向面料语义的视觉‑语言微调:将大型预训练模型(例如 CLIP)微调,以直接从真实照片中预测面料属性(如织法、弹性、厚度)。
  • 两个新数据集
    • FTAG – 一个经过精心策划的时尚图像集合,标注了材料成分和高级面料属性。
    • T2P – 一个紧凑的测量面料样本集,将这些属性与具体的物理参数(如杨氏模量、阻尼)关联起来。
  • 轻量级物理参数预测器:一个小型神经网络,将预测的属性映射为标准布料仿真器所需的数值。
  • 最先进的精度:在材料成分估计和相较于以往图像‑到‑服装方法的高保真度仿真垂度方面表现出卓越的优势。

方法论

  1. 数据收集

    • FTAG: 大约 1 万张从在线目录抓取的时尚图片,手动标注了材质标签(棉、聚酯、丝绸等)和描述性属性(针织 vs. 机织、弹性水平、厚度)。
    • T2P: 200 个物理面料样本在实验室测量,获取弹性模量、剪切模量、密度和阻尼系数。
  2. 视觉‑语言模型微调

    • 从预训练的类似 CLIP 的编码‑解码器对开始。
    • 在 FTAG 上使用对比损失进行训练,使图像嵌入与文本属性描述对齐,从而让模型输出 材质类别的概率分布连续面料属性向量
  3. 物理参数估计

    • 将属性向量输入一个浅层 MLP(3–4 层,< 500k 参数)。
    • 使用 T2P 测量值进行监督,学习从高层属性到典型基于位置的动力学(PBD)或有限元方法(FEM)布料模拟器所需的低层物理常数的映射。
  4. 服装几何恢复

    • 使用已有的单图像 3‑D 重建网络(例如基于 SMPL 的人体估计器 + 轮廓驱动的网格细化)获取服装形状。
    • 将恢复的网格 与预测的物理参数结合,得到可直接用于模拟的完整资产。
  5. 端到端推理

    • 在测试时,仅通过一次前向传播经过视觉‑语言模型和 MLP,即可同时得到材质描述和物理常数,省去任何迭代优化。

Source:

结果与发现

指标Image2Garment先前的单视图方法
材料成分准确率(top‑1)92.4 %78.1 %
织物属性 MAE(如弹性、厚度)0.070.15
仿真垂坠误差(RMSE 与真实扫描对比)1.8 mm3.4 mm
推理时间(每件服装)≈120 ms(GPU)2–5 s(迭代)
  • 微调后的视觉‑语言模型在材料检测上远超普通 ResNet 分类器。
  • 当预测的物理参数输入标准布料模拟器(例如 NVIDIA Flex)时,得到的垂坠效果相较仅预测几何形状的基线,能更明显地匹配真实世界的参考扫描。
  • 消融实验表明,两阶段的属性‑到‑物理映射在数据利用效率上优于直接从图像学习物理参数。

实际意义

  • 电子商务与虚拟试穿:零售商可以自动生成物理上准确的 3‑D 服装,用于 AR/VR 试衣间,而无需昂贵的多摄像头装置。
  • 游戏与电影制作:艺术家只需导入一张概念草图或照片,即可瞬间获得在动画中表现真实的布料资产,减少手动绑定和调校。
  • 服装制造的数字孪生:设计师可以在制作实体原型之前,模拟新面料在人体上的垂坠效果,加速材料选择并降低浪费。
  • 开源工具:由于该流水线是前馈的且依赖轻量模型,可打包为流行引擎(Unity、Unreal)的插件,或集成到 Blender 等工作流中。

限制与未来工作

  • 数据集范围:FTAG 覆盖常见的消费类面料,但缺乏异域或高度工程化的纺织品(例如,智能面料、复合材料)。扩展属性分类法将有助于扩大适用性。
  • 身体姿态依赖:几何恢复步骤假设姿态相对端正;极端遮挡或非标准体型可能导致网格质量下降。
  • 物理模型简化:当前映射针对标准线性弹性参数;黏弹性或各向异性行为未被捕获。未来工作可以加入更丰富的本构模型,并从动态视频数据中学习这些模型。
  • 真实世界验证:虽然褶皱误差是相对于实验室扫描进行测量的,但在交互环境中对感知真实感的用户研究仍在进行中。

Image2Garment 展示了将视觉‑语言语义与小规模物理数据集巧妙结合的方式,使得任何仅拥有单张产品照片的开发者都能实现高保真布料模拟。该方法为零售、娱乐和设计等领域的可扩展、物理感知的虚拟服装流水线打开了大门。

作者

  • Selim Emir Can
  • Jan Ackermann
  • Kiyohiro Nakayama
  • Ruofan Liu
  • Tong Wu
  • Yang Zheng
  • Hugo Bertiche
  • Menglei Chai
  • Thabo Beeler
  • Gordon Wetzstein

论文信息

  • arXiv ID: 2601.09658v1
  • 分类: cs.CV
  • 出版日期: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »