[Paper] Image2Garment:从单张图像生成可用于仿真的服装
发布: (2026年1月15日 GMT+8 01:47)
8 min read
原文: arXiv
Source: arXiv - 2601.09658v1
概述
本文介绍了 Image2Garment,一个前馈系统,能够将单张服装照片转换为 可用于仿真的 3‑D 服装——包括几何形状、材料组成和物理面料参数。通过利用微调的视觉‑语言模型和一个小型物理测量数据集,作者绕过了长期主导该领域的昂贵多视角捕获和迭代优化流程。
关键贡献
- 单图像、可直接用于仿真的管线:仅凭一张 RGB 图像即可生成完整的服装网格 以及 底层的材料物理属性。
- 面向面料语义的视觉‑语言微调:将大型预训练模型(例如 CLIP)微调,以直接从真实照片中预测面料属性(如织法、弹性、厚度)。
- 两个新数据集:
- FTAG – 一个经过精心策划的时尚图像集合,标注了材料成分和高级面料属性。
- T2P – 一个紧凑的测量面料样本集,将这些属性与具体的物理参数(如杨氏模量、阻尼)关联起来。
- 轻量级物理参数预测器:一个小型神经网络,将预测的属性映射为标准布料仿真器所需的数值。
- 最先进的精度:在材料成分估计和相较于以往图像‑到‑服装方法的高保真度仿真垂度方面表现出卓越的优势。
方法论
-
数据收集
- FTAG: 大约 1 万张从在线目录抓取的时尚图片,手动标注了材质标签(棉、聚酯、丝绸等)和描述性属性(针织 vs. 机织、弹性水平、厚度)。
- T2P: 200 个物理面料样本在实验室测量,获取弹性模量、剪切模量、密度和阻尼系数。
-
视觉‑语言模型微调
- 从预训练的类似 CLIP 的编码‑解码器对开始。
- 在 FTAG 上使用对比损失进行训练,使图像嵌入与文本属性描述对齐,从而让模型输出 材质类别的概率分布 和 连续面料属性向量。
-
物理参数估计
- 将属性向量输入一个浅层 MLP(3–4 层,< 500k 参数)。
- 使用 T2P 测量值进行监督,学习从高层属性到典型基于位置的动力学(PBD)或有限元方法(FEM)布料模拟器所需的低层物理常数的映射。
-
服装几何恢复
- 使用已有的单图像 3‑D 重建网络(例如基于 SMPL 的人体估计器 + 轮廓驱动的网格细化)获取服装形状。
- 将恢复的网格 与预测的物理参数结合,得到可直接用于模拟的完整资产。
-
端到端推理
- 在测试时,仅通过一次前向传播经过视觉‑语言模型和 MLP,即可同时得到材质描述和物理常数,省去任何迭代优化。
Source: …
结果与发现
| 指标 | Image2Garment | 先前的单视图方法 |
|---|---|---|
| 材料成分准确率(top‑1) | 92.4 % | 78.1 % |
| 织物属性 MAE(如弹性、厚度) | 0.07 | 0.15 |
| 仿真垂坠误差(RMSE 与真实扫描对比) | 1.8 mm | 3.4 mm |
| 推理时间(每件服装) | ≈120 ms(GPU) | 2–5 s(迭代) |
- 微调后的视觉‑语言模型在材料检测上远超普通 ResNet 分类器。
- 当预测的物理参数输入标准布料模拟器(例如 NVIDIA Flex)时,得到的垂坠效果相较仅预测几何形状的基线,能更明显地匹配真实世界的参考扫描。
- 消融实验表明,两阶段的属性‑到‑物理映射在数据利用效率上优于直接从图像学习物理参数。
实际意义
- 电子商务与虚拟试穿:零售商可以自动生成物理上准确的 3‑D 服装,用于 AR/VR 试衣间,而无需昂贵的多摄像头装置。
- 游戏与电影制作:艺术家只需导入一张概念草图或照片,即可瞬间获得在动画中表现真实的布料资产,减少手动绑定和调校。
- 服装制造的数字孪生:设计师可以在制作实体原型之前,模拟新面料在人体上的垂坠效果,加速材料选择并降低浪费。
- 开源工具:由于该流水线是前馈的且依赖轻量模型,可打包为流行引擎(Unity、Unreal)的插件,或集成到 Blender 等工作流中。
限制与未来工作
- 数据集范围:FTAG 覆盖常见的消费类面料,但缺乏异域或高度工程化的纺织品(例如,智能面料、复合材料)。扩展属性分类法将有助于扩大适用性。
- 身体姿态依赖:几何恢复步骤假设姿态相对端正;极端遮挡或非标准体型可能导致网格质量下降。
- 物理模型简化:当前映射针对标准线性弹性参数;黏弹性或各向异性行为未被捕获。未来工作可以加入更丰富的本构模型,并从动态视频数据中学习这些模型。
- 真实世界验证:虽然褶皱误差是相对于实验室扫描进行测量的,但在交互环境中对感知真实感的用户研究仍在进行中。
Image2Garment 展示了将视觉‑语言语义与小规模物理数据集巧妙结合的方式,使得任何仅拥有单张产品照片的开发者都能实现高保真布料模拟。该方法为零售、娱乐和设计等领域的可扩展、物理感知的虚拟服装流水线打开了大门。
作者
- Selim Emir Can
- Jan Ackermann
- Kiyohiro Nakayama
- Ruofan Liu
- Tong Wu
- Yang Zheng
- Hugo Bertiche
- Menglei Chai
- Thabo Beeler
- Gordon Wetzstein
论文信息
- arXiv ID: 2601.09658v1
- 分类: cs.CV
- 出版日期: 2026年1月14日
- PDF: 下载 PDF