[Paper] Image2Garment：从单张图像生成可用于仿真的服装

发布: 3周前 (2026年1月15日 GMT+8 01:47)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.09658v1

概述

本文介绍了 Image2Garment，一个前馈系统，能够将单张服装照片转换为 可用于仿真的 3‑D 服装——包括几何形状、材料组成和物理面料参数。通过利用微调的视觉‑语言模型和一个小型物理测量数据集，作者绕过了长期主导该领域的昂贵多视角捕获和迭代优化流程。

单图像、可直接用于仿真的管线：仅凭一张 RGB 图像即可生成完整的服装网格以及底层的材料物理属性。
面向面料语义的视觉‑语言微调：将大型预训练模型（例如 CLIP）微调，以直接从真实照片中预测面料属性（如织法、弹性、厚度）。
两个新数据集：
- FTAG – 一个经过精心策划的时尚图像集合，标注了材料成分和高级面料属性。
- T2P – 一个紧凑的测量面料样本集，将这些属性与具体的物理参数（如杨氏模量、阻尼）关联起来。
轻量级物理参数预测器：一个小型神经网络，将预测的属性映射为标准布料仿真器所需的数值。
最先进的精度：在材料成分估计和相较于以往图像‑到‑服装方法的高保真度仿真垂度方面表现出卓越的优势。

数据收集
- FTAG: 大约 1 万张从在线目录抓取的时尚图片，手动标注了材质标签（棉、聚酯、丝绸等）和描述性属性（针织 vs. 机织、弹性水平、厚度）。
- T2P: 200 个物理面料样本在实验室测量，获取弹性模量、剪切模量、密度和阻尼系数。
视觉‑语言模型微调
- 从预训练的类似 CLIP 的编码‑解码器对开始。
- 在 FTAG 上使用对比损失进行训练，使图像嵌入与文本属性描述对齐，从而让模型输出 材质类别的概率分布 和 连续面料属性向量。
物理参数估计
- 将属性向量输入一个浅层 MLP（3–4 层，< 500k 参数）。
- 使用 T2P 测量值进行监督，学习从高层属性到典型基于位置的动力学（PBD）或有限元方法（FEM）布料模拟器所需的低层物理常数的映射。
服装几何恢复
- 使用已有的单图像 3‑D 重建网络（例如基于 SMPL 的人体估计器 + 轮廓驱动的网格细化）获取服装形状。
- 将恢复的网格 与预测的物理参数结合，得到可直接用于模拟的完整资产。
端到端推理
- 在测试时，仅通过一次前向传播经过视觉‑语言模型和 MLP，即可同时得到材质描述和物理常数，省去任何迭代优化。

Source: …

Image2Garment 展示了将视觉‑语言语义与小规模物理数据集巧妙结合的方式，使得任何仅拥有单张产品照片的开发者都能实现高保真布料模拟。该方法为零售、娱乐和设计等领域的可扩展、物理感知的虚拟服装流水线打开了大门。