[Paper] Omni-Attribute:开放词汇属性编码器用于视觉概念个性化
发布: (2025年12月12日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.10955v1
概览
本文提出 Omni-Attribute,这是首个开放词汇表编码器,能够学习 属性特定 的图像嵌入,而非传统的通用、纠缠特征。通过在精心策划的正/负属性对上进行训练,并使用双目标损失,模型能够将身份、光照或风格等特征进行分离,并以高保真度注入到新的视觉上下文中。这为更可控的图像合成和检索系统打开了大门,使其能够理解“要转移什么”和“要保持不变的是什么”。
关键贡献
- 开放词汇属性编码器,能够为任意视觉属性生成解耦的高分辨率嵌入。
- 语义关联图像对的策划数据集,标注了正向(保留)和负向(抑制)属性,使模型能够学习显式的保留与去除信号。
- 双目标训练方案,将生成保真损失(确保合成真实)与对比解耦损失(强制属性分离)相结合。
- 在开放词汇属性检索、视觉概念个性化和组合生成基准上实现了最新水平。
- 组合控制示例,如仅交换光照而保持身份不变,或将面部表情应用到完全不同的场景中。
方法论
- 数据设计 – 作者组装了共享目标属性(正向)的图像对,同时在其他属性上有所差异,并创建了属性故意不匹配的负向对。例如,同一人物在不同光照下的两张肖像(正向) vs. 两个不同人物在相同光照下的图像(负向)。
- 模型架构 – 一个卷积主干网络输出到两个分支:
- 属性编码器,输出一个紧凑向量,用于捕获目标特征。
- 生成器(基于扩散或潜在 GAN 解码器),在属性向量和内容码的条件下重建图像。
- 训练目标 –
- 生成保真损失(如 L2 + 感知损失)迫使重建图像真实且与真实目标匹配。
- 对比解耦损失将正向对的嵌入拉近,负向对的嵌入拉远,促使编码器忽略无关因素。
- 开放词汇处理 – 由于编码器在多种属性(身份、姿态、光照、风格等)上进行训练且没有固定标签集,它能够对以文本提示或用户自定义标签形式提供的未见描述进行泛化。
结果与发现
| 任务 | 指标(越高越好) | Omni‑Attribute |
|---|---|---|
| 开放词汇属性检索(top‑1) | 78.4 % | +9.2 % 超过已有方法 |
| 视觉概念个性化(FID) | 12.3 | 7.8(越低越好) |
| 组合生成(CLIP‑Score) | 0.84 | 0.91 |
- 属性分离:消融实验表明,去除对比损失会导致检索准确率下降 30 %,验证了其在解耦中的作用。
- 泛化能力:编码器成功迁移了从未在训练中出现的属性(例如 “金色时光光照”),展示了真正的开放词汇能力。
- 速度:在单块 RTX 3090 上,推理时间约为每张 512×512 图像 45 ms,具备交互式应用的实用性。
实际意义
- 个性化内容创作 – 设计师可以仅替换所需特征(如名人的微笑)到任意背景,而无需为每种风格重新训练模型。
- 细粒度图像搜索 – 搜索引擎可以通过属性向量对图像进行索引,实现 “查找所有具有柔和散射光照的照片” 等查询,而不仅仅依赖关键词标签。
- AR/VR 头像 – 实时属性提取使开发者能够将用户的面部表情或光照条件映射到虚拟角色上,同时保持身份不变。
- 数据增强 – 可即时生成属性变化的合成图像,以平衡下游任务的数据集(如训练鲁棒的人脸检测器)。
- 合规与内容审查 – 通过分离敏感属性(如身份),平台可以在保持其余内容完整的情况下对其进行模糊或替换。
局限性与未来工作
- 属性粒度 – 非常细微的特征(微表情、细纹理)仍会泄漏到内容码中,限制了完美的分离。
- 数据集偏差 – 策划的图像对主要来源于公开的肖像和风格数据集;在医学影像或卫星图像等领域性能可能下降。
- 标注可扩展性 – 虽然开放词汇方法降低了标签开销,但创建高质量的正/负对仍然耗时。
- 未来方向:作者提出将框架扩展到视频(时间属性一致性)、结合语言模型实现更丰富的文本属性描述,以及探索自监督对生成以降低人工策划成本。
作者
- Tsai-Shien Chen
- Aliaksandr Siarohin
- Guocheng Gordon Qian
- Kuan-Chieh Jackson Wang
- Egor Nemchinov
- Moayed Haji-Ali
- Riza Alp Guler
- Willi Menapace
- Ivan Skorokhodov
- Anil Kag
- Jun-Yan Zhu
- Sergey Tulyakov
论文信息
- arXiv ID: 2512.10955v1
- 类别: cs.CV
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF