[Paper] LouvreSAE:稀疏自编码器用于可解释且可控的风格迁移
发布: (2025年12月22日 GMT+8 08:36)
7 min read
原文: arXiv
Source: arXiv - 2512.18930v1
Overview
LouvreSAE 提出了一种轻量级、可解释的方式来捕获和转移艺术风格,使用基于现有生成图像模型潜在空间构建的 稀疏自编码器 (SAE)。通过从少量参考艺术作品中学习一组紧凑的 “风格引导向量”,该方法实现了快速、无需微调的风格迁移,并且保持与图像内容的解耦。
关键贡献
- 用于艺术的稀疏自编码器 – 在预训练生成器的潜在嵌入上训练 SAE,得到稀疏、可解释的风格和构图概念基。
- 风格配置文件作为引导向量 – 构建低维、可分解的向量,可添加到任何潜在代码中,以在不更新生成器的情况下施加所需风格。
- 零微调迁移 – 推理时无需 LoRA 适配器、提示工程或额外优化步骤。
- 速度与质量的权衡 – 在 ArtBench10 基准上实现相当或更好的 VGG 风格损失和基于 CLIP 的风格得分,同时比以往概念方法 快 1.7–20 倍。
- 可解释性 – 每个稀疏维度对应直观的视觉因素(例如笔触粗细、调色板色相、纹理颗粒度),开发者可以手动微调或组合风格。
方法论
- 潜在提取 – 将图像(包括照片和艺术作品)输入预训练的扩散模型或 GAN 生成器;收集其中间潜在向量。
- 稀疏自编码 – 在这些潜在向量上训练一个瓶颈层带有 ℓ₁ 正则化的自编码器。稀疏性迫使模型仅使用少量激活维度来表示每幅图像,自然实现风格与内容的分离。
- 概念发现 – 训练完成后,检查每个激活维度(通过可视化解码输出),并将其标记为风格因素或语义因素(例如 “厚涂笔触”、 “冷蓝色调”)。
- 风格概况创建 – 对于目标风格,计算一小组参考艺术作品的平均激活,得到 风格引导向量。
- 风格迁移 – 为了给新图像加上风格,只需将其潜在码 相加(或线性混合)到引导向量,然后使用生成器现有的解码器进行解码。无需权重更新、LoRA 模块或额外的扩散步骤。
结果与发现
| 指标 (ArtBench10) | LouvreSAE | 先前基于概念的方法 |
|---|---|---|
| VGG 风格损失(越低越好) | 0.42 | 0.55 – 0.68 |
| CLIP 分数 – 风格(越高越好) | 0.71 | 0.63 – 0.68 |
| 每张图像的推理时间 | ≈ 0.12 s | 0.2 s – 2.4 s |
- 质量: LouvreSAE 在保持内容结构的同时,匹配或超越了风格保真度。
- 速度: 由于该方法仅添加一个向量并进行一次前向传播,相比需要迭代优化或适配器微调的方案快至 20 倍。
- 可解释性: 视觉检查表明,切换单个稀疏维度会产生可预测的变化(例如,增加“笔触宽度”会使笔触加粗,而不改变场景布局)。
实际意义
- 快速原型制作用于创意工具 – UI/UX 设计师可以嵌入一个“风格选择器”,只需一次点击即可即时重新渲染用户生成的图像,无需 GPU 密集的微调。
- 批量处理流水线 – 工作室可以将一致的艺术签名应用于数千帧(例如用于风格化视频或游戏资产),计算开销极小。
- 细粒度控制供开发者使用 – 由于每个维度都有语义标签,开发者可以提供“调色板温度”或“纹理颗粒度”等滑块,实现确定性、可复现的风格调整。
- 低资源部署 – 由于该方法基于任何现成的生成模型,可部署到边缘设备(移动端、WebGL),在模型更新不切实际的情况下使用。
- 跨领域风格迁移 – 相同的引导向量可用于非艺术领域(例如医学影像可视化),在不污染诊断内容的前提下施加所需的视觉语言。
限制与未来工作
- Domain dependence – SAE 在以艺术为中心的数据集上进行训练;转移到高度不同的领域(例如卫星影像)可能需要重新训练或领域适应。
- Granularity of concepts – 虽然许多维度能够清晰映射到视觉因素,但仍有一些维度相互纠缠,限制了对极其细微风格细节的精确控制。
- Scalability of concept labeling – 维度命名采用了人工检查;如果实现自动化此步骤,将能加速推广。
- Future directions suggested by the authors include: 将稀疏基扩展到多模态输入(例如文本引导的风格提示),与基于扩散的生成模型集成以实现更高分辨率的输出,以及探索层次稀疏性以在多空间尺度上捕捉风格。
作者
- Raina Panda
- Daniel Fein
- Arpita Singhal
- Mark Fiore
- Maneesh Agrawala
- Matyas Bohacek
论文信息
- arXiv ID: 2512.18930v1
- 分类: cs.CV, cs.AI, cs.GR
- 出版日期: 2025年12月22日
- PDF: Download PDF