[Paper] LouvreSAE:稀疏自编码器用于可解释且可控的风格迁移

发布: (2025年12月22日 GMT+8 08:36)
7 min read
原文: arXiv

Source: arXiv - 2512.18930v1

Overview

LouvreSAE 提出了一种轻量级、可解释的方式来捕获和转移艺术风格,使用基于现有生成图像模型潜在空间构建的 稀疏自编码器 (SAE)。通过从少量参考艺术作品中学习一组紧凑的 “风格引导向量”,该方法实现了快速、无需微调的风格迁移,并且保持与图像内容的解耦。

关键贡献

  • 用于艺术的稀疏自编码器 – 在预训练生成器的潜在嵌入上训练 SAE,得到稀疏、可解释的风格和构图概念基。
  • 风格配置文件作为引导向量 – 构建低维、可分解的向量,可添加到任何潜在代码中,以在不更新生成器的情况下施加所需风格。
  • 零微调迁移 – 推理时无需 LoRA 适配器、提示工程或额外优化步骤。
  • 速度与质量的权衡 – 在 ArtBench10 基准上实现相当或更好的 VGG 风格损失和基于 CLIP 的风格得分,同时比以往概念方法 快 1.7–20 倍
  • 可解释性 – 每个稀疏维度对应直观的视觉因素(例如笔触粗细、调色板色相、纹理颗粒度),开发者可以手动微调或组合风格。

方法论

  1. 潜在提取 – 将图像(包括照片和艺术作品)输入预训练的扩散模型或 GAN 生成器;收集其中间潜在向量。
  2. 稀疏自编码 – 在这些潜在向量上训练一个瓶颈层带有 ℓ₁ 正则化的自编码器。稀疏性迫使模型仅使用少量激活维度来表示每幅图像,自然实现风格与内容的分离。
  3. 概念发现 – 训练完成后,检查每个激活维度(通过可视化解码输出),并将其标记为风格因素或语义因素(例如 “厚涂笔触”、 “冷蓝色调”)。
  4. 风格概况创建 – 对于目标风格,计算一小组参考艺术作品的平均激活,得到 风格引导向量
  5. 风格迁移 – 为了给新图像加上风格,只需将其潜在码 相加(或线性混合)到引导向量,然后使用生成器现有的解码器进行解码。无需权重更新、LoRA 模块或额外的扩散步骤。

结果与发现

指标 (ArtBench10)LouvreSAE先前基于概念的方法
VGG 风格损失(越低越好)0.420.55 – 0.68
CLIP 分数 – 风格(越高越好)0.710.63 – 0.68
每张图像的推理时间≈ 0.12 s0.2 s – 2.4 s
  • 质量: LouvreSAE 在保持内容结构的同时,匹配或超越了风格保真度。
  • 速度: 由于该方法仅添加一个向量并进行一次前向传播,相比需要迭代优化或适配器微调的方案快至 20 倍。
  • 可解释性: 视觉检查表明,切换单个稀疏维度会产生可预测的变化(例如,增加“笔触宽度”会使笔触加粗,而不改变场景布局)。

实际意义

  • 快速原型制作用于创意工具 – UI/UX 设计师可以嵌入一个“风格选择器”,只需一次点击即可即时重新渲染用户生成的图像,无需 GPU 密集的微调。
  • 批量处理流水线 – 工作室可以将一致的艺术签名应用于数千帧(例如用于风格化视频或游戏资产),计算开销极小。
  • 细粒度控制供开发者使用 – 由于每个维度都有语义标签,开发者可以提供“调色板温度”或“纹理颗粒度”等滑块,实现确定性、可复现的风格调整。
  • 低资源部署 – 由于该方法基于任何现成的生成模型,可部署到边缘设备(移动端、WebGL),在模型更新不切实际的情况下使用。
  • 跨领域风格迁移 – 相同的引导向量可用于非艺术领域(例如医学影像可视化),在不污染诊断内容的前提下施加所需的视觉语言。

限制与未来工作

  • Domain dependence – SAE 在以艺术为中心的数据集上进行训练;转移到高度不同的领域(例如卫星影像)可能需要重新训练或领域适应。
  • Granularity of concepts – 虽然许多维度能够清晰映射到视觉因素,但仍有一些维度相互纠缠,限制了对极其细微风格细节的精确控制。
  • Scalability of concept labeling – 维度命名采用了人工检查;如果实现自动化此步骤,将能加速推广。
  • Future directions suggested by the authors include: 将稀疏基扩展到多模态输入(例如文本引导的风格提示),与基于扩散的生成模型集成以实现更高分辨率的输出,以及探索层次稀疏性以在多空间尺度上捕捉风格。

作者

  • Raina Panda
  • Daniel Fein
  • Arpita Singhal
  • Mark Fiore
  • Maneesh Agrawala
  • Matyas Bohacek

论文信息

  • arXiv ID: 2512.18930v1
  • 分类: cs.CV, cs.AI, cs.GR
  • 出版日期: 2025年12月22日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »