[Paper] LouvreSAE：稀疏自编码器用于可解释且可控的风格迁移

发布: 1周前 (2025年12月22日 GMT+8 08:36)

7 min read

原文: arXiv

Source: arXiv - 2512.18930v1

Overview

LouvreSAE 提出了一种轻量级、可解释的方式来捕获和转移艺术风格，使用基于现有生成图像模型潜在空间构建的 稀疏自编码器 (SAE)。通过从少量参考艺术作品中学习一组紧凑的 “风格引导向量”，该方法实现了快速、无需微调的风格迁移，并且保持与图像内容的解耦。

关键贡献

用于艺术的稀疏自编码器 – 在预训练生成器的潜在嵌入上训练 SAE，得到稀疏、可解释的风格和构图概念基。
风格配置文件作为引导向量 – 构建低维、可分解的向量，可添加到任何潜在代码中，以在不更新生成器的情况下施加所需风格。
零微调迁移 – 推理时无需 LoRA 适配器、提示工程或额外优化步骤。
速度与质量的权衡 – 在 ArtBench10 基准上实现相当或更好的 VGG 风格损失和基于 CLIP 的风格得分，同时比以往概念方法 快 1.7–20 倍。
可解释性 – 每个稀疏维度对应直观的视觉因素（例如笔触粗细、调色板色相、纹理颗粒度），开发者可以手动微调或组合风格。

方法论

潜在提取 – 将图像（包括照片和艺术作品）输入预训练的扩散模型或 GAN 生成器；收集其中间潜在向量。
稀疏自编码 – 在这些潜在向量上训练一个瓶颈层带有 ℓ₁ 正则化的自编码器。稀疏性迫使模型仅使用少量激活维度来表示每幅图像，自然实现风格与内容的分离。
概念发现 – 训练完成后，检查每个激活维度（通过可视化解码输出），并将其标记为风格因素或语义因素（例如 “厚涂笔触”、 “冷蓝色调”）。
风格概况创建 – 对于目标风格，计算一小组参考艺术作品的平均激活，得到 风格引导向量。
风格迁移 – 为了给新图像加上风格，只需将其潜在码相加（或线性混合）到引导向量，然后使用生成器现有的解码器进行解码。无需权重更新、LoRA 模块或额外的扩散步骤。

结果与发现

指标 (ArtBench10)	LouvreSAE	先前基于概念的方法
VGG 风格损失（越低越好）	0.42	0.55 – 0.68
CLIP 分数 – 风格（越高越好）	0.71	0.63 – 0.68
每张图像的推理时间	≈ 0.12 s	0.2 s – 2.4 s

质量： LouvreSAE 在保持内容结构的同时，匹配或超越了风格保真度。
速度： 由于该方法仅添加一个向量并进行一次前向传播，相比需要迭代优化或适配器微调的方案快至 20 倍。
可解释性： 视觉检查表明，切换单个稀疏维度会产生可预测的变化（例如，增加“笔触宽度”会使笔触加粗，而不改变场景布局）。

实际意义

快速原型制作用于创意工具 – UI/UX 设计师可以嵌入一个“风格选择器”，只需一次点击即可即时重新渲染用户生成的图像，无需 GPU 密集的微调。
批量处理流水线 – 工作室可以将一致的艺术签名应用于数千帧（例如用于风格化视频或游戏资产），计算开销极小。
细粒度控制供开发者使用 – 由于每个维度都有语义标签，开发者可以提供“调色板温度”或“纹理颗粒度”等滑块，实现确定性、可复现的风格调整。
低资源部署 – 由于该方法基于任何现成的生成模型，可部署到边缘设备（移动端、WebGL），在模型更新不切实际的情况下使用。
跨领域风格迁移 – 相同的引导向量可用于非艺术领域（例如医学影像可视化），在不污染诊断内容的前提下施加所需的视觉语言。

限制与未来工作

Domain dependence – SAE 在以艺术为中心的数据集上进行训练；转移到高度不同的领域（例如卫星影像）可能需要重新训练或领域适应。
Granularity of concepts – 虽然许多维度能够清晰映射到视觉因素，但仍有一些维度相互纠缠，限制了对极其细微风格细节的精确控制。
Scalability of concept labeling – 维度命名采用了人工检查；如果实现自动化此步骤，将能加速推广。
Future directions suggested by the authors include: 将稀疏基扩展到多模态输入（例如文本引导的风格提示），与基于扩散的生成模型集成以实现更高分辨率的输出，以及探索层次稀疏性以在多空间尺度上捕捉风格。

作者

Raina Panda
Daniel Fein
Arpita Singhal
Mark Fiore
Maneesh Agrawala
Matyas Bohacek

论文信息

arXiv ID: 2512.18930v1
分类: cs.CV, cs.AI, cs.GR
出版日期: 2025年12月22日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] StreamAvatar：用于实时交互式人类化身的Streaming Diffusion Models

实时、流式交互式化身是数字人研究中的关键且具有挑战性的目标。虽然基于 diffusion 的人类化身生成…

[论文] LongFly：长时程 UAV Vision-and-Language Navigation 与 Spatiotemporal Context Integration

无人机（UAV）是灾后搜救的关键工具，面临信息密度高、视角快速变化等挑战……

[Paper] 数据处理不等式是否反映实践？关于低层任务的效用

Data processing inequality 是信息论中的一个原理，指出对观测到的信号进行处理时，信号的信息内容不能增加。

[Paper] 提升 Ray Search Optimization 的收敛率，以实现查询高效的硬标签攻击

在硬标签黑箱对抗攻击中，仅能访问 top-1 预测标签，巨大的查询复杂度对实际应用构成了主要障碍。