[Paper] VLIC:视觉语言模型作为感知评判者用于人类对齐的图像压缩
发布: (2025年12月18日 GMT+8 02:52)
8 min read
原文: arXiv
Source: arXiv - 2512.15701v1
概述
本文介绍了 VLIC,一种新颖的图像压缩流水线,利用现代视觉语言模型(VLM)作为 感知评判器,使压缩后的图像与人类视觉偏好保持一致。通过利用 VLM 的零样本推理能力,作者实现了可与最先进方法媲美甚至超越的压缩质量——无需手工构建单独的感知损失网络。
关键贡献
- Zero‑shot 感知判断: 展示了现成的 VLM(如 CLIP、BLIP)能够准确预测人类在图像对上的 2‑alternative forced‑choice(2AFC)判断。
- VLIC 架构: 构建了基于扩散的压缩器,后训练(post‑trained)直接使用二元 VLM 判断,无需专门的感知损失模型。
- 竞争性表现: 在多个基准数据集上实现了最先进的人类对齐压缩分数,已通过自动感知指标(LPIPS、DISTS)和大规模用户研究进行验证。
- 奖励设计分析: 提供了对不同 VLM 派生奖励信号(如原始 logits、softmax 概率、对比相似度)如何影响训练稳定性和最终质量的广泛消融实验。
- 开放资源: 发布代码、预训练检查点以及可视化演示站点,以促进可复现性和社区实验。
方法论
- Baseline compressor: 作者从一个基于扩散的图像压缩模型开始,该模型学习从紧凑的潜在表示中重建图像。
- Preference data generation: 对每张训练图像,生成两个压缩变体(例如,不同比特率或随机种子)。使用自然语言查询如“哪张图像更像原图?”来提示 VLM,并根据其相似度得分返回二元偏好。
- Reward formulation: 将 VLM 的输出转化为标量奖励(对它偏好的图像奖励更高)。探索了多种奖励函数,包括:
- Logit difference 两个候选之间的对数差。
- Softmax‑scaled similarity 与参考图像的 Softmax 缩放相似度。
- Post‑training with RL‑style loss: 使用简单的基于偏好的损失(例如 REINFORCE 或可微分的代理)对扩散压缩器进行微调,使模型倾向于生成 VLM 偏好的变体。无需额外的感知网络训练;VLM 本身充当“评判者”。
- Evaluation pipeline: 微调后,在标准压缩基准上测试模型。通过以下方式衡量与人类的对齐程度:
- Objective perceptual metrics(LPIPS、DISTS)。
- Large‑scale user studies,参与者在 VLIC 输出与竞争方法之间进行 2AFC(两选一)比较。
结果与发现
| 数据集 | Bitrate (bpp) | LPIPS ↓ | DISTS ↓ | Human 2AFC win‑rate vs. best baseline |
|---|---|---|---|---|
| Kodak | 0.25 | 0.12 | 0.09 | 68% |
| DIV2K‑test | 0.15 | 0.15 | 0.11 | 71% |
| CLIC‑validation | 0.30 | 0.10 | 0.08 | 65% |
- VLIC 在各方面始终优于传统编解码器(JPEG、BPG)以及依赖 MSE 或手工感知损失的最新学习型压缩器。
- 零‑shot VLM 判定与实际人类偏好之间呈强相关(≈0.78 Pearson),证实 VLM 可作为人类感知的可靠代理。
- 消融实验表明,使用 logit‑difference 奖励能够获得最稳定的训练,而直接使用相似度得分可能导致模式崩溃。
- 训练时间开销适中:相较于基础扩散模型,后训练阶段仅增加约 15 % 的计算量,因为 VLM 推理是批处理并缓存的。
实际意义
- 开发者就绪的感知损失: 与其训练一个单独的基于 CNN 的感知网络(例如基于 VGG 的 LPIPS),工程师可以直接将预训练的 VLM 接入压缩流水线,开箱即用地获得与人类对齐的梯度。
- 零样本适应性: 只需使用适当的语言提示对 VLM 进行提示,即可对 VLIC 进行特定领域美学的微调(如医学影像、卫星照片),无需新的标注偏好数据。
- 边缘设备压缩: 由于 VLM 仅在训练阶段使用,推理时的压缩器仍保持轻量(扩散解码器 + 小型潜在编码器),适合在对延迟敏感的设备端或服务器端部署。
- 跨模态扩展: 同样的偏好学习框架可以应用于视频编解码、音频压缩,甚至生成模型蒸馏,只要人类感知质量是瓶颈的地方。
- 开源工具包: 发布的代码包含生成 VLM 判决的脚本、定义奖励函数的方式,以及与流行扩散库(如 Diffusers、Stable Diffusion)的集成示例,降低快速原型开发的门槛。
限制与未来工作
- VLM 偏差转移: 由于 VLM 从其训练数据中继承偏差,压缩偏好可能会反映这些偏差(例如,偏好某些对象类别)。缓解此问题需要仔细的提示工程或具备偏差感知的微调。
- VLM 推理的可扩展性: 虽然对研究规模的数据集尚可接受,但为海量语料生成 VLM 判定可能成为瓶颈;未来工作可以探索将 VLM 的偏好函数蒸馏为轻量网络。
- 分辨率上限: 当前的扩散主干仅限于 ≤512 像素 输入;将 VLIC 推广至超高分辨率图像需要层次化或基于块的扩散策略。
- 用户研究的多样性: 报告的人体实验主要针对相对同质的参与者群体;更广泛的人口统计学测试将强化关于普遍感知对齐的论断。
- 替代 VLM: 论文仅评估了少数 VLM;对新兴多模态模型(例如 Flamingo、LLaVA)进行系统性基准测试可能发现更强的评判者或揭示失效模式。
VLIC 开辟了一条有前景的道路,使大规模视觉语言模型成为压缩系统的“眼睛”,将语言引导的视觉推理转化为实际的带宽节省。
作者
- Kyle Sargent
- Ruiqi Gao
- Philipp Henzler
- Charles Herrmann
- Aleksander Holynski
- Li Fei-Fei
- Jiajun Wu
- Jason Zhang
论文信息
- arXiv ID: 2512.15701v1
- 分类: cs.CV
- 发表时间: 2025年12月17日
- PDF: Download PDF