[Paper] VLIC:视觉语言模型作为感知评判者用于人类对齐的图像压缩

发布: (2025年12月18日 GMT+8 02:52)
8 min read
原文: arXiv

Source: arXiv - 2512.15701v1

概述

本文介绍了 VLIC,一种新颖的图像压缩流水线,利用现代视觉语言模型(VLM)作为 感知评判器,使压缩后的图像与人类视觉偏好保持一致。通过利用 VLM 的零样本推理能力,作者实现了可与最先进方法媲美甚至超越的压缩质量——无需手工构建单独的感知损失网络。

关键贡献

  • Zero‑shot 感知判断: 展示了现成的 VLM(如 CLIP、BLIP)能够准确预测人类在图像对上的 2‑alternative forced‑choice(2AFC)判断。
  • VLIC 架构: 构建了基于扩散的压缩器,后训练(post‑trained)直接使用二元 VLM 判断,无需专门的感知损失模型。
  • 竞争性表现: 在多个基准数据集上实现了最先进的人类对齐压缩分数,已通过自动感知指标(LPIPS、DISTS)和大规模用户研究进行验证。
  • 奖励设计分析: 提供了对不同 VLM 派生奖励信号(如原始 logits、softmax 概率、对比相似度)如何影响训练稳定性和最终质量的广泛消融实验。
  • 开放资源: 发布代码、预训练检查点以及可视化演示站点,以促进可复现性和社区实验。

方法论

  1. Baseline compressor: 作者从一个基于扩散的图像压缩模型开始,该模型学习从紧凑的潜在表示中重建图像。
  2. Preference data generation: 对每张训练图像,生成两个压缩变体(例如,不同比特率或随机种子)。使用自然语言查询如“哪张图像更像原图?”来提示 VLM,并根据其相似度得分返回二元偏好。
  3. Reward formulation: 将 VLM 的输出转化为标量奖励(对它偏好的图像奖励更高)。探索了多种奖励函数,包括:
    • Logit difference 两个候选之间的对数差。
    • Softmax‑scaled similarity 与参考图像的 Softmax 缩放相似度。
  4. Post‑training with RL‑style loss: 使用简单的基于偏好的损失(例如 REINFORCE 或可微分的代理)对扩散压缩器进行微调,使模型倾向于生成 VLM 偏好的变体。无需额外的感知网络训练;VLM 本身充当“评判者”。
  5. Evaluation pipeline: 微调后,在标准压缩基准上测试模型。通过以下方式衡量与人类的对齐程度:
    • Objective perceptual metrics(LPIPS、DISTS)。
    • Large‑scale user studies,参与者在 VLIC 输出与竞争方法之间进行 2AFC(两选一)比较。

结果与发现

数据集Bitrate (bpp)LPIPS ↓DISTS ↓Human 2AFC win‑rate vs. best baseline
Kodak0.250.120.0968%
DIV2K‑test0.150.150.1171%
CLIC‑validation0.300.100.0865%
  • VLIC 在各方面始终优于传统编解码器(JPEG、BPG)以及依赖 MSE 或手工感知损失的最新学习型压缩器。
  • 零‑shot VLM 判定与实际人类偏好之间呈强相关(≈0.78 Pearson),证实 VLM 可作为人类感知的可靠代理。
  • 消融实验表明,使用 logit‑difference 奖励能够获得最稳定的训练,而直接使用相似度得分可能导致模式崩溃。
  • 训练时间开销适中:相较于基础扩散模型,后训练阶段仅增加约 15 % 的计算量,因为 VLM 推理是批处理并缓存的。

实际意义

  • 开发者就绪的感知损失: 与其训练一个单独的基于 CNN 的感知网络(例如基于 VGG 的 LPIPS),工程师可以直接将预训练的 VLM 接入压缩流水线,开箱即用地获得与人类对齐的梯度。
  • 零样本适应性: 只需使用适当的语言提示对 VLM 进行提示,即可对 VLIC 进行特定领域美学的微调(如医学影像、卫星照片),无需新的标注偏好数据。
  • 边缘设备压缩: 由于 VLM 仅在训练阶段使用,推理时的压缩器仍保持轻量(扩散解码器 + 小型潜在编码器),适合在对延迟敏感的设备端或服务器端部署。
  • 跨模态扩展: 同样的偏好学习框架可以应用于视频编解码、音频压缩,甚至生成模型蒸馏,只要人类感知质量是瓶颈的地方。
  • 开源工具包: 发布的代码包含生成 VLM 判决的脚本、定义奖励函数的方式,以及与流行扩散库(如 Diffusers、Stable Diffusion)的集成示例,降低快速原型开发的门槛。

限制与未来工作

  • VLM 偏差转移: 由于 VLM 从其训练数据中继承偏差,压缩偏好可能会反映这些偏差(例如,偏好某些对象类别)。缓解此问题需要仔细的提示工程或具备偏差感知的微调。
  • VLM 推理的可扩展性: 虽然对研究规模的数据集尚可接受,但为海量语料生成 VLM 判定可能成为瓶颈;未来工作可以探索将 VLM 的偏好函数蒸馏为轻量网络。
  • 分辨率上限: 当前的扩散主干仅限于 ≤512 像素 输入;将 VLIC 推广至超高分辨率图像需要层次化或基于块的扩散策略。
  • 用户研究的多样性: 报告的人体实验主要针对相对同质的参与者群体;更广泛的人口统计学测试将强化关于普遍感知对齐的论断。
  • 替代 VLM: 论文仅评估了少数 VLM;对新兴多模态模型(例如 Flamingo、LLaVA)进行系统性基准测试可能发现更强的评判者或揭示失效模式。

VLIC 开辟了一条有前景的道路,使大规模视觉语言模型成为压缩系统的“眼睛”,将语言引导的视觉推理转化为实际的带宽节省。

作者

  • Kyle Sargent
  • Ruiqi Gao
  • Philipp Henzler
  • Charles Herrmann
  • Aleksander Holynski
  • Li Fei-Fei
  • Jiajun Wu
  • Jason Zhang

论文信息

  • arXiv ID: 2512.15701v1
  • 分类: cs.CV
  • 发表时间: 2025年12月17日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 灵巧的世界模型

近期在 3D reconstruction 方面的进展使得从日常环境中轻松创建逼真的 digital twins 成为可能。然而,当前的 digital twins 仍然规模庞大...