[Paper] VLIC：视觉语言模型作为感知评判者用于人类对齐的图像压缩

发布: 1个月前 (2025年12月18日 GMT+8 02:52)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.15701v1

概述

本文介绍了 VLIC，一种新颖的图像压缩流水线，利用现代视觉语言模型（VLM）作为 感知评判器，使压缩后的图像与人类视觉偏好保持一致。通过利用 VLM 的零样本推理能力，作者实现了可与最先进方法媲美甚至超越的压缩质量——无需手工构建单独的感知损失网络。

Zero‑shot 感知判断： 展示了现成的 VLM（如 CLIP、BLIP）能够准确预测人类在图像对上的 2‑alternative forced‑choice（2AFC）判断。
VLIC 架构： 构建了基于扩散的压缩器，后训练（post‑trained）直接使用二元 VLM 判断，无需专门的感知损失模型。
竞争性表现： 在多个基准数据集上实现了最先进的人类对齐压缩分数，已通过自动感知指标（LPIPS、DISTS）和大规模用户研究进行验证。
奖励设计分析： 提供了对不同 VLM 派生奖励信号（如原始 logits、softmax 概率、对比相似度）如何影响训练稳定性和最终质量的广泛消融实验。
开放资源： 发布代码、预训练检查点以及可视化演示站点，以促进可复现性和社区实验。

Baseline compressor: 作者从一个基于扩散的图像压缩模型开始，该模型学习从紧凑的潜在表示中重建图像。
Preference data generation: 对每张训练图像，生成两个压缩变体（例如，不同比特率或随机种子）。使用自然语言查询如“哪张图像更像原图？”来提示 VLM，并根据其相似度得分返回二元偏好。
Reward formulation: 将 VLM 的输出转化为标量奖励（对它偏好的图像奖励更高）。探索了多种奖励函数，包括：
- Logit difference 两个候选之间的对数差。
- Softmax‑scaled similarity 与参考图像的 Softmax 缩放相似度。
Post‑training with RL‑style loss: 使用简单的基于偏好的损失（例如 REINFORCE 或可微分的代理）对扩散压缩器进行微调，使模型倾向于生成 VLM 偏好的变体。无需额外的感知网络训练；VLM 本身充当“评判者”。
Evaluation pipeline: 微调后，在标准压缩基准上测试模型。通过以下方式衡量与人类的对齐程度：
- Objective perceptual metrics（LPIPS、DISTS）。
- Large‑scale user studies，参与者在 VLIC 输出与竞争方法之间进行 2AFC（两选一）比较。

数据集	Bitrate (bpp)	LPIPS ↓	DISTS ↓	Human 2AFC win‑rate vs. best baseline
Kodak	0.25	0.12	0.09	68%
DIV2K‑test	0.15	0.15	0.11	71%
CLIC‑validation	0.30	0.10	0.08	65%

开发者就绪的感知损失： 与其训练一个单独的基于 CNN 的感知网络（例如基于 VGG 的 LPIPS），工程师可以直接将预训练的 VLM 接入压缩流水线，开箱即用地获得与人类对齐的梯度。
零样本适应性： 只需使用适当的语言提示对 VLM 进行提示，即可对 VLIC 进行特定领域美学的微调（如医学影像、卫星照片），无需新的标注偏好数据。
边缘设备压缩： 由于 VLM 仅在训练阶段使用，推理时的压缩器仍保持轻量（扩散解码器 + 小型潜在编码器），适合在对延迟敏感的设备端或服务器端部署。
跨模态扩展： 同样的偏好学习框架可以应用于视频编解码、音频压缩，甚至生成模型蒸馏，只要人类感知质量是瓶颈的地方。
开源工具包： 发布的代码包含生成 VLM 判决的脚本、定义奖励函数的方式，以及与流行扩散库（如 Diffusers、Stable Diffusion）的集成示例，降低快速原型开发的门槛。

VLM 偏差转移: 由于 VLM 从其训练数据中继承偏差，压缩偏好可能会反映这些偏差（例如，偏好某些对象类别）。缓解此问题需要仔细的提示工程或具备偏差感知的微调。
VLM 推理的可扩展性: 虽然对研究规模的数据集尚可接受，但为海量语料生成 VLM 判定可能成为瓶颈；未来工作可以探索将 VLM 的偏好函数蒸馏为轻量网络。
分辨率上限: 当前的扩散主干仅限于 ≤512 像素输入；将 VLIC 推广至超高分辨率图像需要层次化或基于块的扩散策略。
用户研究的多样性: 报告的人体实验主要针对相对同质的参与者群体；更广泛的人口统计学测试将强化关于普遍感知对齐的论断。
替代 VLM: 论文仅评估了少数 VLM；对新兴多模态模型（例如 Flamingo、LLaVA）进行系统性基准测试可能发现更强的评判者或揭示失效模式。

VLIC 开辟了一条有前景的道路，使大规模视觉语言模型成为压缩系统的“眼睛”，将语言引导的视觉推理转化为实际的带宽节省。