[Paper] Visual-ERM：视觉等价的奖励建模

发布: 1个月前 (2026年3月14日 GMT+8 01:58)

6 分钟阅读

原文: arXiv

Source: arXiv - 2603.13224v1

概览

本文介绍了 Visual‑ERM，一种奖励建模框架，可直接在渲染的视觉空间中评估视觉转代码系统（例如，将图表图像转换为可执行代码）的质量。通过提供细粒度、可解释的反馈，Visual‑ERM 使大规模视觉语言模型的强化学习（RL）更加有效，弥合了视觉保真度与代码正确性之间的差距。

关键贡献

视觉等价奖励模型（Visual‑ERM）：一种多模态生成奖励模型，通过渲染输出代码并将生成的图像与真实视觉输入进行比较来评判代码。
任务无关的细粒度反馈：不同于以往仅文本或粗糙嵌入的奖励，Visual‑ERM 捕捉像素级差异并提供可解释的错误信号。
与 LVLM 的强化学习集成：应用于 Qwen3‑VL‑8B‑Instruct，在 chart‑to‑code 上提升 +8.4 分，在表格和 SVG 解析上分别实现 +2.7 / +4.1 的平均提升。
推理时的反思与修正：模型能够自我批评并迭代改进输出，无需额外训练。
VC‑RewardBench：用于衡量结构化视觉数据细粒度视觉等价性的新基准，显示 Visual‑ERM（8B）超越了 235B 参数的闭源基线。

方法论

数据准备 – 收集结构化视觉输入（图表、表格、SVG）及其对应源代码（例如 Matplotlib、HTML/CSS）的配对数据集。
奖励模型架构 – Visual‑ERM 将视觉编码器（处理渲染图像）与语言解码器（生成标量奖励）相结合。它被训练为在渲染输出与参考图像匹配时预测高奖励，反之预测低奖励。
细粒度监督 – 损失函数融合像素级相似度（例如 SSIM）、感知特征（例如 CLIP 嵌入）以及一个学习的“视觉等价”头部，用于突出特定不匹配（缺失坐标轴标签、颜色错误、单元格未对齐）。
强化学习循环 – LVLM（Qwen3‑VL‑8B‑Instruct）在输入图像条件下生成代码。代码被渲染后送入 Visual‑ERM，预测的奖励用于指导策略梯度更新（PPO）。
反思与修正 – 在测试时，模型查询 Visual‑ERM 对其输出进行“批评”，然后迭代修正代码，直至奖励趋于平稳。

Results & Findings

任务	基线（监督）	Visual‑ERM RL	Δ（分）
Chart‑to‑code	71.2	79.6	+8.4
Table parsing	68.5	71.2	+2.7
SVG generation	63.8	67.9	+4.1

在 VC‑RewardBench 上，Visual‑ERM（8B）比 Qwen3‑VL‑235B‑Instruct 高出 12 分，并且接近领先的闭源模型（如 GPT‑4V）的表现。
消融实验表明，去除像素级损失会导致 RL 增益下降超过 50 %，验证了细粒度视觉信号的必要性。
反思/修订步骤在不重新训练的情况下额外提升 1.5‑2.0 %。

实际意义

开发者工具：IDE 插件可以依赖经过 RL‑微调的模型从截图自动生成图表或 UI 代码，保证视觉保真度，减少手动调试。
数据流水线：从 PDF 中自动提取表格或 SVG 变得更可靠，降低下游清洗成本。
低资源部署：Visual‑ERM 在 8B 模型上即可取得强劲表现，使其能够在普通 GPU 上运行，适用于 SaaS 产品。
迭代式设计助手：反思/修订能力使得“设计‑循环”助手能够不断提出改进，直至视觉输出符合设计师的意图。

限制与未来工作

渲染依赖：奖励需要确定性的渲染引擎；不同浏览器或图形库的差异可能影响一致性。
计算开销：在强化学习期间对每个候选进行渲染和评估会增加延迟，这在实时应用中可能不可行。
视觉结构范围：当前基准侧重于图表、表格和 SVG；扩展到更复杂的布局（例如仪表盘）仍是未解决的问题。
泛化能力：虽然任务无关，Visual‑ERM 仍受益于特定领域的微调；未来工作可以探索在未见视觉域上的零样本视觉等价性。

作者

Ziyu Liu
Shengyuan Ding
Xinyu Fang
Xuanlang Dai
Penghui Yang
Jianze Liang
Jiaqi Wang
Kai Chen
Dahua Lin
Yuhang Zang

论文信息

arXiv ID: 2603.13224v1
分类: cs.CV, cs.AI
出版日期: 2026年3月13日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] PhysMoDPO：物理上可信的类人形运动与偏好优化

最近在文本条件的人体动作生成方面的进展主要得益于在大规模人体动作数据上训练的 diffusion models。基于 th...

[Paper] 时空物理系统的表征学习

机器学习方法针对时空物理系统主要聚焦于 next-frame prediction，目标是学习一个准确的 emulator f...

[Paper] 迈向可信的多模态概念瓶颈模型

概念瓶颈模型（Concept Bottleneck Models，CBMs）是通过一层人类可解释概念来传递预测的可解释模型。虽然在视觉领域被广泛研究……

[Paper] 线性化注意力中的影响可塑性：非收敛 NTK 动力学的双重含义

理解注意力机制的理论基础仍然具有挑战性，因为它们具有复杂的非线性动力学。本工作揭示了一个基本的……