[Paper] $V_1$: 统一 Generation 与 Self-Verification 用于 Parallel Reasoners

发布: 1天前 (2026年3月5日 GMT+8 01:22)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.04304v1

概述

论文 $V_1$: Unifying Generation and Self‑Verification for Parallel Reasoners 表明，如果在推理时提供额外的计算资源并且提供一种更聪明的方式从众多候选答案中挑选正确答案，大型语言模型（LLM）在复杂推理任务——如代码生成或数学问题求解——上可以表现得更好。作者没有对每个生成的答案单独打分，而是让模型比较答案对，将验证转化为一种相对判断，从而更可靠。

关键贡献

成对自我验证：展示了大型语言模型在判断两个答案中哪个更正确方面明显优于为单个答案分配绝对置信度分数。
$V_1$‑Infer：一种不确定性引导的锦标赛算法，动态将验证工作分配给最模糊的答案对，在测试时实现了强大的扩展性，同时显著减少模型调用次数。
$V_1$‑PairRL：一种强化学习（RL）框架，联合训练单一模型，使其既生成解答，又充当自己的成对验证器，使验证器与生成器不断变化的输出分布保持同步。
实证提升：在一系列代码生成（LiveCodeBench、CodeContests、SWE‑Bench）和数学推理（AIME、HMMT）基准上，$V_1$‑Infer 将 Pass@1 提升最高 10 %，相较传统的点式验证，并在使用更少计算的情况下超越近期的测试时扩展基线。$V_1$‑PairRL 在标准 RL 基础上额外实现 7–9 % 的扩展增益，并在代码生成任务中将基础 Pass@1 提升最高 8.7 %。

方法论

生成阶段 – 模型抽样一组候选解（例如，多个代码片段或数学答案）。
成对验证阶段 – 与其单独为每个候选项打分，模型被提示一次比较两个候选项，并输出它认为更正确的那个。这将验证转化为二元排序问题。
$V_1$‑Infer (tournament)
- 所有候选项最初在同一个池中。
- 算法选择相对正确性最不确定的一对（模型成对预测的熵值高）。
- 该对的胜者留在池中，败者被淘汰。
- 该过程重复进行，直至只剩下一个“冠军”。
- 由于仅重新审视最模糊的对，总的验证调用次数随候选数量的增长呈亚线性增长。
$V_1$‑PairRL – 单个 Transformer 通过组合目标进行训练：
- 生成损失（标准语言模型交叉熵）。
- 成对排序损失，鼓励模型对正确‑相对于错误的对赋予更高分数。
- 一个反映最终排序结果的强化学习奖励，使生成器能够调整其抽样分布，产生更易验证的输出。

结果与发现

基准	基线（逐点）	$V_1$‑Infer	$V_1$‑PairRL	相对提升
LiveCodeBench (Pass@1)	38.2 %	48.1 % (+10 %)	–	–
CodeContests (Pass@1)	44.5 %	53.9 % (+9 %)	–	–
SWE‑Bench (Pass@1)	31.0 %	40.2 % (+9 %)	–	–
AIME (accuracy)	12.4 %	18.0 % (+5.6 %)	–	–
HMMT (accuracy)	9.8 %	15.1 % (+5.3 %)	–	–
Code generation (RL baseline)	45.6 %	–	53.3 % (+7 %)	–
Code generation (joint RL)	46.2 %	–	55.0 % (+9 %)	–

关键要点

效率：$V_1$‑Infer 在使用 ≈30 % 更少的模型调用 的情况下，达到了与穷举成对投票相同或更高的准确率。
协同效应：在 $V_1$‑PairRL 中的联合训练产生了一个不仅能生成更高质量候选答案，而且成为更好验证器的模型，缩小了生成与验证之间的差距。

Practical Implications

开发者工具：能够建议多个代码补全的 IDE 扩展现在可以使用轻量级锦标赛对它们进行排序，在不显著增加延迟的情况下提供更可靠的建议。
自动辅导/数学助手：成对验证可用于在众多生成的解释中挑选出最可信的解答，提升用户信心。
测试时扩展即服务：云服务提供商可以提供一个“验证即服务”的接口，按需运行 $V_1$ 锦标赛，让客户以适度的额外计算换取显著的正确率提升。
模型无关：该框架适用于任何仅解码器的 LLM（GPT‑3、LLaMA、Claude 等），因为它仅修改提示和推理循环，而不改变底层架构。

限制与未来工作

计算开销 在最坏情况下仍随候选池规模的平方增长；虽然锦标赛可以缓解这一点，但极大的候选集合仍然代价高昂。
领域依赖性：成对判断假设模型在预训练期间已经见过足够多的相似比较示例；对于高度专业化的领域（例如低层硬件验证），验证器可能需要额外的微调。
强化学习稳定性：联合训练对奖励塑形敏感，可能需要仔细的超参数调优以避免模式崩溃。
未来方向 作者提出的包括：
1. 层次化锦标赛设计，以进一步减少验证调用。
2. 基于课程的验证器微调，使用领域特定的成对数据。
3. 将该方法扩展到多模态推理任务（例如代码 + 图表生成）。

作者

Harman Singh
Xiuyu Li
Kusha Sareen
Monishwaran Maheswaran
Sijun Tan
Xiaoxia Wu
Junxiong Wang
Alpay Ariyak
Qingyang Wu
Samir Khaki
Rishabh Tiwari
Long Lian
Yucheng Lu
Boyi Li
Alane Suhr
Ben Athiwaratkun
Kurt Keutzer

论文信息

arXiv ID: 2603.04304v1
分类: cs.CL
出版日期: 2026年3月4日
PDF: 下载 PDF

[Paper] $V_1$: 统一 Generation 与 Self-Verification 用于 Parallel Reasoners

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] TaxonRL：强化学习与中间奖励用于可解释的细粒度视觉推理

[Paper] Pointer-CAD：通过基于指针的边缘与面选择统一 B-Rep 与命令序列

[Paper] 没有世界模型的世界属性：从静态词向量的共现统计中恢复空间和时间结构

[Paper] 你所交往的人：LLMs 对暗黑三联特质的响应