[Paper] $V_1$: 统一 Generation 与 Self-Verification 用于 Parallel Reasoners
发布: (2026年3月5日 GMT+8 01:22)
8 分钟阅读
原文: arXiv
Source: arXiv - 2603.04304v1
概述
论文 $V_1$: Unifying Generation and Self‑Verification for Parallel Reasoners 表明,如果在推理时提供额外的计算资源 并且 提供一种更聪明的方式从众多候选答案中挑选正确答案,大型语言模型(LLM)在复杂推理任务——如代码生成或数学问题求解——上可以表现得更好。作者没有对每个生成的答案单独打分,而是让模型比较答案对,将验证转化为一种 相对 判断,从而更可靠。
关键贡献
- 成对自我验证:展示了大型语言模型在判断两个答案中哪个更正确方面明显优于为单个答案分配绝对置信度分数。
- $V_1$‑Infer:一种不确定性引导的锦标赛算法,动态将验证工作分配给最模糊的答案对,在测试时实现了强大的扩展性,同时显著减少模型调用次数。
- $V_1$‑PairRL:一种强化学习(RL)框架,联合训练单一模型,使其既生成解答,又充当自己的成对验证器,使验证器与生成器不断变化的输出分布保持同步。
- 实证提升:在一系列代码生成(LiveCodeBench、CodeContests、SWE‑Bench)和数学推理(AIME、HMMT)基准上,$V_1$‑Infer 将 Pass@1 提升最高 10 %,相较传统的点式验证,并在使用更少计算的情况下超越近期的测试时扩展基线。$V_1$‑PairRL 在标准 RL 基础上额外实现 7–9 % 的扩展增益,并在代码生成任务中将基础 Pass@1 提升最高 8.7 %。
方法论
- 生成阶段 – 模型抽样一组候选解(例如,多个代码片段或数学答案)。
- 成对验证阶段 – 与其单独为每个候选项打分,模型被提示一次比较两个候选项,并输出它认为更正确的那个。这将验证转化为二元排序问题。
- $V_1$‑Infer (tournament)
- 所有候选项最初在同一个池中。
- 算法选择相对正确性最不确定的一对(模型成对预测的熵值高)。
- 该对的胜者留在池中,败者被淘汰。
- 该过程重复进行,直至只剩下一个“冠军”。
- 由于仅重新审视最模糊的对,总的验证调用次数随候选数量的增长呈亚线性增长。
- $V_1$‑PairRL – 单个 Transformer 通过组合目标进行训练:
- 生成损失(标准语言模型交叉熵)。
- 成对排序损失,鼓励模型对正确‑相对于错误的对赋予更高分数。
- 一个反映最终排序结果的强化学习奖励,使生成器能够调整其抽样分布,产生更易验证的输出。
结果与发现
| 基准 | 基线(逐点) | $V_1$‑Infer | $V_1$‑PairRL | 相对提升 |
|---|---|---|---|---|
| LiveCodeBench (Pass@1) | 38.2 % | 48.1 % (+10 %) | – | – |
| CodeContests (Pass@1) | 44.5 % | 53.9 % (+9 %) | – | – |
| SWE‑Bench (Pass@1) | 31.0 % | 40.2 % (+9 %) | – | – |
| AIME (accuracy) | 12.4 % | 18.0 % (+5.6 %) | – | – |
| HMMT (accuracy) | 9.8 % | 15.1 % (+5.3 %) | – | – |
| Code generation (RL baseline) | 45.6 % | – | 53.3 % (+7 %) | – |
| Code generation (joint RL) | 46.2 % | – | 55.0 % (+9 %) | – |
关键要点
- 效率:$V_1$‑Infer 在使用 ≈30 % 更少的模型调用 的情况下,达到了与穷举成对投票相同或更高的准确率。
- 协同效应:在 $V_1$‑PairRL 中的联合训练产生了一个不仅能生成更高质量候选答案,而且成为更好验证器的模型,缩小了生成与验证之间的差距。
Practical Implications
- 开发者工具:能够建议多个代码补全的 IDE 扩展现在可以使用轻量级锦标赛对它们进行排序,在不显著增加延迟的情况下提供更可靠的建议。
- 自动辅导/数学助手:成对验证可用于在众多生成的解释中挑选出最可信的解答,提升用户信心。
- 测试时扩展即服务:云服务提供商可以提供一个“验证即服务”的接口,按需运行 $V_1$ 锦标赛,让客户以适度的额外计算换取显著的正确率提升。
- 模型无关:该框架适用于任何仅解码器的 LLM(GPT‑3、LLaMA、Claude 等),因为它仅修改提示和推理循环,而不改变底层架构。
限制与未来工作
- 计算开销 在最坏情况下仍随候选池规模的平方增长;虽然锦标赛可以缓解这一点,但极大的候选集合仍然代价高昂。
- 领域依赖性:成对判断假设模型在预训练期间已经见过足够多的相似比较示例;对于高度专业化的领域(例如低层硬件验证),验证器可能需要额外的微调。
- 强化学习稳定性:联合训练对奖励塑形敏感,可能需要仔细的超参数调优以避免模式崩溃。
- 未来方向 作者提出的包括:
- 层次化锦标赛设计,以进一步减少验证调用。
- 基于课程的验证器微调,使用领域特定的成对数据。
- 将该方法扩展到多模态推理任务(例如代码 + 图表生成)。
作者
- Harman Singh
- Xiuyu Li
- Kusha Sareen
- Monishwaran Maheswaran
- Sijun Tan
- Xiaoxia Wu
- Junxiong Wang
- Alpay Ariyak
- Qingyang Wu
- Samir Khaki
- Rishabh Tiwari
- Long Lian
- Yucheng Lu
- Boyi Li
- Alane Suhr
- Ben Athiwaratkun
- Kurt Keutzer
论文信息
- arXiv ID: 2603.04304v1
- 分类: cs.CL
- 出版日期: 2026年3月4日
- PDF: 下载 PDF