[论文] 为什么 Pass@k 优化会削弱 Pass@1:LLM 后训练中的 Prompt 干扰

发布: (2026年2月25日 GMT+8 02:43)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.21189v1

概述

本文研究了一个许多实践者在对大型语言模型(LLM)进行可验证任务(如代码生成、数学题求解或简答问答)微调时观察到的令人困惑的现象。针对流行的 Pass@k 指标进行优化(只要 k 个采样输出中有任意一个通过验证器即算成功)往往能够提升 Pass@k 分数,但同时会削弱 Pass@1——即单个生成答案的成功率。由于实际部署通常只能使用单次推理(受延迟、成本或验证器限制),因此理解并解决这种权衡至关重要。

关键贡献

  • 梯度冲突的理论分析:展示了由于 提示干扰,优化面向 Pass@k 的损失可能产生与提升 Pass@1 相反的梯度。
  • “负面干扰”提示的定义:形式化了在 Pass@k 优化过程中提升权重的提示实际上会把模型拉离最优 Pass@1 方向的情况。
  • 概念验证实验:在大规模语言模型(如 GPT‑NeoX、LLaMA)上求解可验证的数学题进行实证验证,确认了 Pass@1 预期的下降。
  • 实践者指南:提供了关于何时 Pass@k 优化是安全的、何时可能适得其反的可操作性洞见。

方法论

  1. 问题形式化

    • 将每个 prompt(任务描述 + few‑shot 示例)视为映射到可能完成分布的“策略”。
    • 定义两个损失函数:一个通过对采样的完成进行重新加权直接估计 Pass@k 的梯度,另一个用于 Pass@1。
  2. 梯度冲突分析

    • 推导 Pass@k 损失的期望梯度,并将其分解为来自 high‑successlow‑success prompts 的贡献。
    • 表明 Pass@k 损失会隐式 上调 low‑success prompts(因为它们有更多“提升空间”),如果这些 prompts 对模型而言本质上更难,则可能产生 负面干扰
  3. 实验设置

    • 在一套可数学验证的基准(例如 MATH、GSM‑8K)上对预训练 LLM 进行微调。
    • 比较三种训练方案:(a) 标准监督微调,(b) 针对 Pass@k 的优化,(c) 将 Pass@1 与 Pass@k 混合的混合损失。
    • 在留出的测试集上评估 Pass@1 与 Pass@k,测量两种目标之间的 梯度对齐

结果与发现

训练方案Pass@1 ↑ / ↓Pass@k ↑ / ↓梯度对齐 (cos θ)
监督微调baselinebaseline
仅Pass@k↓ 4–7 %↑ 12–18 %负(≈ ‑0.3)
混合 (0.7 Pass@1, 0.3 Pass@k)≈ 0 %(稳定)↑ 6–9 %略为正(≈ 0.15)
  • Pass@k 改善 如预期,在直接优化时。
  • Pass@1 持续下降 在纯 Pass@k 训练下,证实了梯度冲突假设。
  • 混合 损失缓解了权衡,暗示一种实用的折中方案。
  • 可视化提示层面的成功率显示,在 Pass@k 训练期间被上调权重的提示正是历史上 Pass@1 分数低的提示——正是理论预测的“负面干扰”集合。

实际影响

  1. 部署流水线

    • 如果你的服务能够承担 k 并行生成(例如批量代码合成),Pass@k 优化是有益的。
    • 对于对延迟敏感且只返回单个答案的 API,建议坚持 Pass@1 为导向的微调,或使用混合损失以避免隐藏的回退。
  2. 提示工程

    • 在训练前识别并过滤掉负面干扰的提示(例如模糊的问题陈述)。
    • 使用论文中的梯度对齐诊断工具标记可能导致权衡的提示。
  3. 成本管理

    • 混合损失降低了对昂贵 k 样本推理的需求,同时仍能获得适度的 Pass@k 提升——在计算预算紧张时非常有用。
  4. 验证器设计

    • 由于 Pass@k 在很大程度上依赖验证器的覆盖率,提高验证器的召回率可以降低对低成功率提示加权的动机,从而间接保护 Pass@1。

限制与未来工作

  • 任务范围:实验聚焦于数学推理;其他可验证领域(例如大型项目的代码合成、事实问答)可能表现出不同的动态。
  • 模型规模:研究结果在约 13 B 参数的模型上进行验证;在多十亿参数的大型语言模型(如 GPT‑4)上的行为仍是未解之谜。
  • 验证器不完美性:分析假设验证器相对准确;噪声或偏见的验证器可能会放大或掩盖观察到的权衡。

未来方向

  • 将梯度冲突框架扩展到 自适应 k 选择策略。
  • 开发自动化提示过滤工具,提前在数据流水线中检测负面干扰提示。
  • 探索课程式训练,在模型达到 Pass@1 平台期后才引入低成功率的提示。

结论

针对 Pass@k 的优化并非免费午餐。通过了解底层梯度冲突以及负面干扰提示的作用,开发者可以做出明智的选择——在有意义时采用多样本推理,或通过混合训练策略来保障单次推理的性能。

作者

  • Anas Barakat
  • Souradip Chakraborty
  • Khushbu Pahwa
  • Amrit Singh Bedi

论文信息

  • arXiv ID: 2602.21189v1
  • 分类: cs.LG, cs.AI
  • 发布日期: 2026年2月24日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »