[论文] 为什么 Pass@k 优化会削弱 Pass@1：LLM 后训练中的 Prompt 干扰

发布: 3天前 (2026年2月25日 GMT+8 02:43)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.21189v1

概述

本文研究了一个许多实践者在对大型语言模型（LLM）进行可验证任务（如代码生成、数学题求解或简答问答）微调时观察到的令人困惑的现象。针对流行的 Pass@k 指标进行优化（只要 k 个采样输出中有任意一个通过验证器即算成功）往往能够提升 Pass@k 分数，但同时会削弱 Pass@1——即单个生成答案的成功率。由于实际部署通常只能使用单次推理（受延迟、成本或验证器限制），因此理解并解决这种权衡至关重要。

关键贡献

梯度冲突的理论分析：展示了由于 提示干扰，优化面向 Pass@k 的损失可能产生与提升 Pass@1 相反的梯度。
“负面干扰”提示的定义：形式化了在 Pass@k 优化过程中提升权重的提示实际上会把模型拉离最优 Pass@1 方向的情况。
概念验证实验：在大规模语言模型（如 GPT‑NeoX、LLaMA）上求解可验证的数学题进行实证验证，确认了 Pass@1 预期的下降。
实践者指南：提供了关于何时 Pass@k 优化是安全的、何时可能适得其反的可操作性洞见。

方法论

问题形式化
- 将每个 prompt（任务描述 + few‑shot 示例）视为映射到可能完成分布的“策略”。
- 定义两个损失函数：一个通过对采样的完成进行重新加权直接估计 Pass@k 的梯度，另一个用于 Pass@1。
梯度冲突分析
- 推导 Pass@k 损失的期望梯度，并将其分解为来自 high‑success 和 low‑success prompts 的贡献。
- 表明 Pass@k 损失会隐式 上调 low‑success prompts（因为它们有更多“提升空间”），如果这些 prompts 对模型而言本质上更难，则可能产生 负面干扰。
实验设置
- 在一套可数学验证的基准（例如 MATH、GSM‑8K）上对预训练 LLM 进行微调。
- 比较三种训练方案：(a) 标准监督微调，(b) 针对 Pass@k 的优化，(c) 将 Pass@1 与 Pass@k 混合的混合损失。
- 在留出的测试集上评估 Pass@1 与 Pass@k，测量两种目标之间的 梯度对齐。

结果与发现

训练方案	Pass@1 ↑ / ↓	Pass@k ↑ / ↓	梯度对齐 (cos θ)
监督微调	baseline	baseline	—
仅Pass@k	↓ 4–7 %	↑ 12–18 %	负（≈ ‑0.3）
混合 (0.7 Pass@1, 0.3 Pass@k)	≈ 0 %（稳定）	↑ 6–9 %	略为正（≈ 0.15）

Pass@k 改善 如预期，在直接优化时。
Pass@1 持续下降 在纯 Pass@k 训练下，证实了梯度冲突假设。
混合损失缓解了权衡，暗示一种实用的折中方案。
可视化提示层面的成功率显示，在 Pass@k 训练期间被上调权重的提示正是历史上 Pass@1 分数低的提示——正是理论预测的“负面干扰”集合。

实际影响

部署流水线
- 如果你的服务能够承担 k 并行生成（例如批量代码合成），Pass@k 优化是有益的。
- 对于对延迟敏感且只返回单个答案的 API，建议坚持 Pass@1 为导向的微调，或使用混合损失以避免隐藏的回退。
提示工程
- 在训练前识别并过滤掉负面干扰的提示（例如模糊的问题陈述）。
- 使用论文中的梯度对齐诊断工具标记可能导致权衡的提示。
成本管理
- 混合损失降低了对昂贵 k 样本推理的需求，同时仍能获得适度的 Pass@k 提升——在计算预算紧张时非常有用。
验证器设计
- 由于 Pass@k 在很大程度上依赖验证器的覆盖率，提高验证器的召回率可以降低对低成功率提示加权的动机，从而间接保护 Pass@1。

限制与未来工作

任务范围：实验聚焦于数学推理；其他可验证领域（例如大型项目的代码合成、事实问答）可能表现出不同的动态。
模型规模：研究结果在约 13 B 参数的模型上进行验证；在多十亿参数的大型语言模型（如 GPT‑4）上的行为仍是未解之谜。
验证器不完美性：分析假设验证器相对准确；噪声或偏见的验证器可能会放大或掩盖观察到的权衡。

未来方向

将梯度冲突框架扩展到 自适应 k 选择策略。
开发自动化提示过滤工具，提前在数据流水线中检测负面干扰提示。
探索课程式训练，在模型达到 Pass@1 平台期后才引入低成功率的提示。

结论

针对 Pass@k 的优化并非免费午餐。通过了解底层梯度冲突以及负面干扰提示的作用，开发者可以做出明智的选择——在有意义时采用多样本推理，或通过混合训练策略来保障单次推理的性能。

作者

Anas Barakat
Souradip Chakraborty
Khushbu Pahwa
Amrit Singh Bedi

论文信息

arXiv ID: 2602.21189v1
分类: cs.LG, cs.AI
发布日期: 2026年2月24日
PDF: 下载 PDF

[论文] 为什么 Pass@k 优化会削弱 Pass@1：LLM 后训练中的 Prompt 干扰

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

未来方向

结论

作者

论文信息

相关文章

[Paper] 通过锚定实现模型一致性

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] SOTAlign：通过最优传输的单模态视觉和语言模型的半监督对齐

[Paper] FlashOptim：用于内存高效训练的优化器