[Paper] 代码语言模型中的局部校准不确定性

发布: 1个月前 (2025年12月31日 GMT+8 10:00)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.24560v1

概述

大型语言模型（LLM）现在可以将自然语言提示转换为可运行的源代码，但生成的代码片段往往需要微调才能真正符合开发者的意图。本文提出了一种方法，能够精确定位哪些生成的代码行可能需要编辑，并为输出的每个区域提供校准后的置信度分数。

关键贡献

最小意图对齐补丁数据集 – 一个经过策划的集合，包含 LLM 生成的程序以及使它们通过一套测试用例的最小行级编辑（补丁）。
局部校准框架 – 为单个代码片段分配良好校准的概率的方法，指示它们在最小补丁中被编辑的可能性。
白盒探测技术 – 一种高效的“任意片段查询”探针，利用小型监督模型估计任意连续代码块的编辑概率。
相对于黑盒基线的基准测试 – 评估了反思式提示和自一致性方法，显示该探针具有更优的校准（Brier 技能分数 ≈ 0.2）。
跨领域泛化提示 – 仅在代码错误上训练的探针在应用简单概率缩放后，表现出一定的标记自然语言错误的能力。

方法论

数据集构建
- 使用多个最先进的 LLM（例如 GPT‑4、Claude）生成代码片段。
- 将每个片段运行在一套单元测试上；当出现失败时，计算使程序通过的最小行级编辑。
- 保存原始片段、测试套件以及最小补丁——这就构成了 “Intent‑Aligning Patch” 数据集。
校准目标
- 对于生成程序中的任意行（或跨度）i，我们希望有一个概率 p_i，使得该行被编辑的经验频率等于 p_i。
- 校准使用 Expected Calibration Error (ECE) 和 Brier Skill Score (BSS) 来衡量。
探测方法（白盒）
- 训练一个轻量级的 “supervisor” 模型（例如，10 亿参数的 Transformer），从大型代码 LLM 的内部激活中预测编辑概率。
- 实现 arbitrary‑span query：探针能够高效聚合 token 级信号，为任意连续块生成概率，而无需重新运行整个模型。
黑盒基线
- Reflective prompting：让 LLM 自我诊断其输出（“哪些行可能有错误？”）。
- Self‑consistency：生成多个样本，计算它们的方差作为不确定性的代理。
评估
- 在保留的补丁测试集上比较探针和基线的校准误差及 BSS。
- 通过将代码训练的探针应用于自然语言错误检测任务并进行简单的尺度调整，测试跨领域迁移。

结果与发现

方法	ECE ↓	Brier Skill Score ↑
白盒探针（小监督模型）	0.07	0.20
反思式提示	0.18	0.05
自一致性方差	0.15	0.07

探针的校准误差 约低 3 倍 于最佳黑盒基线。
即使监督模型的规模远小于目标 LLM，它仍能可靠预测哪些行会被编辑。
当对探针的输出进行线性重新缩放时，它能够适度标记普通英文中的语法错误，表明学习到的信号捕获了更一般的 “uncertainty”（不确定性）概念。

Practical Implications

IDE 集成：将探针插入代码编辑器，实时突出显示“高风险”行，让开发者将审查重点放在最关键的地方。
自动重构工具：使用校准的编辑概率来优先处理自动修复或建议针对性的测试生成。
持续集成 (CI)：CI 流水线可以自动标记超出校准风险阈值的生成代码，促使在合并前进行人工审查。
模型无关监督：由于探针使用内部激活工作，它可以附加到任何未来更大的代码语言模型，而无需重新训练整个模型，提供轻量级的安全层。
成本节约：通过缩小调试范围，团队可以减少后期生成编辑的时间，尤其是在大规模代码生成工作流中（例如搭建微服务、数据管道脚本）。

限制与未来工作

数据集范围：这些补丁来源于相对较小、独立的编程任务；扩展到大型、多文件项目可能会暴露出新的失效模式。
探针泛化：虽然早期结果暗示跨领域迁移的可能性，但探针仍需要任务特定的扩展才能有效处理自然语言错误。
对测试套件的依赖： “最小编辑”概念依赖于提供的测试的质量和完整性；不稳定或规定不足的测试可能导致校准偏差。
黑箱替代方案：更复杂的集成或贝叶斯方法可能进一步缩小差距，作者建议在此方向进行探索。

结论：这项工作为代码生成 LLM 提供了实用的、已校准的不确定性信号，将“黑箱”输出转化为对开发者和工具生态系统更具可操作性的产物。

作者

David Gros
Prem Devanbu

论文信息

arXiv ID: 2512.24560v1
类别: cs.SE, cs.AI
出版时间: 2025年12月31日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 两种深度学习方法用于Cine心脏MRI左心室的自动分割

左心室（LV）分割对于临床定量和心脏图像的诊断至关重要。在本工作中，我们提出了两种新颖的 deep learning 架构……

[Paper] 理性几何：有效数学推理的谱特征

我们提出一种 training‑free 方法，通过对 attention patterns 的 spectral analysis 来检测大型语言模型中的有效数学推理。通过…

[Paper] FedHypeVAE：联邦学习与超网络生成的条件VAE用于差分隐私嵌入共享

联邦数据共享承诺在不集中原始数据的情况下提供实用性，但现有的嵌入级生成器在非IID客户端异质性和p...

[Paper] 分类重新参数化与去噪扩散模型

基于梯度的优化在处理分类变量时通常依赖于 score-function estimators，它们是无偏的但噪声较大，或者依赖于 continuous relaxations……