[Paper] 针对基于LLM的代码生成的Multicalibration

发布: 2个月前 (2025年12月10日 GMT+8 01:04)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.08810v1

概览

本文研究如何让生成代码的大语言模型（LLMs）在 对自身置信度的表达上更诚实。通过应用 多校准——一种在多个问题属性（如难度、代码长度、语言）上使置信分数与实际正确率保持一致的技术，作者展示了相较于标准的未校准似然以及更简单的校准基线的可衡量提升。

代码生成的多校准框架：将经典多校准扩展到捕捉编码特定因素，如问题复杂度、输出长度和目标编程语言。
在三个广泛使用的函数合成基准上比较四种多校准算法。
展示性能提升：多校准模型将 skill score 提高 +1.03（相对于原始 token 似然）和 +0.37（相对于标准校准方法）。
全面的消融研究，孤立出每个条件因素（复杂度、长度、语言）的影响。
开放数据集发布：包括生成的代码片段、模型似然以及二元正确性标签，以促进软件工程中 LLM 校准的进一步研究。

基准与模型
- 三套函数合成套件（如 HumanEval 风格任务）作为测试平台。
- 评估三种最先进的代码 LLM：Qwen‑3 Coder、GPT‑OSS 和 DeepSeek‑R1‑Distill。
多校准设置
- 作者将每个属性（复杂度、长度、语言）视为一个“组”，并强制对任意预测置信度 p，该组内的经验正确率与 p（在小容差范围内）相匹配。
- 探索四种算法：
  1. 迭代后置重加权（经典多校准）。
  2. 与基础 LLM 联合训练的神经校准头。
  3. 组感知温度缩放（每组独立的温度参数）。
  4. 混合方法，将重加权与校准头相结合。
评估指标
- skill score（类似 Brier score 的适当评分规则）用于量化置信估计与实际正确性的对齐程度。分数越低表示校准越好。
消融与分析
- 系统性地从多校准目标中移除每个属性，以评估其贡献。
- 与两种基线比较：原始 token 似然和全局温度缩放校准。

模型	基线（原始）	全局温度缩放	最佳多校准	Δ Skill Score
Qwen‑3 Coder	0.842	0.815	0.812	‑0.030
GPT‑OSS	0.867	0.839	0.836	‑0.031
DeepSeek‑R1‑Distill	0.854	0.828	0.825	‑0.029

整体提升：相较于原始似然，多校准将 skill score 降低 +1.03，相较于全局温度缩放降低 +0.37。
属性影响：
- 复杂度 对校准提升贡献最大（约占总提升的 0.55）。
- 代码长度 带来适度但持续的收益。
- 编程语言 主要在多语言语料库训练的模型（如 Qwen‑3）中发挥作用。
算法洞察：混合方法（重加权 + 校准头）始终优于纯粹方法，表明后置校正与模型内部调整是互补的。

总体而言，本文为实现 可信代码生成 开辟了有前景的道路，使 LLM 不仅能写代码，还能准确传达其对正确性的把握程度。