[Paper] AdaptEval：用于评估大型语言模型在代码片段适配上的基准

发布: 1个月前 (2026年1月8日 GMT+8 11:13)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.04540v1

概述

本文介绍了 AdaptEval，这是一项新基准，用于衡量大型语言模型（LLM）在将现有代码片段适配到新需求时的表现——这是开发者在复用代码时经常进行的任务。通过将基准建立在来自 Stack Overflow 和 GitHub 的真实场景上，作者提供了一个实用的尺度，以评估 LLM 在日常软件工程中的实用性。

关键贡献

真实任务收集 – 1,200+ 适配任务来源于实际开发者讨论，保留了上下文（问题描述、相关代码、注释）。
多粒度标注 – 每个任务包括 (a) 高层次功能需求和 (b) 细粒度的“适配指令”（例如 “将排序算法替换为稳定的算法”）。
两层评估框架 –
1. 适配层测试，验证模型是否遵循了具体指令（例如，修改了正确的变量，保持了 API 合约）。
2. 功能层测试，将适配后的代码片段运行单元测试，以确保整体正确性。
对六种指令微调 LLM 和三种推理导向 LLM 的实证研究，揭示了代码适配中的系统性优势与不足。
开源发布 数据集、标注模式和评估脚本，以鼓励社区采纳。

方法论

任务挖掘 – 作者从 Stack Overflow 的问答线程以及 GitHub 的 pull‑request 讨论中抓取了开发者明确要求修改代码的案例。他们筛选出代码片段 ≤ 50 行（LOC），以保持改编的可处理性。
标注流水线 – 人工标注员（软件工程师）编写了两层规格说明：
- 任务层级：整体目标（例如，“为 API 添加分页”）。
- 改编层级：需要进行的精确修改（例如，“将硬编码的限制替换为可配置参数”）。
  他们还编写了单元测试，用于捕获改编前后预期的行为。
评估框架 – 对每个模型，基准测试执行两步：
- 提示生成 – 模型接收原始代码片段、周边上下文以及改编指令。
- 测试 – 生成的代码首先通过字符串匹配、AST 差异等方式检查是否符合改编指令，然后在沙箱环境中针对函数级单元测试执行。
指标 –
- 指令遵循率 (Instruction‑Follow Rate, IFR) – 满足改编层级约束的输出所占比例。
- Pass@k (k = 1, 5) – 代码生成基准中使用的标准功能正确性指标。
- 综合得分 – IFR 与 Pass@k 的加权和，用以同时反映遵循度和正确性。

结果与发现

模型	IFR %	Pass@1 %	Pass@5 %	综合评分
GPT‑4‑Code (instruction‑tuned)	78	62	78	0.73
Claude‑2 (instruction‑tuned)	71	55	71	0.63
Llama‑2‑Chat‑70B (instruction‑tuned)	64	48	66	0.56
GPT‑4‑Reasoning (chain‑of‑thought)	55	51	69	0.60
Claude‑2‑Reasoning	52	49	68	0.58
Llama‑2‑Reasoning	48	44	62	0.52

指令遵循是瓶颈 – 即使是最强大的模型也在约 22 % 的情况下遗漏适配指令，通常是因为它们重写了整个代码片段，而不是进行最小化的修改。
面向推理的模型在给出更复杂的适配（例如算法替换）时提升了功能正确性，但在严格的指令遵从性上仍然落后。
上下文很重要 – 提供完整的 Stack Overflow 讨论串可使 IFR 提升约 8 % 相比于精简提示，凸显了周边讨论的价值。
错误模式 – 常见失误包括：(1) 忘记重命名变量，(2) 删除必需的导入，(3) 引入细微的类型不匹配，虽然能通过单元测试，却会破坏后续集成。

实际影响

IDE 工具 – AdaptEval 表明当前的 LLM 助手在生成正确代码方面表现良好，但仍需更好的“补丁模式”能力。IDE 插件可以将 LLM 与轻量级差异检查器结合，强制最小化编辑，从而提升开发者的信任。
自动代码审查 – 两层测试框架可以重新用作合并前的门禁：LLM 提出修改建议，适配层检查验证在运行功能测试之前审查者的意图是否得到尊重。
持续集成 (CI) 流水线 – 团队可以集成 AdaptEval 的评估工具，对任何内部 LLM 或微调模型进行基准测试，然后再将其部署为代码助手服务。
示例学习平台 – 由于基准保留了真实的讨论上下文，它可以作为课程，教开发者如何有效地向 LLM 表述适配请求。

限制与未来工作

代码片段范围 – 本基准侧重于相对较小、独立的函数（≤ 50 行代码）。更大、跨文件的重构仍未测试。
对静态分析的依赖 – 指令符合性通过启发式 AST 差异来衡量，这可能遗漏语义细微差别（例如，仅更改常量值而没有文本差异）。
模型多样性 – 仅评估了六个公开可用的 LLM；专有或领域特定模型可能表现不同。
作者提出的未来方向 包括扩展到多文件适配任务、引入动态分析以进行更深入的符合性检查，以及探索基于强化学习的微调，明确奖励最小且正确的编辑。

作者

Tanghaoran Zhang
Xinjun Mao
Shangwen Wang
Yuxin Zhao
Yao Lu
Jin Zhang
Zhang Zhang
Kang Yang
Yue Yu

论文信息

arXiv ID: 2601.04540v1
分类: cs.SE, cs.AI
出版日期: 2026年1月8日
PDF: Download PDF

[Paper] AdaptEval：用于评估大型语言模型在代码片段适配上的基准

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性