[Paper] PACIFIC：一个用于生成基准以检查代码中精确自动检查指令遵循的框架

发布: 1个月前 (2025年12月11日 GMT+8 22:49)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.10713v1

概览

本文介绍了 PACIFIC，一个能够自动生成基准套件的框架，用来测试大型语言模型（LLMs）在遵循顺序编程指令以及在不实际运行代码的情况下进行代码推理（干运行）方面的能力。通过生成新颖且难度可控的测试用例，PACIFIC 让研究人员和产品团队能够评估代码助手的核心“指令遵循”技能，同时规避常见的数据污染问题。

关键贡献

自动化基准生成：一个流水线，合成多样的代码‑指令对并提供已知的期望输出，省去手工编写测试用例的工作。
难度控制：提供参数以调节逻辑深度、语言特性和数据流复杂度，生成分层递进的挑战。
纯 LLM 评估：基准设计为仅靠推理即可回答——不需要外部工具、执行环境或代理行为。
抗污染性：由于每个基准变体都是新生成的，模型在预训练期间恰好见到完全相同测试的风险大幅降低。
实证验证：作者在不同难度层级上对多种最先进的代码模型（如 GPT‑4‑code、Claude‑2、CodeLlama）进行基准测试，展示了即使是顶尖模型也存在可测量的差距。

方法论

指令与代码模板库 – 作者首先收集了一套精心挑选的小型编程任务（例如列表操作、递归、字符串解析），这些任务以自然语言指令和骨架代码片段的形式呈现。
可参数化的转换 – 通过随机化的转换（变量重命名、控制流重排、添加无关语句）来提升复杂度，同时保持逻辑结果不变。
期望输出推导 – 由于转换是确定性的，框架能够计算模型应给出的精确结果（例如在“干运行”代码后变量的最终值）。
基准组装 – 每个测试用例包括：
- 多步骤指令列表（例如“首先反转数组，然后计算总和”）。
- 转换后的代码片段。
- 用于验证的真实输出。
评估协议 – LLM 仅收到指令 + 代码，需以纯文本形式输出最终结果。评分采用与预先计算答案的字符串匹配，整个过程全自动化。

结果与发现

模型	简单 (Level 1)	中等 (Level 2)	困难 (Level 3)
GPT‑4‑code	94 %	78 %	52 %
Claude‑2	92 %	71 %	44 %
CodeLlama‑34B	88 %	63 %	31 %

性能随难度可预测下降，验证了该框架能够区分细微的推理能力。
即使是最强模型（GPT‑4‑code）在最高难度层也表现不佳，说明精确的逐步干运行仍是未解决的挑战。
生成的基准揭示了现有代码生成测试未捕获的失效模式，例如指令步骤顺序错误或循环中的副作用被忽视。

实际意义

代码助手的产品质量保证 – 团队可以将 PACIFIC 集成到 CI 流水线中，在发布前捕获指令遵循逻辑的回归。
模型微调目标 – 难度分层的数据可作为强化学习从人类反馈（RLHF）的课程表，重点针对模型当前落后的“困难”层级。
安全与可靠性 – 通过测试干运行推理，开发者可以评估模型是否会产生执行结果的幻觉，这对于防止关键系统中出现错误代码建议至关重要。
基准卫生 – 由于每次运行都会产生全新测试用例，企业可以避免像 HumanEval 那样的“基准泄漏”问题。

局限性与未来工作

语言范围 – 当前实现主要覆盖 Python 和 JavaScript；若要扩展到静态类型语言（如 Java、Rust），可能需要更丰富的类型检查逻辑。
难度可扩展性 – 虽然作者提供了三种难度级别，但尚未探索更细粒度（例如微优化、并发）的难度划分。
人工参与的验证 – 自动化的期望输出计算假设语义确定；涉及未定义行为的边缘情况仍需人工审查。
未来方向 包括加入多文件项目场景、集成符号执行以验证更复杂的不变式，并开源基准生成器以促进社区驱动的扩展。

作者

Itay Dreyfuss
Antonio Abu Nassar
Samuel Ackerman
Axel Ben David
Rami Katan
Orna Raz
Marcel Zalmanovici

论文信息

arXiv ID: 2512.10713v1
分类: cs.SE, cs.AI
发布日期: 2025 年 12 月 11 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] Particulate: 前馈 3D 对象关节化

我们提出了 Particulate，这是一种前馈方法，给定单个静态的日常物体 3D 网格，直接推断出其底层结构的所有属性。

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

许多系统在其组件之间表现出复杂的相互作用：某些特征或行为会相互放大效果，其他则提供冗余信息，……

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

Softmax attention 是 transformer 架构的核心组成部分，但其 nonlinear 结构对理论分析提出了重大挑战。我们 dev...

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型

大型语言模型（LLMs）的快速部署在机器学习（ML）领域产生了对加强安全和隐私措施的迫切需求。LLMs 正在...