[Paper] 当提示词不足规格提升代码正确性：对提示词措辞与结构对基于LLM的代码生成影响的探索性研究

发布: 1天前 (2026年4月28日 GMT+8 01:21)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.24712v1

Overview

大型语言模型（LLM）如今已成为自动代码生成的常规工具，但生成代码的质量在很大程度上取决于对编程任务的描述方式。本文研究了一个令人惊讶的转折：在提示中留下部分模糊（欠规格化）有时可以提升生成代码的正确性，尤其是当提示包含丰富且冗余的信息时。作者比较了两套基准——简洁的 HumanEval 套件和更冗长的 LiveCodeBench——以展示提示结构对模型表现的影响远大于模型的原始能力。

关键贡献

在 10 种大型语言模型上进行经验比较，涵盖最小化的（HumanEval）和结构丰富的（LiveCodeBench）代码生成基准。
证明欠规格并非一概有害：同样的模糊提示变体在 HumanEval 上会降低性能，但对 LiveCodeBench 几乎没有影响。
发现某些欠规格可以提升正确率，因为它们打破了误导性的词汇或结构线索，从而避免了错误的检索式解答。
手动构建有益提示修改的分类体系，例如去除过度拟合的术语、剔除无关约束、消除标识符触发因素。
提供编写稳健提示的实用指南，利用冗余来缓解脆弱性，甚至提升准确性。

方法论

基准
- HumanEval: 164 个简短的 Python 函数，每个只有一个自然语言描述和少量测试用例——冗余最小。
- LiveCodeBench: 超过 1,000 项任务，包含详细的问题陈述、明确的约束、示例输入/输出对，有时还有高级算法提示——冗余度高。
提示变体
- 系统性地删除或改写提示的部分内容（例如，省略约束、缩短描述、修改变量名）。
- 创建了“信息不足”的变体，故意省略通常会出现的信息。
测试模型
- 十个最先进的大型语言模型，涵盖开源（LLaMA‑2、Mistral）到闭源（GPT‑4、Claude）。
评估
- 为每个提示变体生成代码，然后运行官方测试套件。
- 测量 pass@k（k = 1、10、100），并记录相对于原始提示的正确性变化。
- 对一部分信息不足却有助于揭示底层机制的案例进行定性分析。

结果与发现

基准	低规格化的典型影响	显著的正面效果
HumanEval	Pass@1 平均下降 12‑18 %；模型更容易出现“幻觉”解答。	稀有；仅 2 % 的变体提示出现任何提升。
LiveCodeBench	几乎零净变化（±1 %）；冗余吸收了缺失细节。	当去除误导性约束时，若干模型的 Pass@1 提升最高达 7 %。

冗余可防止脆弱性：多种描述（自然语言、约束、示例）使模型能够推断缺失的部分。
误导性线索比信息缺失更成问题：某些词汇模式（例如 “使用 stack”）会触发检索到不正确的模板；去除这些线索后，模型能够从第一原理进行推理。
模型无关趋势：开源和专有模型均表现出相同模式，表明该现象与提示设计有关，而非模型规模。

Practical Implications

Prompt design matters more than model size 对于许多实际的编码助手。团队可以通过 embedding multiple, overlapping specifications（描述、约束、示例）来实现更高的可靠性。
Deliberate under‑specification can be a debugging tool：如果生成的解决方案反复失败，尝试去除过于具体的措辞，这些措辞可能会把模型引导到错误的模式。
Tooling opportunity：IDE 插件可以自动建议“强化”提示——添加冗余约束或删除可能误导的关键词，以提升代码生成的成功率。
Testing pipelines：在评估基于 LLM 的代码生成器时，包含最小和丰富的提示变体，以获得对鲁棒性的真实评估。

限制与未来工作

本研究聚焦于 Python 及基准式任务；其对其他语言或大规模软件工程问题的适用性仍需验证。
对不足规格的探讨仅限于删除或简单改写；更复杂的提示转换（例如多轮对话）可能产生不同的动态。
作者指出，尽管冗余有助，但它也 增加提示长度，可能触及某些模型的 token 限制。未来研究可以探索最佳冗余水平或压缩技术。

开发者的底线：构建具有 内置冗余 的提示并注意 可能误导的术语，可以使基于 LLM 的代码生成更可靠——有时甚至比完美措辞但过于简洁的指令更正确。利用这些洞见微调你的提示，构建更智能的工具，并在将 LLM 集成到开发工作流时设定切实可行的期望。

作者

Amal AKLI
Mike PAPADAKIS
Maxime CORDY
Yves Le TRAON

论文信息

arXiv ID: 2604.24712v1
分类: cs.SE
出版时间: 2026年4月27日
PDF: 下载 PDF

[Paper] 当提示词不足规格提升代码正确性：对提示词措辞与结构对基于LLM的代码生成影响的探索性研究

Overview

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 从线程到轨迹：一个多LLM管道用于从GitHub Issue讨论中提取社区知识

[Paper] 社会身份在 software engineering 中重要吗？评估 research software engineers 的案例

[Paper] 关键开发者角色与组织耦合在Microservices中的纵向分析

[论文] 基于场景的分布式机器人系统测试