[Paper] 当提示词不足规格提升代码正确性:对提示词措辞与结构对基于LLM的代码生成影响的探索性研究
发布: (2026年4月28日 GMT+8 01:21)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.24712v1
Overview
大型语言模型(LLM)如今已成为自动代码生成的常规工具,但生成代码的质量在很大程度上取决于对编程任务的描述方式。本文研究了一个令人惊讶的转折:在提示中留下部分模糊(欠规格化)有时可以提升生成代码的正确性,尤其是当提示包含丰富且冗余的信息时。作者比较了两套基准——简洁的 HumanEval 套件和更冗长的 LiveCodeBench——以展示提示结构对模型表现的影响远大于模型的原始能力。
关键贡献
- 在 10 种大型语言模型上进行经验比较,涵盖最小化的(HumanEval)和结构丰富的(LiveCodeBench)代码生成基准。
- 证明欠规格并非一概有害:同样的模糊提示变体在 HumanEval 上会降低性能,但对 LiveCodeBench 几乎没有影响。
- 发现某些欠规格可以 提升 正确率,因为它们打破了误导性的词汇或结构线索,从而避免了错误的检索式解答。
- 手动构建有益提示修改的分类体系,例如去除过度拟合的术语、剔除无关约束、消除标识符触发因素。
- 提供编写稳健提示的实用指南,利用冗余来缓解脆弱性,甚至提升准确性。
方法论
-
基准
- HumanEval: 164 个简短的 Python 函数,每个只有一个自然语言描述和少量测试用例——冗余最小。
- LiveCodeBench: 超过 1,000 项任务,包含详细的问题陈述、明确的约束、示例输入/输出对,有时还有高级算法提示——冗余度高。
-
提示变体
- 系统性地删除或改写提示的部分内容(例如,省略约束、缩短描述、修改变量名)。
- 创建了“信息不足”的变体,故意省略通常会出现的信息。
-
测试模型
- 十个最先进的大型语言模型,涵盖开源(LLaMA‑2、Mistral)到闭源(GPT‑4、Claude)。
-
评估
- 为每个提示变体生成代码,然后运行官方测试套件。
- 测量 pass@k(k = 1、10、100),并记录相对于原始提示的正确性变化。
- 对一部分信息不足却有助于揭示底层机制的案例进行定性分析。
结果与发现
| 基准 | 低规格化的典型影响 | 显著的正面效果 |
|---|---|---|
| HumanEval | Pass@1 平均下降 12‑18 %;模型更容易出现“幻觉”解答。 | 稀有;仅 2 % 的变体提示出现任何提升。 |
| LiveCodeBench | 几乎零净变化(±1 %);冗余吸收了缺失细节。 | 当去除误导性约束时,若干模型的 Pass@1 提升最高达 7 %。 |
- 冗余可防止脆弱性:多种描述(自然语言、约束、示例)使模型能够推断缺失的部分。
- 误导性线索比信息缺失更成问题:某些词汇模式(例如 “使用 stack”)会触发检索到不正确的模板;去除这些线索后,模型能够从第一原理进行推理。
- 模型无关趋势:开源和专有模型均表现出相同模式,表明该现象与提示设计有关,而非模型规模。
Practical Implications
- Prompt design matters more than model size 对于许多实际的编码助手。团队可以通过 embedding multiple, overlapping specifications(描述、约束、示例)来实现更高的可靠性。
- Deliberate under‑specification can be a debugging tool:如果生成的解决方案反复失败,尝试去除过于具体的措辞,这些措辞可能会把模型引导到错误的模式。
- Tooling opportunity:IDE 插件可以自动建议“强化”提示——添加冗余约束或删除可能误导的关键词,以提升代码生成的成功率。
- Testing pipelines:在评估基于 LLM 的代码生成器时,包含最小和丰富的提示变体,以获得对鲁棒性的真实评估。
限制与未来工作
- 本研究聚焦于 Python 及基准式任务;其对其他语言或大规模软件工程问题的适用性仍需验证。
- 对不足规格的探讨仅限于删除或简单改写;更复杂的提示转换(例如多轮对话)可能产生不同的动态。
- 作者指出,尽管冗余有助,但它也 增加提示长度,可能触及某些模型的 token 限制。未来研究可以探索最佳冗余水平或压缩技术。
开发者的底线:构建具有 内置冗余 的提示并注意 可能误导的术语,可以使基于 LLM 的代码生成更可靠——有时甚至比完美措辞但过于简洁的指令更正确。利用这些洞见微调你的提示,构建更智能的工具,并在将 LLM 集成到开发工作流时设定切实可行的期望。
作者
- Amal AKLI
- Mike PAPADAKIS
- Maxime CORDY
- Yves Le TRAON
论文信息
- arXiv ID: 2604.24712v1
- 分类: cs.SE
- 出版时间: 2026年4月27日
- PDF: 下载 PDF