[Paper] 探索大型语言模型在新手程序错误定位中的潜力与局限

发布: 2个月前 (2025年12月3日 GMT+8 11:55)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.03421v1

概述

本文研究了大型语言模型（LLM）在帮助新手程序员定位代码错误方面的表现。通过将一系列商业和开源的 LLM 与经典的错误定位技术进行比较，作者展示了现代 LLM 能够提供更具上下文感知的提示——尤其是在模型具备推理能力时——同时也暴露了新的挑战，如过度解释和高计算成本。

关键贡献

全面基准：对 13 种大型语言模型（6 种闭源，7 种开源）在三个故障定位数据集上进行评估，其中包括新策划的 “BugT” 集合，消除了数据泄漏问题。
实证证据：具备推理能力的模型（例如 OpenAI o3、DeepSeek‑R1）在几乎不需要提示工程的情况下，优于传统 SBFL/MBFL 工具和不具备推理的 LLM（例如 GPT‑4）。
以人为本的评估：显示约 1 年经验的初级开发者对 LLM 生成的解释评分很高，证实了输出的教育价值。
失败模式识别：如 “过度推理”（解释冗长且噪声多）以及在更难的 bug 上性能下降。
成本分析：量化了在实时调试工作流中运行 LLM 的计算开销。

方法论

数据集 – 作者使用了三个公开可用的缺陷集合：
- Codeflaws（带有合成缺陷的 C 程序）
- Condefects（Java 程序）
- BugT – 一个基于真实学生提交构建的新数据集，经过仔细过滤以避免与 LLM 训练数据重叠。
LLM 选择 – 评估了六个专有模型（例如 OpenAI o3、GPT‑4）和七个开源替代模型（例如 Llama‑2、DeepSeek‑R1）。
提示设计 – 对比了两种提示策略：基线提示（简单的 “find the bug”）和推理提示，后者要求模型逐步解释其思考过程。
指标 – 缺陷定位准确率（top‑1、top‑3、top‑5）、解释有用性（通过对新手程序员的 Likert‑scale 调查）以及推理延迟/成本。
统计分析 – 使用配对 t 检验和效应量计算来评估模型和数据集之间的显著性。

结果与发现

模型（推理）	Top‑1 准确率 (BugT)	Top‑3 准确率 (BugT)	平均延迟 (秒)	每千次调用成本
OpenAI o3 (R)	78 %	92 %	1.8	$0.45
DeepSeek‑R1 (R)	74 %	89 %	2.1	$0.38
GPT‑4 (NR)	62 %	81 %	1.2	$0.60
Llama‑2‑13B (NR)	55 %	73 %	3.4	$0.12

推理提示 能显著提升支持链式思考推理的模型性能；非推理模型需要精心设计的提示才能缩小差距。
随着 Bug 难度提升，准确率下降，但最佳的推理模型在最难的 BugT 案例中仍保持 >70 % 的 Top‑1 成功率。
过度推理 出现在约 15 % 的 GPT‑4 输出中，此时解释冗长，掩盖了实际的错误根源。
用户研究：48 位新手程序员对 LLM 解释的清晰度和帮助程度平均评分为 4.3/5，而 SBFL 工具输出仅为 2.9/5。
计算成本：在交互式 IDE 中部署高性能 LLM 会为每次查询增加约 2 秒的延迟，并产生不容忽视的云费用，限制了大团队的可行性。

实际意义

IDE 插件：嵌入具备推理能力的 LLM（例如 OpenAI o3）可以为初学者提供即时、上下文丰富的提示，减少在反复试错调试上花费的时间。
教育平台：自动化辅导系统可以利用 LLM 的解释能力来教授调试策略，而不仅仅是指出错误行。
混合流水线：将廉价、快速的静态分析（SBFL）用于粗粒度定位，与 LLM 结合提供细粒度的自然语言解释，可在成本与准确性之间取得平衡。
团队入职：新员工可以使用基于 LLM 的助手加速熟悉遗留代码库，尤其在文档稀缺的情况下。
成本感知部署：在实时使用场景下，缓存常用查询、批量请求或在本地运行经过微调的较小开源模型，可降低延迟和费用。

局限性与未来工作

数据集偏差：尽管 BugT 减轻了泄漏问题，但基准仍然严重倾向于学术练习；在大型工业代码库上的表现尚未经过测试。
模型透明度：LLM 推理的“黑箱”特性使得难以验证所建议的修复是否真正可靠，进而引发信任问题。
可扩展性：当前的推理成本限制了大规模采用；未来工作应探索模型蒸馏、量化或设备端推理。
提示鲁棒性：研究表明非推理模型对提示措辞敏感；开发标准化的提示模板可能提升一致性。
用户交互设计：需要进一步研究如何呈现解释（例如内联注释与独立面板），以在不让新手感到负担的前提下最大化其理解。

作者

Hexiang Xu
Hengyuan Liu
Yonghao Wu
Xiaolan Kang
Xiang Chen
Yong Liu

论文信息

arXiv ID: 2512.03421v1
分类: cs.SE
出版时间: 2025年12月3日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] MicroRacer：检测云服务系统中的并发错误

现代 cloud applications 提供全球服务，通常构建在具有 microservice architecture 的 distributed systems 上。在这些系统中，端到端用户 r...

[Paper] 通过复杂事件处理执行离散/连续声明式过程规范

传统业务流程管理（BPM）侧重于离散事件，未能在网络物理环境中整合关键的连续传感器数据。

[Paper] 通过编译消除竞争检测的开销

Dynamic data race detectors 对于标记软件中的并发错误是不可或缺的，但它们的高运行时开销限制了它们的采用。这个开销 …

[Paper] 自动代码审查分配：GitHub 上代码所有权的另一种视角

代码所有权是确保大型软件开发中问责制和保持质量的核心。然而，随着外部威胁如软件供应链攻击的出现……