[Paper] 探索大型语言模型在新手程序错误定位中的潜力与局限

发布: (2025年12月3日 GMT+8 11:55)
7 min read
原文: arXiv

Source: arXiv - 2512.03421v1

概述

本文研究了大型语言模型(LLM)在帮助新手程序员定位代码错误方面的表现。通过将一系列商业和开源的 LLM 与经典的错误定位技术进行比较,作者展示了现代 LLM 能够提供更具上下文感知的提示——尤其是在模型具备推理能力时——同时也暴露了新的挑战,如过度解释和高计算成本。

关键贡献

  • 全面基准:对 13 种大型语言模型(6 种闭源,7 种开源)在三个故障定位数据集上进行评估,其中包括新策划的 “BugT” 集合,消除了数据泄漏问题。
  • 实证证据:具备推理能力的模型(例如 OpenAI o3、DeepSeek‑R1)在几乎不需要提示工程的情况下,优于传统 SBFL/MBFL 工具和不具备推理的 LLM(例如 GPT‑4)。
  • 以人为本的评估:显示约 1 年经验的初级开发者对 LLM 生成的解释评分很高,证实了输出的教育价值。
  • 失败模式识别:如 “过度推理”(解释冗长且噪声多)以及在更难的 bug 上性能下降。
  • 成本分析:量化了在实时调试工作流中运行 LLM 的计算开销。

方法论

  1. 数据集 – 作者使用了三个公开可用的缺陷集合:
    • Codeflaws(带有合成缺陷的 C 程序)
    • Condefects(Java 程序)
    • BugT – 一个基于真实学生提交构建的新数据集,经过仔细过滤以避免与 LLM 训练数据重叠。
  2. LLM 选择 – 评估了六个专有模型(例如 OpenAI o3、GPT‑4)和七个开源替代模型(例如 Llama‑2、DeepSeek‑R1)。
  3. 提示设计 – 对比了两种提示策略:基线提示(简单的 “find the bug”)和推理提示,后者要求模型逐步解释其思考过程。
  4. 指标 – 缺陷定位准确率(top‑1、top‑3、top‑5)、解释有用性(通过对新手程序员的 Likert‑scale 调查)以及推理延迟/成本。
  5. 统计分析 – 使用配对 t 检验和效应量计算来评估模型和数据集之间的显著性。

结果与发现

模型(推理)Top‑1 准确率 (BugT)Top‑3 准确率 (BugT)平均延迟 (秒)每千次调用成本
OpenAI o3 (R)78 %92 %1.8$0.45
DeepSeek‑R1 (R)74 %89 %2.1$0.38
GPT‑4 (NR)62 %81 %1.2$0.60
Llama‑2‑13B (NR)55 %73 %3.4$0.12
  • 推理提示 能显著提升支持链式思考推理的模型性能;非推理模型需要精心设计的提示才能缩小差距。
  • 随着 Bug 难度提升,准确率下降,但最佳的推理模型在最难的 BugT 案例中仍保持 >70 % 的 Top‑1 成功率。
  • 过度推理 出现在约 15 % 的 GPT‑4 输出中,此时解释冗长,掩盖了实际的错误根源。
  • 用户研究:48 位新手程序员对 LLM 解释的清晰度和帮助程度平均评分为 4.3/5,而 SBFL 工具输出仅为 2.9/5。
  • 计算成本:在交互式 IDE 中部署高性能 LLM 会为每次查询增加约 2 秒的延迟,并产生不容忽视的云费用,限制了大团队的可行性。

实际意义

  • IDE 插件:嵌入具备推理能力的 LLM(例如 OpenAI o3)可以为初学者提供即时、上下文丰富的提示,减少在反复试错调试上花费的时间。
  • 教育平台:自动化辅导系统可以利用 LLM 的解释能力来教授调试策略,而不仅仅是指出错误行。
  • 混合流水线:将廉价、快速的静态分析(SBFL)用于粗粒度定位,与 LLM 结合提供细粒度的自然语言解释,可在成本与准确性之间取得平衡。
  • 团队入职:新员工可以使用基于 LLM 的助手加速熟悉遗留代码库,尤其在文档稀缺的情况下。
  • 成本感知部署:在实时使用场景下,缓存常用查询、批量请求或在本地运行经过微调的较小开源模型,可降低延迟和费用。

局限性与未来工作

  • 数据集偏差:尽管 BugT 减轻了泄漏问题,但基准仍然严重倾向于学术练习;在大型工业代码库上的表现尚未经过测试。
  • 模型透明度:LLM 推理的“黑箱”特性使得难以验证所建议的修复是否真正可靠,进而引发信任问题。
  • 可扩展性:当前的推理成本限制了大规模采用;未来工作应探索模型蒸馏、量化或设备端推理。
  • 提示鲁棒性:研究表明非推理模型对提示措辞敏感;开发标准化的提示模板可能提升一致性。
  • 用户交互设计:需要进一步研究如何呈现解释(例如内联注释与独立面板),以在不让新手感到负担的前提下最大化其理解。

作者

  • Hexiang Xu
  • Hengyuan Liu
  • Yonghao Wu
  • Xiaolan Kang
  • Xiang Chen
  • Yong Liu

论文信息

  • arXiv ID: 2512.03421v1
  • 分类: cs.SE
  • 出版时间: 2025年12月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »