[Paper] 关于评估由生成模型撰写的代码审查的相关性

发布: 1个月前 (2025年12月17日 GMT+8 22:12)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.15466v1

概览

论文研究了大型语言模型——特别是 ChatGPT——在撰写代码审查评论方面的表现。通过引入一种新的“多主观排名”评估方法，作者展示了 AI 生成的审查在真实的 StackExchange 数据集上实际上可以超越最佳的人类答案，凸显了将代码审查任务交给生成式 AI 的前景与风险。

多主观排名框架 – 一种新颖的评估方法，汇总多个人工评审的排名，而不是依赖单一的“真实答案”或模糊的有用性评分。
大规模实证研究 – 从 CodeReview StackExchange 中挑选的 280 条独立代码审查请求，配以 ChatGPT 生成的评论和最高评分的人类回复。
实证发现 – ChatGPT 的评论始终排名高于被接受的人类答案，表明生成模型能够提供高质量的审查反馈。
风险意识 – 研究揭示了在缺乏适当验证的情况下盲目将 AI 审查集成到开发流水线中的危险。
开源数据集与评估脚本 – 作者发布了带注释的数据集和排名代码，以实现可重复性和未来的基准测试。

数据收集 – 作者从 CodeReview StackExchange 抓取了 280 条代码审查问题，每个问题至少有一个高票的人类答案。
AI 生成 – 对每个问题，他们使用 ChatGPT（GPT‑4）生成审查评论，确保提示与原始请求的风格相匹配。
人工评判 – 招募了六位独立开发者（经验水平不同）。每位评审收到每个问题的随机混合的三项内容：ChatGPT 评论、被接受的人类答案以及次佳的人类答案。
排序任务 – 评审根据清晰度、正确性、可操作建议和安全性考虑，将三条评论从“最有帮助”到“最不有帮助”进行排序。
统计聚合 – 将排序转换为使用 Bradley‑Terry 模型的分数，作者据此计算 AI 与人类评论的成对胜率，并使用 Wilcoxon 符号秩检验检验显著性。

结论： 研究表明，生成式 AI 已能够生成与人类专家相媲美，甚至在许多情况下超越人类的代码审查评论，但负责任的部署需要严格的评估、安全检查以及持续的人类监督。