[Paper] Bug Detective and Quality Coach: 开发者对 AI 辅助 IDE 工具的心理模型
Source: arXiv - 2511.21197v1
概述
本文 Bug Detective and Quality Coach 探讨了开发者如何看待 IDE 中的 AI 辅助功能——具体而言是标记 bug 和评估代码可读性的工具。通过呈现开发者的心理模型,作者揭示了信任、控制和采纳这些助手往往取决于细微的设计选择,而非单纯的技术性能。
关键贡献
- 实证洞见:在 58 位专业开发者的六场共创工作坊中,发现了两种主导的心理模型——bug 侦探(关键问题警报)和 质量教练(个性化可读性指导)。
- 设计分类:为 IDE 中以人为中心的 AI 提出一套具体的设计原则,平衡干扰与支持、简洁与深度、自动化与自主性。
- 信任因素:识别出驱动两类工具信任的三大支柱——清晰的解释、恰当的时机以及用户可控的交互。
- 方法论蓝图:展示了一种可扩展的基于工作坊的方式,用于从实践者处提取 AI 工具的心理模型。
方法论
研究者开展了 六场共创工作坊(每场约 2 小时),邀请来自不同行业和经验层级的开发者。参与者被要求:
- 草绘他们想象中的理想 AI bug‑detector 或可读性教练。
- 讨论这些工具在何种情境下会帮助或阻碍他们的工作流。
- 优先排序功能(例如解释细节、通知时机、可配置性)。
会议被录音、转录,并使用主题编码进行分析,以抽取重复出现的概念和分歧期望。这种定性方法聚焦于 心理模型——开发者对 AI 工作方式及其应有行为的内部表征。
结果与发现
| 方面 | Bug检测工具(“Bug Detectives”) | 可读性工具(“Quality Coaches”) |
|---|---|---|
| 核心角色 | 仅对 关键 缺陷发出警告;充当安全网。 | 提供 持续、情境化 的建议,以提升风格和可维护性。 |
| 期望输出 | 简洁、可操作的警报并附有置信度分数。 | 渐进、个性化的建议,能够适应开发者的编码风格。 |
| 信任驱动因素 | 透明的推理、清晰的严重性排序、能够关闭或延迟警报。 | 可解释的理由、与编码节奏相匹配的时机、对建议粒度的细粒度控制。 |
| 用户控制 | 按文件/项目 “打开/关闭”;设置严重性阈值。 | 可配置的教练风格(如严格 vs. 宽松),能够单独接受/拒绝建议。 |
| 反馈循环 | 对误报的即时反馈提升信任。 | 长期指标(如环路复杂度下降)强化感知价值。 |
作者提炼出 七条设计原则,如 “先解释再行动”、 “让开发者保持主导”,以及 “只呈现当前重要的内容”。这些原则旨在防止 AI 成为噪音干扰,同时仍能提供高价值的帮助。
实际意义
- IDE 供应商 可将 AI 扩展重新设计为 侦探 / 教练 隐喻,使 UI 语言和视觉提示与开发者期望保持一致。
- 工具构建者 应优先考虑 可解释性(如行内理由、置信度)和 可配置性(严重性阈值、教练强度),以提升采纳率。
- 团队负责人 可制定政策,让开发者根据项目自行校准 AI 辅助,降低“一刀切”导致的工具放弃。
- 持续集成流水线 可集成 “bug 侦探” 模式,仅显示阻断性问题;而 “质量教练” 可接入代码审查机器人,随时间提供风格建议。
- 开发者入职培训:将 AI 助手介绍为导师而非守门人,帮助新人快速上手并早期建立信任。
局限性与未来工作
- 样本偏差:所有参与者均来自有限的公司集合,可能无法代表全部开发者文化(如开源贡献者、初级程序员)。
- 工作坊范围:共创环境捕获的是 理想化 期望;真实使用场景可能会出现额外的摩擦点。
- 工具多样性:本研究聚焦于通用的 bug 检测和可读性功能;将框架扩展至其他 AI 辅助任务(如测试生成、重构)仍有待探索。
未来的研究方向包括开展长期现场研究,以验证所提设计原则是否真的提升信任和生产力,并将心理模型框架扩展至代码合成、自动调试等新兴 AI 能力。
作者
- Paolo Buono
- Mary Cerullo
- Stefano Cirillo
- Giuseppe Desolda
- Francesco Greco
- Emanuela Guglielmi
- Grazia Margarella
- Giuseppe Polese
- Simone Scalabrino
- Cesare Tucci
论文信息
- arXiv ID: 2511.21197v1
- Categories: cs.SE, cs.HC
- Published: November 26, 2025
- PDF: Download PDF