[论文] Scrum Sprint 规划:基于 LLM 的算法解决方案
发布: (2025年12月22日 GMT+8 10:26)
6 min read
原文: arXiv
Source: arXiv - 2512.18966v1
概述
作者调查了大型语言模型(LLMs),如 OpenAI 的 GPT‑3.5 Turbo、GPT‑4 Turbo,以及较新的 “Val”,是否能够自动化或至少协助 Scrum 冲刺计划——这是敏捷团队的核心活动。通过将手工制作的冲刺数据输入这些模型,他们评估了生成的冲刺待办列表和任务分配的质量,旨在了解 LLM 是否可以成为产品负责人和 Scrum Master 的实用辅助工具。
关键贡献
- 经验案例研究:对三种最先进的 OpenAI 模型在冲刺计划场景中的应用进行研究。
- 数据集构建:一套手动策划的用户故事、验收标准和容量约束,作为测试输入使用。
- 评估框架:定性标准(清晰度、完整性、遵循 Scrum 规则)和定量指标(故事点分布、依赖处理)。
- 发现:当前 LLM 的输出未达到在实际 Scrum 项目中直接采用所需的质量水平。
方法论
- 数据准备 – 团队创建了多个真实的冲刺情景,每个情景包含产品待办列表、团队速度和资源约束。
- 提示工程 – 对于每个模型,他们设计了提示,要求大语言模型:
- 对待办事项进行优先级排序,
- 估算故事点数,且
- 生成符合给定容量的冲刺待办列表。
- 模型执行 – 通过 API 使用相同的提示和温度设置查询了三款 OpenAI 模型,以保持比较的公平性。
- 评估 – 输出由 Scrum 实践者审查,并在以下方面进行评分:
- 正确性(所选项目是否符合容量?),
- 完整性(接受标准是否得到保留?),以及
- Scrum 合规性(例如,没有“半成品”故事,正确定义完成的标准)。
结果与发现
- GPT‑4 Turbo 生成的列表最为连贯,但仍遗漏了若干容量约束,并且偶尔会出现重复或矛盾的故事。
- GPT‑3.5 Turbo 表现出更高的差异性;有些运行在手动微调后可用,而另一些则毫无意义。
- Val(最新模型)在表面流畅度上与 GPT‑4 相似,但在冲刺计划所需的逻辑一致性方面表现不足。
- 在所有模型中,故事点估算 不稳定,且 依赖关系处理(确保前置任务提前出现)不可靠。
- 作者得出结论,现阶段的 LLM 无法取代人工冲刺计划,但可作为 草稿 辅助工具。
实际影响
- 辅助草稿:团队可以使用 LLM 生成初始冲刺待办列表,由 Scrum Master 再进行细化,从而可能节省常规优先级排序的时间。
- 培训与入职:新成员可以向 LLM 查询示例冲刺计划,帮助他们更快了解 Scrum 规范。
- 提示设计研究:研究指出,在 LLM 能够用于生产环境的 Scrum 任务之前,需要在敏捷特定语料上进行更复杂的提示设计或微调。
- 工具集成:敏捷工具供应商可能将 LLM API 嵌入为“建议引擎”,而非自主规划器,提供的建议会明确标记为暂定。
限制与未来工作
- 合成数据:实验使用了手动创建的数据集,而非真实项目数据,这可能无法完整捕捉实际待办事项的复杂性。
- 评估范围:评估过于依赖专家判断;引入更客观的指标(例如冲刺速度方差)可以增强结论的可靠性。
- 模型微调:作者计划探索领域特定的微调或检索增强生成,以提升逻辑一致性。
- 人机交互研究:未来工作将让实际 Scrum 团队在真实冲刺中使用 LLM 生成的草稿,以衡量对生产力的影响。
作者
- Yuwon Yoon
- Kevin Iwan
- Madeleine Zwart
- Xiaohan Qin
- Hina Lee
- Maria Spichkova
论文信息
- arXiv ID: 2512.18966v1
- 类别: cs.SE
- 发布于: 2025年12月22日
- PDF: 下载 PDF