[论文] Scrum Sprint 规划：基于 LLM 的算法解决方案

发布: 1周前 (2025年12月22日 GMT+8 10:26)

6 min read

原文: arXiv

Source: arXiv - 2512.18966v1

概述

作者调查了大型语言模型（LLMs），如 OpenAI 的 GPT‑3.5 Turbo、GPT‑4 Turbo，以及较新的 “Val”，是否能够自动化或至少协助 Scrum 冲刺计划——这是敏捷团队的核心活动。通过将手工制作的冲刺数据输入这些模型，他们评估了生成的冲刺待办列表和任务分配的质量，旨在了解 LLM 是否可以成为产品负责人和 Scrum Master 的实用辅助工具。

关键贡献

经验案例研究：对三种最先进的 OpenAI 模型在冲刺计划场景中的应用进行研究。
数据集构建：一套手动策划的用户故事、验收标准和容量约束，作为测试输入使用。
评估框架：定性标准（清晰度、完整性、遵循 Scrum 规则）和定量指标（故事点分布、依赖处理）。
发现：当前 LLM 的输出未达到在实际 Scrum 项目中直接采用所需的质量水平。

方法论

数据准备 – 团队创建了多个真实的冲刺情景，每个情景包含产品待办列表、团队速度和资源约束。
提示工程 – 对于每个模型，他们设计了提示，要求大语言模型：
- 对待办事项进行优先级排序，
- 估算故事点数，且
- 生成符合给定容量的冲刺待办列表。
模型执行 – 通过 API 使用相同的提示和温度设置查询了三款 OpenAI 模型，以保持比较的公平性。
评估 – 输出由 Scrum 实践者审查，并在以下方面进行评分：
- 正确性（所选项目是否符合容量？），
- 完整性（接受标准是否得到保留？），以及
- Scrum 合规性（例如，没有“半成品”故事，正确定义完成的标准）。

结果与发现

GPT‑4 Turbo 生成的列表最为连贯，但仍遗漏了若干容量约束，并且偶尔会出现重复或矛盾的故事。
GPT‑3.5 Turbo 表现出更高的差异性；有些运行在手动微调后可用，而另一些则毫无意义。
Val（最新模型）在表面流畅度上与 GPT‑4 相似，但在冲刺计划所需的逻辑一致性方面表现不足。
在所有模型中，故事点估算 不稳定，且 依赖关系处理（确保前置任务提前出现）不可靠。
作者得出结论，现阶段的 LLM 无法取代人工冲刺计划，但可作为草稿辅助工具。

实际影响

辅助草稿：团队可以使用 LLM 生成初始冲刺待办列表，由 Scrum Master 再进行细化，从而可能节省常规优先级排序的时间。
培训与入职：新成员可以向 LLM 查询示例冲刺计划，帮助他们更快了解 Scrum 规范。
提示设计研究：研究指出，在 LLM 能够用于生产环境的 Scrum 任务之前，需要在敏捷特定语料上进行更复杂的提示设计或微调。
工具集成：敏捷工具供应商可能将 LLM API 嵌入为“建议引擎”，而非自主规划器，提供的建议会明确标记为暂定。

限制与未来工作

合成数据：实验使用了手动创建的数据集，而非真实项目数据，这可能无法完整捕捉实际待办事项的复杂性。
评估范围：评估过于依赖专家判断；引入更客观的指标（例如冲刺速度方差）可以增强结论的可靠性。
模型微调：作者计划探索领域特定的微调或检索增强生成，以提升逻辑一致性。
人机交互研究：未来工作将让实际 Scrum 团队在真实冲刺中使用 LLM 生成的草稿，以衡量对生产力的影响。

作者

Yuwon Yoon
Kevin Iwan
Madeleine Zwart
Xiaohan Qin
Hina Lee
Maria Spichkova

论文信息

arXiv ID: 2512.18966v1
类别: cs.SE
发布于: 2025年12月22日
PDF: 下载 PDF

[论文] Scrum Sprint 规划：基于 LLM 的算法解决方案

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] HALF：借助内核模块的二进制程序进程空洞分析框架

[Paper] 分析在软件开发中基于LLM的多代理系统的代码注入攻击

[Paper] 关于内聚与分离的故事：无标签度量用于日志解析器评估

SBOM 工具生态系统的现状：SPDX 与 CycloneDX 的比较分析