[논문] Scrum Sprint Planning: LLM 기반 및 알고리즘 솔루션
발행: (2025년 12월 22일 오전 11:26 GMT+9)
7 min read
원문: arXiv
Source: arXiv - 2512.18966v1
Overview
저자들은 OpenAI의 GPT‑3.5 Turbo, GPT‑4 Turbo, 그리고 최신 “Val”과 같은 대형 언어 모델(LLM)이 스크럼 스프린트 계획—애자일 팀에게 핵심적인 활동—을 자동화하거나 최소한 보조할 수 있는지를 조사합니다. 수동으로 만든 스프린트 데이터를 이러한 모델에 입력함으로써, 생성된 스프린트 백로그와 작업 할당의 품질을 평가하고, LLM이 제품 소유자와 스크럼 마스터에게 실용적인 도구가 될 수 있는지를 확인하고자 합니다.
주요 기여
- 실증 사례 연구: 최신 OpenAI 모델 3개를 스프린트 계획 시나리오에 적용한 연구.
- 데이터셋 구축: 수동으로 선별한 사용자 스토리, 수용 기준, 용량 제약 조건을 테스트 입력으로 사용.
- 평가 프레임워크: 정성적 기준(명확성, 완전성, 스크럼 규칙 준수) 및 정량적 지표(스토리 포인트 분포, 의존성 처리).
- 발견: 현재 LLM 출력이 실제 스크럼 프로젝트에 직접 도입하기에 필요한 품질에 미치지 못함.
방법론
- 데이터 준비 – 팀은 실제와 유사한 여러 스프린트 시나리오를 만들었으며, 각 시나리오에는 제품 백로그, 팀 속도, 그리고 리소스 제약이 포함되었습니다.
- 프롬프트 엔지니어링 – 각 모델에 대해 LLM에게 다음을 요청하는 프롬프트를 설계했습니다:
- 백로그 항목 우선순위 지정,
- 스토리 포인트 추정, 그리고
- 주어진 용량을 고려한 스프린트 백로그 생성.
- 모델 실행 – 세 개의 OpenAI 모델을 API를 통해 동일한 프롬프트와 온도 설정으로 질의하여 비교가 공정하도록 했습니다.
- 평가 – 결과물은 스크럼 실무자들이 검토했으며, 다음 기준으로 점수를 매겼습니다:
- 정확성 (선택된 항목이 용량에 맞는가?),
- 완전성 (수용 기준이 유지되는가?), 그리고
- 스크럼 준수 (예: “반‑완료” 스토리가 없고, 정의된 완료 기준이 적절한가?).
결과 및 발견
- GPT‑4 Turbo는 가장 일관된 목록을 생성했지만 여전히 여러 용량 제약을 놓쳤으며 가끔 중복되거나 모순되는 스토리를 만들었습니다.
- GPT‑3.5 Turbo는 변동성이 더 컸으며, 일부 실행은 수동으로 다듬으면 사용할 수 있었지만 다른 실행은 의미가 없었습니다.
- Val(최신 모델)은 표면적인 유창성 면에서 GPT‑4와 비슷했지만 스프린트 계획에 필요한 논리적 일관성에서는 어려움을 겪었습니다.
- 모든 모델에서 스토리 포인트 추정이 일관되지 않았고, 의존성 처리(선행 작업이 먼저 나타나도록 보장)도 신뢰할 수 없었습니다.
- 저자들은 현재 형태의 LLM은 인간 스프린트 계획을 대체할 수 없지만 초안 작성 보조 도구로 활용될 수 있다고 결론짓습니다.
Practical Implications
- Assistive Drafting: 팀은 LLM을 사용해 스크럼 마스터가 다듬는 초기 스프린트 백로그를 생성할 수 있으며, 이를 통해 일상적인 우선순위 지정에 소요되는 시간을 절약할 수 있습니다.
- Training & Onboarding: 새로운 팀원은 LLM에 질문하여 예시 스프린트 계획을 확인할 수 있어 Scrum 관행을 더 빠르게 이해하는 데 도움이 됩니다.
- Prompt‑Design Research: 이 연구는 LLM이 Scrum 작업에 대해 실제 운영 수준이 되기 전에, 애자일 전용 코퍼스에 대한 보다 정교한 프롬프트 또는 파인튜닝이 필요함을 강조합니다.
- Tool Integration: 애자일 툴 공급업체는 LLM API를 자율적인 플래너가 아닌 “제안 엔진”으로 삽입할 수 있으며, 제안이 임시임을 명확히 표시합니다.
제한 사항 및 향후 연구
- Synthetic Data: 실험에서는 실제 프로젝트 데이터가 아닌 수동으로 만든 데이터셋을 사용했으며, 이는 실제 백로그의 복잡성을 완전히 포착하지 못할 수 있습니다.
- Evaluation Scope: 평가는 전문가 판단에 크게 의존했으며, 보다 객관적인 지표(예: 스프린트 속도 변동) 등을 활용하면 결론을 강화할 수 있습니다.
- Model Fine‑Tuning: 저자들은 논리적 일관성을 향상시키기 위해 도메인 특화 파인튜닝이나 검색 기반 생성(retrieval‑augmented generation)을 탐구할 계획입니다.
- Human‑in‑the‑Loop Studies: 향후 연구에서는 실제 스크럼 팀이 라이브 스프린트에서 LLM이 생성한 초안을 사용하여 생산성 영향을 측정할 예정입니다.
저자
- Yuwon Yoon
- Kevin Iwan
- Madeleine Zwart
- Xiaohan Qin
- Hina Lee
- Maria Spichkova
논문 정보
- arXiv ID: 2512.18966v1
- 카테고리: cs.SE
- 출판일: 2025년 12월 22일
- PDF: PDF 다운로드