[논문] Scrum Sprint Planning: LLM 기반 및 알고리즘 솔루션

발행: 1주 전 (2025년 12월 22일 오전 11:26 GMT+9)

7 min read

원문: arXiv

Source: arXiv - 2512.18966v1

Overview

저자들은 OpenAI의 GPT‑3.5 Turbo, GPT‑4 Turbo, 그리고 최신 “Val”과 같은 대형 언어 모델(LLM)이 스크럼 스프린트 계획—애자일 팀에게 핵심적인 활동—을 자동화하거나 최소한 보조할 수 있는지를 조사합니다. 수동으로 만든 스프린트 데이터를 이러한 모델에 입력함으로써, 생성된 스프린트 백로그와 작업 할당의 품질을 평가하고, LLM이 제품 소유자와 스크럼 마스터에게 실용적인 도구가 될 수 있는지를 확인하고자 합니다.

주요 기여

실증 사례 연구: 최신 OpenAI 모델 3개를 스프린트 계획 시나리오에 적용한 연구.
데이터셋 구축: 수동으로 선별한 사용자 스토리, 수용 기준, 용량 제약 조건을 테스트 입력으로 사용.
평가 프레임워크: 정성적 기준(명확성, 완전성, 스크럼 규칙 준수) 및 정량적 지표(스토리 포인트 분포, 의존성 처리).
발견: 현재 LLM 출력이 실제 스크럼 프로젝트에 직접 도입하기에 필요한 품질에 미치지 못함.

방법론

데이터 준비 – 팀은 실제와 유사한 여러 스프린트 시나리오를 만들었으며, 각 시나리오에는 제품 백로그, 팀 속도, 그리고 리소스 제약이 포함되었습니다.
프롬프트 엔지니어링 – 각 모델에 대해 LLM에게 다음을 요청하는 프롬프트를 설계했습니다:
- 백로그 항목 우선순위 지정,
- 스토리 포인트 추정, 그리고
- 주어진 용량을 고려한 스프린트 백로그 생성.
모델 실행 – 세 개의 OpenAI 모델을 API를 통해 동일한 프롬프트와 온도 설정으로 질의하여 비교가 공정하도록 했습니다.
평가 – 결과물은 스크럼 실무자들이 검토했으며, 다음 기준으로 점수를 매겼습니다:
- 정확성 (선택된 항목이 용량에 맞는가?),
- 완전성 (수용 기준이 유지되는가?), 그리고
- 스크럼 준수 (예: “반‑완료” 스토리가 없고, 정의된 완료 기준이 적절한가?).

결과 및 발견

GPT‑4 Turbo는 가장 일관된 목록을 생성했지만 여전히 여러 용량 제약을 놓쳤으며 가끔 중복되거나 모순되는 스토리를 만들었습니다.
GPT‑3.5 Turbo는 변동성이 더 컸으며, 일부 실행은 수동으로 다듬으면 사용할 수 있었지만 다른 실행은 의미가 없었습니다.
Val(최신 모델)은 표면적인 유창성 면에서 GPT‑4와 비슷했지만 스프린트 계획에 필요한 논리적 일관성에서는 어려움을 겪었습니다.
모든 모델에서 스토리 포인트 추정이 일관되지 않았고, 의존성 처리(선행 작업이 먼저 나타나도록 보장)도 신뢰할 수 없었습니다.
저자들은 현재 형태의 LLM은 인간 스프린트 계획을 대체할 수 없지만 초안 작성 보조 도구로 활용될 수 있다고 결론짓습니다.

Practical Implications

Assistive Drafting: 팀은 LLM을 사용해 스크럼 마스터가 다듬는 초기 스프린트 백로그를 생성할 수 있으며, 이를 통해 일상적인 우선순위 지정에 소요되는 시간을 절약할 수 있습니다.
Training & Onboarding: 새로운 팀원은 LLM에 질문하여 예시 스프린트 계획을 확인할 수 있어 Scrum 관행을 더 빠르게 이해하는 데 도움이 됩니다.
Prompt‑Design Research: 이 연구는 LLM이 Scrum 작업에 대해 실제 운영 수준이 되기 전에, 애자일 전용 코퍼스에 대한 보다 정교한 프롬프트 또는 파인튜닝이 필요함을 강조합니다.
Tool Integration: 애자일 툴 공급업체는 LLM API를 자율적인 플래너가 아닌 “제안 엔진”으로 삽입할 수 있으며, 제안이 임시임을 명확히 표시합니다.

제한 사항 및 향후 연구

Synthetic Data: 실험에서는 실제 프로젝트 데이터가 아닌 수동으로 만든 데이터셋을 사용했으며, 이는 실제 백로그의 복잡성을 완전히 포착하지 못할 수 있습니다.
Evaluation Scope: 평가는 전문가 판단에 크게 의존했으며, 보다 객관적인 지표(예: 스프린트 속도 변동) 등을 활용하면 결론을 강화할 수 있습니다.
Model Fine‑Tuning: 저자들은 논리적 일관성을 향상시키기 위해 도메인 특화 파인튜닝이나 검색 기반 생성(retrieval‑augmented generation)을 탐구할 계획입니다.
Human‑in‑the‑Loop Studies: 향후 연구에서는 실제 스크럼 팀이 라이브 스프린트에서 LLM이 생성한 초안을 사용하여 생산성 영향을 측정할 예정입니다.

저자

Yuwon Yoon
Kevin Iwan
Madeleine Zwart
Xiaohan Qin
Hina Lee
Maria Spichkova

논문 정보

arXiv ID: 2512.18966v1
카테고리: cs.SE
출판일: 2025년 12월 22일
PDF: PDF 다운로드

[논문] Scrum Sprint Planning: LLM 기반 및 알고리즘 솔루션

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] HALF: 커널 모듈을 이용한 바이너리 프로그램용 프로세스 할로잉 분석 프레임워크

[Paper] LLM 기반 Multi-Agent Systems의 Code Injection Attacks 분석 (Software Development)

[Paper] 결합과 분리 이야기: Label-Free Metric for Log Parser Evaluation

[Paper] SBOM 도구 생태계 현황: SPDX와 CycloneDX의 비교 분석