[논문] Scrum Sprint Planning: LLM 기반 및 알고리즘 솔루션

발행: (2025년 12월 22일 오전 11:26 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.18966v1

Overview

저자들은 OpenAI의 GPT‑3.5 Turbo, GPT‑4 Turbo, 그리고 최신 “Val”과 같은 대형 언어 모델(LLM)이 스크럼 스프린트 계획—애자일 팀에게 핵심적인 활동—을 자동화하거나 최소한 보조할 수 있는지를 조사합니다. 수동으로 만든 스프린트 데이터를 이러한 모델에 입력함으로써, 생성된 스프린트 백로그와 작업 할당의 품질을 평가하고, LLM이 제품 소유자와 스크럼 마스터에게 실용적인 도구가 될 수 있는지를 확인하고자 합니다.

주요 기여

  • 실증 사례 연구: 최신 OpenAI 모델 3개를 스프린트 계획 시나리오에 적용한 연구.
  • 데이터셋 구축: 수동으로 선별한 사용자 스토리, 수용 기준, 용량 제약 조건을 테스트 입력으로 사용.
  • 평가 프레임워크: 정성적 기준(명확성, 완전성, 스크럼 규칙 준수) 및 정량적 지표(스토리 포인트 분포, 의존성 처리).
  • 발견: 현재 LLM 출력이 실제 스크럼 프로젝트에 직접 도입하기에 필요한 품질에 미치지 못함.

방법론

  1. 데이터 준비 – 팀은 실제와 유사한 여러 스프린트 시나리오를 만들었으며, 각 시나리오에는 제품 백로그, 팀 속도, 그리고 리소스 제약이 포함되었습니다.
  2. 프롬프트 엔지니어링 – 각 모델에 대해 LLM에게 다음을 요청하는 프롬프트를 설계했습니다:
    • 백로그 항목 우선순위 지정,
    • 스토리 포인트 추정, 그리고
    • 주어진 용량을 고려한 스프린트 백로그 생성.
  3. 모델 실행 – 세 개의 OpenAI 모델을 API를 통해 동일한 프롬프트와 온도 설정으로 질의하여 비교가 공정하도록 했습니다.
  4. 평가 – 결과물은 스크럼 실무자들이 검토했으며, 다음 기준으로 점수를 매겼습니다:
    • 정확성 (선택된 항목이 용량에 맞는가?),
    • 완전성 (수용 기준이 유지되는가?), 그리고
    • 스크럼 준수 (예: “반‑완료” 스토리가 없고, 정의된 완료 기준이 적절한가?).

결과 및 발견

  • GPT‑4 Turbo는 가장 일관된 목록을 생성했지만 여전히 여러 용량 제약을 놓쳤으며 가끔 중복되거나 모순되는 스토리를 만들었습니다.
  • GPT‑3.5 Turbo는 변동성이 더 컸으며, 일부 실행은 수동으로 다듬으면 사용할 수 있었지만 다른 실행은 의미가 없었습니다.
  • Val(최신 모델)은 표면적인 유창성 면에서 GPT‑4와 비슷했지만 스프린트 계획에 필요한 논리적 일관성에서는 어려움을 겪었습니다.
  • 모든 모델에서 스토리 포인트 추정이 일관되지 않았고, 의존성 처리(선행 작업이 먼저 나타나도록 보장)도 신뢰할 수 없었습니다.
  • 저자들은 현재 형태의 LLM은 인간 스프린트 계획을 대체할 수 없지만 초안 작성 보조 도구로 활용될 수 있다고 결론짓습니다.

Practical Implications

  • Assistive Drafting: 팀은 LLM을 사용해 스크럼 마스터가 다듬는 초기 스프린트 백로그를 생성할 수 있으며, 이를 통해 일상적인 우선순위 지정에 소요되는 시간을 절약할 수 있습니다.
  • Training & Onboarding: 새로운 팀원은 LLM에 질문하여 예시 스프린트 계획을 확인할 수 있어 Scrum 관행을 더 빠르게 이해하는 데 도움이 됩니다.
  • Prompt‑Design Research: 이 연구는 LLM이 Scrum 작업에 대해 실제 운영 수준이 되기 전에, 애자일 전용 코퍼스에 대한 보다 정교한 프롬프트 또는 파인튜닝이 필요함을 강조합니다.
  • Tool Integration: 애자일 툴 공급업체는 LLM API를 자율적인 플래너가 아닌 “제안 엔진”으로 삽입할 수 있으며, 제안이 임시임을 명확히 표시합니다.

제한 사항 및 향후 연구

  • Synthetic Data: 실험에서는 실제 프로젝트 데이터가 아닌 수동으로 만든 데이터셋을 사용했으며, 이는 실제 백로그의 복잡성을 완전히 포착하지 못할 수 있습니다.
  • Evaluation Scope: 평가는 전문가 판단에 크게 의존했으며, 보다 객관적인 지표(예: 스프린트 속도 변동) 등을 활용하면 결론을 강화할 수 있습니다.
  • Model Fine‑Tuning: 저자들은 논리적 일관성을 향상시키기 위해 도메인 특화 파인튜닝이나 검색 기반 생성(retrieval‑augmented generation)을 탐구할 계획입니다.
  • Human‑in‑the‑Loop Studies: 향후 연구에서는 실제 스크럼 팀이 라이브 스프린트에서 LLM이 생성한 초안을 사용하여 생산성 영향을 측정할 예정입니다.

저자

  • Yuwon Yoon
  • Kevin Iwan
  • Madeleine Zwart
  • Xiaohan Qin
  • Hina Lee
  • Maria Spichkova

논문 정보

  • arXiv ID: 2512.18966v1
  • 카테고리: cs.SE
  • 출판일: 2025년 12월 22일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »