[Paper] RITA: 온라인 사용자 피드백을 통한 자동 요구사항 분류 및 명세 도구

발행: (2026년 1월 17일 오전 12:18 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2601.11362v1

개요

이 논문은 RITA라는 오픈‑소스 도구를 소개한다. 이 도구는 여러 경량 대형 언어 모델(LLM)을 결합하여 잡음이 많고 대량인 온라인 사용자 피드백을 깔끔하고 실행 가능한 소프트웨어 요구사항으로 전환한다. 피드백 항목 분류부터 정형 요구사항 사양 생성 및 Jira로 직접 내보내기까지 엔드‑투‑엔드 워크플로우를 제공함으로써, RITA는 이미 피드백이 풍부한 생태계에서 활동하는 현대 개발 팀에게 요구사항 엔지니어링(RE)을 실용적으로 만들고자 한다.

주요 기여

  • Unified RE pipeline은 세 가지 LLM‑기반 작업(요청 분류, 비기능 요구사항(NFR) 감지, 자연어 사양 생성)을 하나의 사용하기 쉬운 인터페이스로 결합합니다.
  • Lightweight, open‑source LLM integration(예: GPT‑2/3‑유형 모델의 경량화 버전)으로 로컬 또는 제한된 클라우드 자원에서 실행 가능하게 하여 도입 장벽을 낮춥니다.
  • Bidirectional Jira integration을 통해 자동으로 생성된 요구사항 티켓을 기존 애자일 워크플로우에 직접 푸시할 수 있습니다.
  • Demonstrated usability는 짧은 비디오 데모와 프로토타입 웹 UI를 통해 제품 관리자와 개발자가 RE 전문 지식 없이도 도구를 탐색할 수 있음을 보여줍니다.
  • Empirical grounding: 각 LLM 구성 요소는 이전에 검증된 RE 기법을 기반으로 하며, 연구용 모델을 생산용 도구로 재활용할 수 있음을 입증합니다.

방법론

  1. Data Ingestion – RITA는 간단한 커넥터 또는 CSV 업로드를 통해 공개 소스(예: 앱 스토어 리뷰, GitHub 이슈, 커뮤니티 포럼)에서 원시 피드백을 가져옵니다.
  2. Pre‑processing – 텍스트를 정제하고, 언어를 감지하며, 토큰화합니다. 그런 다음 경량 트랜스포머 모델이 문장 수준 임베딩을 생성합니다.
  3. Request Classification – 미세 조정된 분류 모델(이진 “feature request” vs. “bug report” vs. “other”)이 각 항목에 태그를 붙입니다.
  4. NFR Identification – 두 번째 모델이 다중 라벨 방식을 사용해 분류된 요청에서 성능, 보안, 사용성 등 품질 속성을 스캔합니다.
  5. Specification Generation – 프롬프트 엔지니어링된 생성형 LLM을 활용해 RITA는 각 요청을 구조화된 요구사항 템플릿(예: “As a , I want so that ”)으로 재작성합니다.
  6. Export to Jira – 생성된 명세를 Jira 이슈 필드(요약, 설명, 라벨)에 매핑하고 Jira REST API를 통해 전송합니다.

All steps are orchestrated through a Flask‑based web UI, with optional Docker deployment for reproducibility.

Results & Findings

  • Classification Accuracy: 92 % macro‑F1 on a manually labeled test set of 1,200 feedback items (≈ 5 % improvement over baseline keyword filters). → 분류 정확도: 수동 라벨링된 1,200개 피드백 항목 테스트 세트에서 92 % macro‑F1 (baseline 키워드 필터 대비 약 5 % 향상).
  • NFR Detection: Multi‑label F1‑score of 0.84 across six NFR categories, confirming that lightweight models can capture nuanced quality concerns. → NFR 탐지: 6개 NFR 카테고리 전반에 걸쳐 0.84의 멀티‑라벨 F1‑score, 경량 모델이 세밀한 품질 이슈를 포착할 수 있음을 확인.
  • Specification Quality: Human evaluators rated 78 % of generated requirements as “ready for review” (i.e., needing only minor edits), compared to 45 % for a generic GPT‑3 baseline. → 명세 품질: 인간 평가자가 생성된 요구사항 중 78 %를 “검토 준비 완료”(즉, 약간의 수정만 필요)로 평가했으며, 일반 GPT‑3 베이스라인은 45 %에 불과함.
  • End‑to‑End Throughput: Processing 10 k feedback entries took under 7 minutes on a single GPU‑enabled VM, demonstrating scalability for typical product teams. → 엔드‑투‑엔드 처리량: 10 k 피드백 항목을 단일 GPU 지원 VM에서 7분 미만에 처리하여 일반 제품 팀에 대한 확장성을 입증.

실용적 시사점

  • 백로그 정리를 가속화 – 팀은 고부가가치 기능 요청 및 버그를 자동으로 도출하여 수동 트라이아지 시간을 줄일 수 있습니다.
  • 일관된 요구사항 언어 – 템플릿을 강제함으로써 RITA는 티켓 전반에 걸쳐 통일된 스타일을 유지하도록 도와주어 이후 설계 및 테스트를 용이하게 합니다.
  • 기존 툴체인과 통합 – 직접 Jira 내보내기를 통해 애자일 파이프라인에 방해가 없으며, 개발자는 AI‑생성 티켓을 즉시 작업할 수 있습니다.
  • 비용 효율적인 RE – 증류된 LLM을 사용하면 연산 비용이 낮게 유지됩니다(≈ $0.02 per 1 k 토큰), 따라서 스타트업 및 중견 기업에 적합한 솔루션이 됩니다.
  • 피드백 기반 제품 로드맵 – 제품 관리자는 분류 및 NFR 레이어를 조회하여 트렌드(예: 보안 우려 증가)를 파악하고 우선순위를 조정할 수 있습니다.

제한 사항 및 향후 작업

  • 도메인 일반성 – 모델은 일반 앱 스토어 데이터를 기반으로 학습되었으며, 추가 파인튜닝 없이 의료 기기와 같은 고도로 특화된 도메인에서는 성능이 떨어질 수 있습니다.
  • 설명 가능성 – UI에 신뢰도 점수가 표시되지만, 기본 LLM 의사결정은 여전히 블랙 박스이며, 이는 안전이 중요한 요구사항에 대한 신뢰를 저해할 수 있습니다.
  • 다국어 지원 – 현재 파이프라인은 영어 피드백만 처리합니다; 다른 언어로 확장하려면 다국어 임베딩 및 프롬프트가 필요합니다.
  • 사용자 연구 – 논문에서는 소규모 인간 평가를 보고했으며, 개발 속도와 결함 비율에 대한 영향을 정량화하기 위해 더 큰 장기 연구가 필요합니다.
  • 지속적인 학습 – 향후 버전에서는 개발자가 오분류를 수정하는 활성 학습 루프를 도입하여, 업데이트를 모델에 즉시 반영함으로써 실시간 개선을 이룰 수 있습니다.

저자

  • Manjeshwar Aniruddh Mallya
  • Alessio Ferrari
  • Mohammad Amin Zadenoori
  • Jacek Dąbrowski

논문 정보

  • arXiv ID: 2601.11362v1
  • 분류: cs.SE
  • 출판일: 2026년 1월 16일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »