[Paper] Active Learning 및 Explainable AI를 통한 아키텍처 기술 부채 탐지에서 라벨링 노력 감소

발행: (2026년 3월 3일 PM 09:51 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2603.02944v1

Overview

아키텍처 기술 부채(ATD)를 감지하는 것은—개발자들이 이슈 트래커, 댓글, 커밋 메시지에서 인정하는 숨겨진 설계 수준의 지름길—보통 노동 집약적인 수동 라벨링을 필요로 합니다. 이 논문은 키워드 필터링, 능동 학습, 설명 가능한 AI(XAI)를 결합하면 필요한 주석 작업량을 거의 절반으로 줄이면서도 견고한 분류기(F1 ≈ 0.72)를 제공할 수 있음을 보여줍니다.

주요 기여

  • Keyword‑driven pre‑filtering: 57개의 전문가 검증 ATD 예시를 추출해 고정밀 키워드 집합을 구축했으며, 이를 통해 103 k가 넘는 Jira 이슈 원시 풀을 관리 가능한 후보 집합으로 축소했습니다.
  • Active‑learning pipeline: 여러 쿼리 전략(예: 불확실성, Breaking Ties)을 비교했으며, Breaking Ties 전략이 성능과 라벨링 비용 사이에서 일관되게 최적의 균형을 제공함을 입증했습니다.
  • Explainability integration: 훈련된 ATD 분류기에 SHAPLIME을 적용해 각 예측에 대한 인간이 읽을 수 있는 근거를 개발자에게 제공했습니다.
  • Empirical validation: 도메인 전문가와의 정성적 평가를 수행해 설명이 유용함을 확인했으며, LIME이 명료성 측면에서 일반적으로 선호된다는 결과를 얻었습니다.

Methodology

  1. Dataset refinement – 이전 ATD 데이터셋(116개의 Jira 이슈)에서 시작하여 전문가 검증 후 57개의 고품질 예시만 남겼습니다.
  2. Keyword extraction – 검증된 항목을 사용해 “refactor”, “architecture”, “design debt”와 같은 대표 용어를 추출했습니다. 이 용어들을 필터로 적용해 10개의 오픈소스 프로젝트에서 약 103 k개의 잠재적 ATD 티켓을 찾아냈습니다.
  3. Sampling for evaluation – 필터링된 티켓 중 통계적으로 대표성을 갖는 부분집합을 무작위로 선택하여 수동 검증을 수행하고, 신뢰할 수 있는 정답 데이터를 구축했습니다.
  4. Active learning loop – 초기 라벨링된 데이터를 기반으로 경량 분류기(예: 로지스틱 회귀 / SVM)를 학습시켰습니다. 각 반복마다 모델은 불확실성, 동점 깨기, 무작위 등 다양한 전략에 따라 가장 정보량이 큰 라벨이 없는 샘플을 쿼리했습니다. 인간 주석자가 쿼리된 항목만 라벨링하고, 모델을 다시 학습시켰습니다.
  5. Explainability layer – 최종 모델이 학습된 후, SHAP(전역/국부 특징 중요도)와 LIME(국부 대리 설명)를 사용해 예측에 대한 설명을 생성했습니다. 전문가들이 설명 샘플을 검토하여 이해도와 유용성을 평가했습니다.

Results & Findings

AspectOutcome
Labeling effortBreaking Ties 활성 학습은 전체 필터링된 세트를 라벨링하는 경우에 비해 필요한 주석을 ≈ 49 % 감소시켰습니다.
Classification performance최고 F1‑score 0.72 (Breaking Ties), 무작위 및 기본 불확실성 전략보다 우수했습니다.
Keyword filter reliability대표 샘플에 대한 정성적 감사를 통해 키워드 필터가 실제 ATD 이슈의 고정밀 하위 집합을 유지함을 확인했습니다.
Explainability feedbackSHAP와 LIME 모두 합리적인 근거를 제공했으며, LIME은 단순성과 더 명확한 시각화 때문에 선호되었습니다.
Scalability이 파이프라인은 10개 프로젝트에 걸쳐 >100 k개의 후보 이슈를 적당한 컴퓨팅 자원으로 처리했으며, 실용적 가능성을 입증했습니다.

실용적 시사점

  • Faster debt triage – 팀은 키워드 + 액티브‑러닝 워크플로를 CI/CD 파이프라인에 통합하여 아키텍처 부채를 조기에 드러내고, 모든 이슈에 라벨링하는 부담을 줄일 수 있습니다.
  • Prioritized remediation – 가장 “informative”(정보성) 티켓에 인간 검토를 집중함으로써 개발자는 잡음에 소비하는 시간을 줄이고 고영향 디자인 수정에 더 많은 시간을 할애합니다.
  • Transparency for stakeholders – 설명 가능한 출력(LIME/SHAP)은 제품 소유자와 아키텍트에게 자동화된 결정에 대한 신뢰를 제공하여 부채 감소 이니셔티브에 대한 동의를 촉진합니다.
  • Tooling opportunities – 이 접근 방식은 IDE 플러그인이나 이슈‑트래커 봇에 적용되어 “possible ATD”(가능한 ATD) 태그를 제안하고 실시간 설명을 제공함으로써 부채 탐지를 협업적이고 지속적인 활동으로 전환할 수 있습니다.

Limitations & Future Work

  • Domain specificity – Keywords were derived from a relatively small, manually curated ATD set; transferability to other domains (e.g., microservices, cloud‑native) may require re‑tuning.
  • Model simplicity – The study used classic classifiers; exploring deep‑learning or transformer‑based models could further boost accuracy, albeit at higher computational cost.
  • Explainability depth – While LIME was preferred, both XAI methods sometimes highlighted irrelevant features; future work could investigate hybrid or domain‑aware explanation techniques.
  • Long‑term maintenance – As project vocabularies evolve, the keyword list and active‑learning query strategy may need periodic updates to stay effective.

Bottom line: By marrying lightweight keyword filtering with smart active learning and developer‑friendly explanations, the authors present a pragmatic path to detect architecture‑level technical debt at scale—cutting annotation work in half while keeping the model trustworthy enough for real‑world adoption.

저자

  • Edi Sutoyo
  • Paris Avgeriou
  • Andrea Capiluppi

논문 정보

  • arXiv ID: 2603.02944v1
  • 분류: cs.SE
  • 출판일: 2026년 3월 3일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »