[Paper] Active Learning 및 Explainable AI를 통한 아키텍처 기술 부채 탐지에서 라벨링 노력 감소

발행: 2일 전 (2026년 3월 3일 PM 09:51 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2603.02944v1

Overview

아키텍처 기술 부채(ATD)를 감지하는 것은—개발자들이 이슈 트래커, 댓글, 커밋 메시지에서 인정하는 숨겨진 설계 수준의 지름길—보통 노동 집약적인 수동 라벨링을 필요로 합니다. 이 논문은 키워드 필터링, 능동 학습, 설명 가능한 AI(XAI)를 결합하면 필요한 주석 작업량을 거의 절반으로 줄이면서도 견고한 분류기(F1 ≈ 0.72)를 제공할 수 있음을 보여줍니다.

주요 기여

Keyword‑driven pre‑filtering: 57개의 전문가 검증 ATD 예시를 추출해 고정밀 키워드 집합을 구축했으며, 이를 통해 103 k가 넘는 Jira 이슈 원시 풀을 관리 가능한 후보 집합으로 축소했습니다.
Active‑learning pipeline: 여러 쿼리 전략(예: 불확실성, Breaking Ties)을 비교했으며, Breaking Ties 전략이 성능과 라벨링 비용 사이에서 일관되게 최적의 균형을 제공함을 입증했습니다.
Explainability integration: 훈련된 ATD 분류기에 SHAP와 LIME을 적용해 각 예측에 대한 인간이 읽을 수 있는 근거를 개발자에게 제공했습니다.
Empirical validation: 도메인 전문가와의 정성적 평가를 수행해 설명이 유용함을 확인했으며, LIME이 명료성 측면에서 일반적으로 선호된다는 결과를 얻었습니다.

Methodology

Dataset refinement – 이전 ATD 데이터셋(116개의 Jira 이슈)에서 시작하여 전문가 검증 후 57개의 고품질 예시만 남겼습니다.
Keyword extraction – 검증된 항목을 사용해 “refactor”, “architecture”, “design debt”와 같은 대표 용어를 추출했습니다. 이 용어들을 필터로 적용해 10개의 오픈소스 프로젝트에서 약 103 k개의 잠재적 ATD 티켓을 찾아냈습니다.
Sampling for evaluation – 필터링된 티켓 중 통계적으로 대표성을 갖는 부분집합을 무작위로 선택하여 수동 검증을 수행하고, 신뢰할 수 있는 정답 데이터를 구축했습니다.
Active learning loop – 초기 라벨링된 데이터를 기반으로 경량 분류기(예: 로지스틱 회귀 / SVM)를 학습시켰습니다. 각 반복마다 모델은 불확실성, 동점 깨기, 무작위 등 다양한 전략에 따라 가장 정보량이 큰 라벨이 없는 샘플을 쿼리했습니다. 인간 주석자가 쿼리된 항목만 라벨링하고, 모델을 다시 학습시켰습니다.
Explainability layer – 최종 모델이 학습된 후, SHAP(전역/국부 특징 중요도)와 LIME(국부 대리 설명)를 사용해 예측에 대한 설명을 생성했습니다. 전문가들이 설명 샘플을 검토하여 이해도와 유용성을 평가했습니다.

Results & Findings

Aspect	Outcome
Labeling effort	Breaking Ties 활성 학습은 전체 필터링된 세트를 라벨링하는 경우에 비해 필요한 주석을 ≈ 49 % 감소시켰습니다.
Classification performance	최고 F1‑score 0.72 (Breaking Ties), 무작위 및 기본 불확실성 전략보다 우수했습니다.
Keyword filter reliability	대표 샘플에 대한 정성적 감사를 통해 키워드 필터가 실제 ATD 이슈의 고정밀 하위 집합을 유지함을 확인했습니다.
Explainability feedback	SHAP와 LIME 모두 합리적인 근거를 제공했으며, LIME은 단순성과 더 명확한 시각화 때문에 선호되었습니다.
Scalability	이 파이프라인은 10개 프로젝트에 걸쳐 >100 k개의 후보 이슈를 적당한 컴퓨팅 자원으로 처리했으며, 실용적 가능성을 입증했습니다.

실용적 시사점

Faster debt triage – 팀은 키워드 + 액티브‑러닝 워크플로를 CI/CD 파이프라인에 통합하여 아키텍처 부채를 조기에 드러내고, 모든 이슈에 라벨링하는 부담을 줄일 수 있습니다.
Prioritized remediation – 가장 “informative”(정보성) 티켓에 인간 검토를 집중함으로써 개발자는 잡음에 소비하는 시간을 줄이고 고영향 디자인 수정에 더 많은 시간을 할애합니다.
Transparency for stakeholders – 설명 가능한 출력(LIME/SHAP)은 제품 소유자와 아키텍트에게 자동화된 결정에 대한 신뢰를 제공하여 부채 감소 이니셔티브에 대한 동의를 촉진합니다.
Tooling opportunities – 이 접근 방식은 IDE 플러그인이나 이슈‑트래커 봇에 적용되어 “possible ATD”(가능한 ATD) 태그를 제안하고 실시간 설명을 제공함으로써 부채 탐지를 협업적이고 지속적인 활동으로 전환할 수 있습니다.

Limitations & Future Work

Domain specificity – Keywords were derived from a relatively small, manually curated ATD set; transferability to other domains (e.g., microservices, cloud‑native) may require re‑tuning.
Model simplicity – The study used classic classifiers; exploring deep‑learning or transformer‑based models could further boost accuracy, albeit at higher computational cost.
Explainability depth – While LIME was preferred, both XAI methods sometimes highlighted irrelevant features; future work could investigate hybrid or domain‑aware explanation techniques.
Long‑term maintenance – As project vocabularies evolve, the keyword list and active‑learning query strategy may need periodic updates to stay effective.

Bottom line: By marrying lightweight keyword filtering with smart active learning and developer‑friendly explanations, the authors present a pragmatic path to detect architecture‑level technical debt at scale—cutting annotation work in half while keeping the model trustworthy enough for real‑world adoption.

저자

Edi Sutoyo
Paris Avgeriou
Andrea Capiluppi

논문 정보

arXiv ID: 2603.02944v1
분류: cs.SE
출판일: 2026년 3월 3일
PDF: PDF 다운로드

[Paper] Active Learning 및 Explainable AI를 통한 아키텍처 기술 부채 탐지에서 라벨링 노력 감소

Overview

주요 기여

Methodology

Results & Findings

실용적 시사점

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] 왜 Stack Overflow에 기여하나요? LLM 시대 이전의 문화 간 동기와 사용 패턴 이해

[Paper] RippleGUItester: 변경 인식 탐색적 테스트

[Paper] 살아있다! Live Object Environment가 소프트웨어 공학 실무에 미치는 변화

[Paper] ICSE 2023 지속 가능성 보고서