[논문] CAPRA: 다중 에이전트 LLM을 이용한 소프트웨어 아키텍처 산출물 피드백 확장

발행: (2026년 6월 17일 PM 09:00 GMT+9)
5 분 소요
원문: arXiv

개요

Automated assessment in software engineering education has advanced significantly for code grading and essay scoring.
소프트웨어 공학 교육에서 자동 평가는 코드 채점과 에세이 점수 매기기 위해 크게 발전했습니다. However, reviewing software architecture deliverables, which requires analyzing structural completeness and requirements traceability, has not yet been fully automated.
하지만 소프트웨어 아키텍처 전달물을 검토하는 것은 구조적 완전성과 요구사항 추적성을 분석하는 데 필요한 작업으로 아직 완전히 자동화되지 않았습니다. Applying Large Language Models (LLMs) to this task requires robust architectures to ensure technical feedback is accurate and reliable for students.
이 작업을 위해 대형 언어 모델(LLM)을 적용하려면 정확하고 신뢰할 수 있는 기술 피드백을 학생에게 제공하기 위한 견고한 아키텍처가 필요합니다. This paper presents CAPRA (Configurable Architecture Proficiency Report Assessment), a multi-agent LLM system that analyzes software architecture deliverables to generate personalized, template-compliant LaTeX feedback.
본 논문은 CAPRA(구성 가능한 아키텍처 숙련도 보고서 평가)라는 다중 에이전트 LLM 시스템을 제시합니다. 이 시스템은 소프트웨어 아키텍처 전달물을 분석하여 개인화된 템플릿 호환 LaTeX 피드백을 생성합니다. As a core design choice, CAPRA coordinates multiple specialized agents and employs a Python-based microservice for multi-modal document extraction, utilizing PyMuPDF and vision-enabled LLMs (specifically gpt-4o) to parse text and UML diagrams.
핵심 설계 선택으로, CAPRA는 여러 전문화된 에이전트를 조정하고 PyMuPDF와 비전 기반 LLM(특히 gpt-4o)을 활용해 텍스트와 UML 다이어그램을 파싱합니다. To ensure educational reliability and mitigate hallucinations, CAPRA introduces a deterministic Evidence Anchoring step using fuzzy matching via normalized Levenshtein distance, along with a ConsistencyManager agent that cross-verifies, deduplicates, and merges findings.
교육적 신뢰성을 보장하고 환각을 완화하기 위해 CAPRA는 정규화된 레번슈타인 거리를 이용한 퍼지 매칭을 통한 결정적인 Evidence Anchoring 단계를 도입했으며, ConsistencyManager 에이전트는 결과를 교차 검증하고 중복 제거 및 합치도록 합니다. System performance is assessed using a structured eight-criterion binary evaluation taxonomy covering: (i) extraction completeness, (ii) feature validation, (iii) issue grounding and severity detection, (iv) recommendation specificity and traceability, and (v) template and tone compliance.
시스템 성능은 다음 8가지 이진 평가 항목을 포괄하는 구조화된 분류 체계(이항 평가를 사용)를 통해 평가됩니다: (i) 추출 완전성, (ii) 기능 검증, (iii) 문제 근거 및 심각도 탐지, (iv) 권고 사항의 구체성과 추적성, (v) 템플릿 및 톤 준수. A preliminary empirical evaluation on 10 student reports shows that CAPRA satisfied 88.8% of the evaluated criteria under a strict two- rater aggregation rule, achieved moderate inter-rater agreement with human evaluators (kappa = 0.582), and processed each report in slightly over 4 minutes.
10건의 학생 보고서에 대한 초기 실험 결과, CAPRA는 엄격한 두 평론가 집계 규칙 하에서 평가된 기준의 88.8%를 충족시켰으며, 인간 평가자와 중간 수준의 인터레이터 합의를 이루었습니다(카파 = 0.582), 그리고 각 보고서는 4분 이상 소요되었습니다. While these results support the viability of LLM-supported architectural feedback, human oversight remains essential for subjective assessment dimensions.
이 결과는 LLM 지원 아키텍처 피드백의 실현 가능성을 지지하지만, 주관적 평가 차원에는 인간 감시가 필수적입니다.

주요 기여

This paper presents research in the following areas:

  • cs.SE

  • cs.AI

  • cs.SE

  • cs.AI

방법론

Please refer to the full paper for detailed methodology.
자세한 방법은 원본 논문을 참고하십시오.

실용적 의미

This research contributes to the advancement of cs.SE.
본 연구는 cs.SE의 발전에 기여합니다.

저자

  • Marco Becattini
  • Niccolò Caselli
  • Matteo Minin
  • Roberto Verdecchia
  • Enrico Vicario

논문 정보

  • arXiv ID: 2606.18976v1
  • Categories: cs.SE, cs.AI
  • Published: June 17, 2026
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »