[Paper] 대형 언어 모델을 사용한 CI/CD 파이프라인에서의 실패 관리 자동화 지원: SAP HANA 사례 연구
Source: arXiv - 2602.06709v1
개요
이 논문은 대형 언어 모델(LLM)이 실제 기업 규모 프로젝트인 SAP HANA에서 CI/CD 파이프라인 실패를 신뢰성 있게 자동으로 탐지하고 수정할 수 있는지를 조사한다. 다양한 도메인 지식을 LLM에 제공함으로써, 저자들은 LLM이 실패한 구성 요소를 정확히 찾아내고, 순진한 LLM보다 훨씬 더 정밀하고 실행 가능한 해결책을 제시할 수 있음을 보여준다.
주요 기여
- LLM‑기반 장애 관리 프로토타입을 생산 등급 CI/CD 파이프라인(SAP HANA)용으로 구현.
- 체계적인 평가: 파이프라인 메타데이터, 명시적 장애 관리 지침, 그리고 과거 장애 사례 저장소라는 세 가지 지식 원천.
- 소거 연구를 통해 각 지식 원천이 위치 식별 및 해결책 생성 정확도에 미치는 영향을 정량화.
- 실증 결과: 도메인 지식이 없을 때 84.2 % 대비 오류 위치 정확도 97.4 %를, 과거 장애 데이터를 포함했을 때 정확한 해결책 비율 92.1 %를 보여줌.
- 실용적인 가이드라인: 기존 DevOps 툴체인에 LLM을 통합하는 방법.
Source: …
방법론
-
데이터 수집 – 저자들은 SAP HANA의 빌드 파이프라인에서 1,200개의 CI/CD 실패 사례를 추출했으며, 각 사례는 다음과 같이 주석이 달렸다:
- 실패 단계(오류 위치).
- 사람이 작성한 복구 지침.
- 컨텍스트 메타데이터(예: 영향을 받은 모듈, 테스트 스위트).
-
지식 주입 – 세 개의 “지식 팩”이 준비되었다:
- 파이프라인 정보 – CI/CD 단계와 아티팩트 종속성에 대한 구조화된 데이터.
- 관리 지침 – SAP 엔지니어가 사용하는 규칙 기반 가이드라인 모음.
- 과거 실패 – 과거 실패 로그와 해결된 솔루션을 검색할 수 있는 아카이브.
-
LLM 프롬프트 엔지니어링 – 최신 LLM(GPT‑4 스타일)에 실패 로그와 하나 이상의 지식 팩을 제공하였다. 프롬프트는 모델에게 (a) 오류를 찾고 (b) 최소한의 실행 가능한 수정을 출력하도록 요청했다.
-
소거 실험 – 시스템을 네 가지 구성으로 실행했다:
- 외부 지식 없이(베이스라인).
- 파이프라인 정보만 사용.
- 관리 지침만 사용.
- 과거 실패만 사용.
- 세 가지를 모두 결합.
-
평가 지표 –
- 위치 정확도 – 실패한 파이프라인 단계의 올바른 식별 여부.
- 솔루션 정확성 – 제안된 수정이 인간이 검증한 해결책과 일치하며 불필요한 단계가 없는지 여부.
Source: …
결과 및 발견
| 구성 | 오류‑위치 정확도 | 정확한‑해결 비율 |
|---|---|---|
| Baseline (no knowledge) | 84.2 % | 68.5 % |
| Pipeline info only | 89.1 % | 75.3 % |
| Management instructions only | 90.4 % | 78.9 % |
| Historical failures only | 97.4 % | 92.1 % |
| All knowledge packs combined | 96.8 % | 91.4 % |
- 역사적 실패 데이터가 지배적: 구체적인 패턴을 제공해 LLM이 매칭할 수 있게 하며, 위치 정확도와 해결 정확도를 크게 향상시킵니다.
- 모든 소스를 결합했을 때의 미미한 향상은 풍부한 실패 아카이브가 확보되면 수익이 감소한다는 것을 시사합니다.
- LLM은 일관되게 최소한의 수정만을 생성했으며—불필요한 단계나 “베스트 프랙티스” 같은 부가 설명이 없고—자동 실행에 바로 사용할 수 있는 출력물을 제공합니다.
실용적인 시사점
- 자동화된 트리아지 봇: 팀은 LLM‑기반 어시스턴트를 CI/CD 대시보드에 삽입하여 원인을 즉시 파악하고 바로 실행 가능한 해결책을 제공함으로써 평균 복구 시간(MTTR)을 몇 분 또는 몇 시간 단축할 수 있다.
- 지식베이스 활용: 과거 빌드 실패 로그를 검색 가능하게 유지하고 있는 기업은 맞춤형 규칙 엔진을 구축하는 대신 해당 아카이브를 LLM에 제공함으로써 즉각적인 ROI를 얻을 수 있다.
- 확장 가능한 DevOps: 이 접근 방식은 실패 아카이브 규모에 따라 확장된다; 사고가 많이 기록될수록 모델의 정확도가 향상되어 선순환 피드백 루프를 만든다.
- 통합의 간편함: 솔루션이 순수 텍스트 명령어나 설정 스니펫으로 생성되기 때문에 기존 자동화 도구(예: Jenkins, GitHub Actions)로 바로 파이프할 수 있어 복잡한 API 작업이 필요 없다.
- 콜 피로 감소: 주니어 엔지니어나 온콜 담당자는 어시스턴트를 활용해 1차 진단을 수행함으로써 시니어 직원이 보다 높은 영향력의 작업에 집중할 수 있다.
제한 사항 및 향후 연구
- 도메인 특수성: 이 연구는 SAP HANA에 초점을 맞추고 있으며, 로그 구조가 덜 정형화된 파이프라인이나 역사적 아카이브에 포함되지 않은 언어/프레임워크에서는 결과가 다를 수 있습니다.
- 모델 환각 위험: 정확도는 높았지만 가끔 발생하는 환각 명령이 여전히 실패를 일으킬 수 있으므로 검증 단계(예: 샌드박스 실행)를 권장합니다.
- 지식 유지 관리: 역사적 실패 저장소를 최신 상태로 유지하려면 체계적인 로깅 및 큐레이션이 필요하며, 이는 논문에서 다루지 않은 운영 오버헤드입니다.
- 프롬프트 크기 확장성: 매우 큰 지식 팩은 현재 LLM API의 토큰 한도를 초과할 수 있으므로, 향후 연구에서는 검색 강화 생성이나 벡터 기반 유사도 검색을 탐색하여 프롬프트를 간결하게 유지할 수 있습니다.
- 광범위한 지표: 저자들은 정확도는 측정했지만 비용 절감, 개발자 만족도와 같은 하위 비즈니스 영향은 측정하지 않았습니다. 이러한 차원으로 평가를 확장하는 것이 자연스러운 다음 단계입니다.
저자
- Duong Bui
- Stefan Grintz
- Alexander Berndt
- Thomas Bach
논문 정보
- arXiv ID: 2602.06709v1
- 분류: cs.SE
- 출판일: 2026년 2월 6일
- PDF: Download PDF