[Paper] 대형 언어 모델을 사용한 CI/CD 파이프라인에서의 실패 관리 자동화 지원: SAP HANA 사례 연구

발행: 3일 전 (2026년 2월 6일 오후 10:55 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.06709v1

개요

이 논문은 대형 언어 모델(LLM)이 실제 기업 규모 프로젝트인 SAP HANA에서 CI/CD 파이프라인 실패를 신뢰성 있게 자동으로 탐지하고 수정할 수 있는지를 조사한다. 다양한 도메인 지식을 LLM에 제공함으로써, 저자들은 LLM이 실패한 구성 요소를 정확히 찾아내고, 순진한 LLM보다 훨씬 더 정밀하고 실행 가능한 해결책을 제시할 수 있음을 보여준다.

주요 기여

LLM‑기반 장애 관리 프로토타입을 생산 등급 CI/CD 파이프라인(SAP HANA)용으로 구현.
체계적인 평가: 파이프라인 메타데이터, 명시적 장애 관리 지침, 그리고 과거 장애 사례 저장소라는 세 가지 지식 원천.
소거 연구를 통해 각 지식 원천이 위치 식별 및 해결책 생성 정확도에 미치는 영향을 정량화.
실증 결과: 도메인 지식이 없을 때 84.2 % 대비 오류 위치 정확도 97.4 %를, 과거 장애 데이터를 포함했을 때 정확한 해결책 비율 92.1 %를 보여줌.
실용적인 가이드라인: 기존 DevOps 툴체인에 LLM을 통합하는 방법.

Source: …

방법론

데이터 수집 – 저자들은 SAP HANA의 빌드 파이프라인에서 1,200개의 CI/CD 실패 사례를 추출했으며, 각 사례는 다음과 같이 주석이 달렸다:
- 실패 단계(오류 위치).
- 사람이 작성한 복구 지침.
- 컨텍스트 메타데이터(예: 영향을 받은 모듈, 테스트 스위트).
지식 주입 – 세 개의 “지식 팩”이 준비되었다:
- 파이프라인 정보 – CI/CD 단계와 아티팩트 종속성에 대한 구조화된 데이터.
- 관리 지침 – SAP 엔지니어가 사용하는 규칙 기반 가이드라인 모음.
- 과거 실패 – 과거 실패 로그와 해결된 솔루션을 검색할 수 있는 아카이브.
LLM 프롬프트 엔지니어링 – 최신 LLM(GPT‑4 스타일)에 실패 로그와 하나 이상의 지식 팩을 제공하였다. 프롬프트는 모델에게 (a) 오류를 찾고 (b) 최소한의 실행 가능한 수정을 출력하도록 요청했다.
소거 실험 – 시스템을 네 가지 구성으로 실행했다:
- 외부 지식 없이(베이스라인).
- 파이프라인 정보만 사용.
- 관리 지침만 사용.
- 과거 실패만 사용.
- 세 가지를 모두 결합.
평가 지표 –
- 위치 정확도 – 실패한 파이프라인 단계의 올바른 식별 여부.
- 솔루션 정확성 – 제안된 수정이 인간이 검증한 해결책과 일치하며 불필요한 단계가 없는지 여부.

Source: …

결과 및 발견

구성	오류‑위치 정확도	정확한‑해결 비율
Baseline (no knowledge)	84.2 %	68.5 %
Pipeline info only	89.1 %	75.3 %
Management instructions only	90.4 %	78.9 %
Historical failures only	97.4 %	92.1 %
All knowledge packs combined	96.8 %	91.4 %

역사적 실패 데이터가 지배적: 구체적인 패턴을 제공해 LLM이 매칭할 수 있게 하며, 위치 정확도와 해결 정확도를 크게 향상시킵니다.
모든 소스를 결합했을 때의 미미한 향상은 풍부한 실패 아카이브가 확보되면 수익이 감소한다는 것을 시사합니다.
LLM은 일관되게 최소한의 수정만을 생성했으며—불필요한 단계나 “베스트 프랙티스” 같은 부가 설명이 없고—자동 실행에 바로 사용할 수 있는 출력물을 제공합니다.

실용적인 시사점

자동화된 트리아지 봇: 팀은 LLM‑기반 어시스턴트를 CI/CD 대시보드에 삽입하여 원인을 즉시 파악하고 바로 실행 가능한 해결책을 제공함으로써 평균 복구 시간(MTTR)을 몇 분 또는 몇 시간 단축할 수 있다.
지식베이스 활용: 과거 빌드 실패 로그를 검색 가능하게 유지하고 있는 기업은 맞춤형 규칙 엔진을 구축하는 대신 해당 아카이브를 LLM에 제공함으로써 즉각적인 ROI를 얻을 수 있다.
확장 가능한 DevOps: 이 접근 방식은 실패 아카이브 규모에 따라 확장된다; 사고가 많이 기록될수록 모델의 정확도가 향상되어 선순환 피드백 루프를 만든다.
통합의 간편함: 솔루션이 순수 텍스트 명령어나 설정 스니펫으로 생성되기 때문에 기존 자동화 도구(예: Jenkins, GitHub Actions)로 바로 파이프할 수 있어 복잡한 API 작업이 필요 없다.
콜 피로 감소: 주니어 엔지니어나 온콜 담당자는 어시스턴트를 활용해 1차 진단을 수행함으로써 시니어 직원이 보다 높은 영향력의 작업에 집중할 수 있다.

제한 사항 및 향후 연구

도메인 특수성: 이 연구는 SAP HANA에 초점을 맞추고 있으며, 로그 구조가 덜 정형화된 파이프라인이나 역사적 아카이브에 포함되지 않은 언어/프레임워크에서는 결과가 다를 수 있습니다.
모델 환각 위험: 정확도는 높았지만 가끔 발생하는 환각 명령이 여전히 실패를 일으킬 수 있으므로 검증 단계(예: 샌드박스 실행)를 권장합니다.
지식 유지 관리: 역사적 실패 저장소를 최신 상태로 유지하려면 체계적인 로깅 및 큐레이션이 필요하며, 이는 논문에서 다루지 않은 운영 오버헤드입니다.
프롬프트 크기 확장성: 매우 큰 지식 팩은 현재 LLM API의 토큰 한도를 초과할 수 있으므로, 향후 연구에서는 검색 강화 생성이나 벡터 기반 유사도 검색을 탐색하여 프롬프트를 간결하게 유지할 수 있습니다.
광범위한 지표: 저자들은 정확도는 측정했지만 비용 절감, 개발자 만족도와 같은 하위 비즈니스 영향은 측정하지 않았습니다. 이러한 차원으로 평가를 확장하는 것이 자연스러운 다음 단계입니다.

저자

Duong Bui
Stefan Grintz
Alexander Berndt
Thomas Bach

논문 정보

arXiv ID: 2602.06709v1
분류: cs.SE
출판일: 2026년 2월 6일
PDF: Download PDF

[Paper] 대형 언어 모델을 사용한 CI/CD 파이프라인에서의 실패 관리 자동화 지원: SAP HANA 사례 연구

개요

주요 기여

방법론

결과 및 발견

실용적인 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 펌웨어 프로젝트에서 소프트웨어 결함 예측을 위한 통계 기반 메트릭 임계값 설정 방법: 산업 현장 경험

[Paper] 신뢰할 수 있는 AI 소프트웨어 엔지니어

AI 에이전트 스케일링: C#로 Elasticity, State, Throughput 마스터하기

파트 3: Gemini CLI 마스터하기 – 콘텐츠 제작, 학습, 그리고 멀티모달리티