[논문] 초대규모 자율 사고 해결: 네트워크 운영을 위한 에이전트형 AI 아키텍처
개요
초대형 클라우드 네트워크 인프라는 전통적인 인간 중심 사고 대응이 장애의 양, 속도, 복잡성을 따라잡지 못하는 고유한 운영상의 어려움을 안고 있습니다. 본 논문은 대규모 네트워크 운영에서 자율적인 사고 해결을 위한 에이전트 기반 AI 아키텍처를 제시합니다. 우리 시스템은 특화된 AI 에이전트들이 협업하여 인간 개입 없이 네트워크 사고를 탐지·진단·복구하는 다중 에이전트 오케스트레이션 프레임워크를 사용합니다. 계층적 에이전트 분해, 표준 프로토콜을 통한 기술 기반 도구 호출, 운영 매뉴얼에서 추출한 구조화된 지식 인코딩, 안전 경계가 포함된 점진적 자율성, 폐쇄형 검증 등 아키텍처 원칙을 설명합니다. 이 아키텍처는 주요 클라우드 제공업체의 실제 서비스에 적용되어, 에이전트 기반 AI 시스템이 일반적인 사고 카테고리에서 90% 이상 자율 해결률을 달성하면서도 계층화된 권한 부여와 롤백 메커니즘을 통해 안전성을 보장함을 입증했습니다. 설계 트레이드오프, 실패 모드, 대규모에서 자율 AI 에이전트를 운영하면서 얻은 교훈을 논의합니다.
주요 기여
본 논문은 다음 분야의 연구를 다룹니다.
- cs.SE
- cs.AI
- cs.ET
- cs.MA
- cs.NI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.SE 분야의 발전에 기여합니다.
저자
- Arun Malik
논문 정보
- arXiv ID: 2606.09122v1
- Categories: cs.SE, cs.AI, cs.ET, cs.MA, cs.NI
- Published: 2026년 6월 8일
- PDF: PDF 다운로드