수동적 후폭풍에서 주체적 복구로: OSS 장애 처리 현대화
Source: Dev.to
전통적인 OSS 장애 처리의 문제점
전통적인 OSS 스택에서는 주문 폴아웃을 시스템 동작이라기보다 예외로 취급합니다.
주문이 실행 중에 실패하면—BSS, 서비스 주문 관리, 네트워크 사이에서—폴아웃 큐에 넣고 자동 흐름에서 제거합니다. 그 시점부터 복구는 수동으로 이루어집니다. 이 접근 방식은 확장성이 없습니다.
레거시 OSS 아키텍처는 결정론적 실행 경로를 중심으로 구축됩니다. 한 번 배포되면 동작이 고정됩니다. 실행이 실패하면:
- 로그를 수동으로 검사함
- 전문가가 오류를 해석함
- 수작업으로 수정함
- 주문을 수동으로 다시 처리함
각 실패는 맞춤형 인시던트가 됩니다. 시스템은 이전 해결책으로부터 학습하지 않으며, 복구 로직은 재사용되지 않습니다. 이는 도구의 문제가 아니라 아키텍처적 제약입니다.
에이전시 복구: 폴아웃 재구성
에이전시 복구는 폴아웃을 종단 상태가 아닌 복구 가능한 상태로 재구성합니다. 실행을 중단하는 대신, 실패한 주문은 지능형 에이전트를 트리거합니다. 에이전트는:
- 실행 컨텍스트와 실패 세부 정보를 가져옴
- 사전 정의된 워크플로와 실시간 시스템 데이터를 기반으로 추론함
- 프로그램matically 교정 작업을 실행함
- 주문을 자동으로 재시도하고 완료함
복구 로직이 명시적이고 재사용 가능하며 지속적으로 개선됩니다.
기존 시스템과의 공존
에이전시 폴아웃 복구의 핵심 특성은 공존입니다. 기존 BSS 및 서비스 주문 관리 시스템은 그대로 유지됩니다. 에이전시 레이어는 이들 옆에 배치되어 복구를 오케스트레이션하고 노출된 인터페이스를 통해 상호 작용합니다. 이를 통해 다음을 가능하게 합니다:
- 즉각적인 운영 개선
- 상위 시스템에 대한 중단 제로
- 점진적인 자율성 도입
레거시 시스템은 기록 시스템으로 남고, 인텔리전스는 외부화됩니다.
엔지니어링 이점
엔지니어링 관점에서 에이전시 복구는 다음을 제공합니다:
- 낮은 폴아웃 비율
- 감소된 수동 개입
- 빠른 해결 사이클
- 예측 가능한 복구 동작
더 중요한 것은 복구가 사후 생각이 아닌 일급 기능이 된다는 점입니다.
조합 가능한 워크플로
워크플로를 외부화하고 지능형 에이전트에 노출함으로써:
- 프로세스가 조합 가능해짐
- 복구 로직이 시간에 따라 진화함
- 레거시 OSS 구성 요소를 점진적으로 단계적으로 교체할 수 있음
에이전시 복구는 경직된 레거시 아키텍처와 적응형 클라우드‑네이티브 OSS 사이의 다리 역할을 합니다.
결론
복잡한 통신 환경에서는 폴아웃이 불가피합니다. 수동 복구는 선택이 아닙니다.