Sentrix: AI SRE Copilot이 자신의 스케일링 결정에 대해 토론한다

발행: (2026년 3월 9일 PM 09:17 GMT+9)
5 분 소요
원문: Dev.to

Source: Dev.to

Cover image for Sentrix: An AI SRE Copilot That Debates Its Own Scaling Decisions

모든 SRE 팀이 겪는 악몽은 동일합니다. 새벽 3시, 트래픽이 급증하고, 아무도 이를 예측하지 못했을 때. CloudWatch 알림이 울릴 때쯤이면 고객은 이미 불만을 품고 있고, 매출 손실이 발생합니다.

저는 Sentrix를 만들었습니다 — 인프라 문제를 사전에 예측하고 자동으로 클라우드 리소스를 확장하는 AI 기반 SRE 코파일럿입니다. 차별점은 단순 예측이 아니라 논쟁입니다.

Three Agents, One Decision

단일 AI가 결정을 내리는 대신, 세 개의 Bedrock Claude 에이전트가 모든 확장 호출에 대해 토론합니다:

  • AGENT_SRE는 신뢰성을 위해 싸웁니다: “지금 확장해야 합니다, 다운타임 위험을 감수할 수 없습니다.”
  • AGENT_FINANCE는 비용을 억제합니다: “복제본이 5배가 되었습니다 — 정말 모두 필요합니까?”
  • AGENT_ARBITER는 두 입장을 종합합니다: “지금 3배로 확장하고, 5분 동안 모니터링한 뒤 재평가합니다.”

그 결과 신뢰성과 비용을 균형 있게 맞춘 결정이 나오며, 모든 결정은 Step Functions 피드백 루프를 통해 5분 후에 점수가 매겨집니다. 이 점수는 thought signatures가 되어 향후 분석에 반영되어, AI가 여러분의 인프라에 맞는 최적의 방식을 학습하게 됩니다.

What It Looks Like in Practice

저는 Sentrix를 전체 사고 수명 주기에서 테스트했습니다:

  1. 트래픽 급증 →
  2. 비용 최적화 →
  3. 지역 장애 →
  4. 연쇄적인 AWS 장애 →
  5. 크로스‑클라우드 GCP 장애 복구 →
  6. 자동 복구.

4 536 % 트래픽 급증 상황에서, 뇌는 밀리초 단위로 급증을 감지하고 EKS를 2개 팟에서 10개 팟으로 확장했습니다 — 인간 개입이 전혀 필요 없었습니다. 트래픽이 정상화되면 Finance 에이전트가 다운스케일을 주장하고, 시스템은 10개에서 5개 팟으로 최적화했습니다. AWS 지역이 연쇄적으로 장애가 발생했을 때는 세 에이전트가 만장일치로 GCP 장애 복구를 선택했습니다. 피드백 루프는 해당 결정을 100/100으로 평가했습니다.

전체 시스템은 하나의 AWS CDK 스택으로 구동됩니다 — Lambda, Bedrock, EKS, DynamoDB, Step Functions, EventBridge, CloudFront — 5분 만에 배포됩니다.

Full Write‑up

전체 포스트에는 다음 내용이 포함됩니다:

  • 아키텍처 상세
  • 심각도 기반 모델 선택 (저심각도에는 Haiku, 치명적 상황에는 Sonnet)
  • Thought‑signature 자체 진화 메커니즘
  • 단계별 데모 walkthrough와 스크린샷

Read the full write‑up on Build Signals

저는 Sentrix를 AWS 10,000 AIdeas 대회에 제출했습니다. 가장 많이 좋아요를 받은 상위 300개의 글이 다음 라운드로 진출합니다. 이 글이 흥미로우셨다면, 기사에 좋아요를 눌러주시면 정말 큰 도움이 됩니다 — 두 초면 충분합니다.

Like the article on AWS Builder Center

0 조회
Back to Blog

관련 글

더 보기 »