조사 보고서: 모니터가 더 똑똑해질 때

발행: (2026년 5월 23일 AM 03:04 GMT+9)
9 분 소요
원문: Dev.to

출처: Dev.to
작성자: Marco Aquilanti

모니터가 트리거될 때, 근본 원인을 찾기 위해 필요한 일련의 확인 절차가 있습니다. 모니터를 설정한 엔지니어들은 이 단계들을 암기하고 있어— 의존성, 오류 코드, 무엇을 어디서 확인해야 하는지를 알고 있습니다. 하지만 현장 대응자는 이러한 단계가 항상 명확하지 않을 수 있습니다. 과거에는 엔지니어링 팀에게 체크리스트를 플레이북에 문서화하도록 강제하고, 대응자가 압박 속에서 이를 읽어야 한다는 방식이 일반적이었습니다.

오늘날 우리는 이러한 확인 작업을 LLM에 위임함으로써, 대응자의 역할을 증거 수집에서 진단 검토로 전환할 수 있습니다— 이는 MTTR을 크게 단축시킵니다.

우리의 새로운 Investigation Reports 기능은 바로 이것을 수행합니다: LLM이 조사를 완료하고, 인간이 알림을 인지하기도 전에 상세 보고서를 전달합니다.

Investigation Reports는 BrontoScope(우리의 첫 AI 기반 조사 기능)와 고객으로부터 받은 긍정적인 피드백을 기반으로 합니다.

BrontoScope와 Investigation Reports 모두 자동화된 조사를 수행하고 보고서를 제공하지만, 작동 방식은 다릅니다.

  • BrontoScope는 사용자가 로그에서 특정 오류 이벤트를 조사해 달라고 요청하는 것으로 시작합니다. 조사는 오류가 언제, 어디서 발생했는지를 파악하기 위한 정의된 워크플로를 따릅니다. LLM이 과정을 안내하고 결과를 실시간으로 요약합니다— 사용자는 응답을 기다리며 몇 초 안에 답을 받습니다.
  • Investigation Reports는 시스템 이벤트(모니터 트리거)로 자동 시작되며, 사용자가 실시간 응답을 기다리지 않습니다. 따라서 LLM은 몇 초가 아니라 몇 분 동안 데이터를 조회하고 결과를 분석할 수 있습니다. 알림을 조사하는 작업은 BrontoScope의 구체적인 오류 조사보다 더 일반적이어서, 모든 상황에 적용 가능한 고정된 워크플로를 정의하기 어렵습니다.

이러한 이유로 Investigation Reports는 LLM이 보다 자유롭게 동작하도록 합니다— 코딩된 워크플로 대신 도구와 컨텍스트를 제공합니다.

도구 측면은 간단합니다: LLM은 Bronto의 API를 호출해 초고속 로그 검색, 키‑값 사전 조회, 모니터 히스토리 확인, 사전 계산된 메트릭 조회 등을 수행할 수 있습니다.

컨텍스트가 더 큰 과제입니다.

LLM은 관련되고 잘 설명된 컨텍스트가 제공될 때 논리적인 결정을 잘 내립니다. 하지만 컨텍스트 윈도우는 제한적이며, 컨텍스트가 길어질수록 답변 품질이 떨어지고 환각(Hallucination) 비율이 높아지는 것이 여러 연구에서 입증되었습니다. 이를 “컨텍스트 부패(context rot)” 라고 부릅니다(Chroma 연구 및 arXiv 논문 참고).

효과적인 조사를 위해 LLM은 단순히 트리거된 모니터 정보만으로는 부족합니다. 역사적 컨텍스트모니터링 대상 시스템에 대한 이해가 필요합니다. 하지만 수천 토큰에 달하는 문서를 프롬프트에 그대로 넣으면 환각 위험이 급증하고 보고서 정확도가 떨어집니다.

좋은 조사를 위해 필요한 정확한 지식은 LLM이 스스로 추론하기 어렵지만, 모니터를 담당하는 엔지니어가 제공할 수 있습니다.

전용 “Investigation Prompt” 텍스트 영역에 사용자는 LLM에게 모니터가 트리거될 때 무엇을 확인하고 어떤 행동을 취해야 하는지 지시합니다. 자유 형식 텍스트 덕분에 이 기능은 매우 유연해져, 각 사용 사례에 맞는 임시 워크플로를 정의할 수 있습니다.

엔지니어와 SRE가 흔히 포함하는 내용:

  • 영향을 받는 서비스의 의존성 목록
  • 관련 로그 데이터셋 및 상관/쿼리 방법
  • 확인해야 할 주요 키와 메트릭
  • 보고서에 포함할 항목(영향받은 컴포넌트, 고객, 사용자 등)

아래 스크린샷은 “booking system”이라는 컬렉션에 있는 데이터셋을 확인하도록 LLM에 지시한 예시 조사 프롬프트입니다.

그리고 해당 모니터가 트리거됐을 때 생성된 Investigation Report는 LLM이 지시를 따르고 여러 쿼리를 실행해 잠재적 근본 원인, 진단, 타임라인을 포함한 보고서를 제공합니다.

Bronto의 고객 지원 및 영업 팀은 예상치 못한 활용 사례를 발견했습니다. 그들은 새로운 조직이 생성되거나 계약이 업데이트될 때 알림을 받도록 모니터를 설정해, 팀이 신규 가입 및 고객 온보딩 상황을 실시간으로 파악하도록 했습니다.

Investigation Reports는 각 이벤트에 대한 컨텍스트를 자동으로 수집하는 작업을 자동화합니다. 계약 유형, 유지 플랜, 회사 규모, 위치와 같은 상세 정보가 여러 로그에서 조회되어 1분 이내에 보고서로 정리됩니다. 이를 통해 팀은 일상적인 알림 속에서도 관련 이벤트를 빠르게 식별할 수 있습니다.

아래는 고객 지원 팀이 사용한 조사 프롬프트와 자동 생성된 보고서 예시입니다.

Investigation Reports는 LLM이 진정으로 잘할 수 있는 일을 보여주는 좋은 사례입니다: 적절히 정의된 작업에 관련 컨텍스트를 제공하면, 인간보다 빠르게 구조화된 실행 가능한 요약을 만들어냅니다. 이제 모든 모니터 알림에는 해결 속도를 높이는 관련 정보가 함께 제공됩니다.

앞으로 몇 달 안에 이 기능을 더욱 확장할 예정입니다— Bronto의 로깅 플랫폼과 AI를 결합해 팀의 반복 작업을 줄이고, 문제 해결을 가속화하며, 데이터에서 더 큰 가치를 끌어낼 수 있도록 할 것입니다.

Explore Bronto Labs

0 조회
Back to Blog

관련 글

더 보기 »

내 스킬

프로젝트를 위한 AI 지시문을 만들고, 설치하고, 관리하세요 — 코딩이 필요 없습니다. CREATE 이름을 정하고, 카테고리를 선택하고, 원하는 것을 설명하세요 — 마법사가 자동으로 구성합니다.