Launch HN: Relvy (YC F24) – 온콜 런북, 자동화
Source: Hacker News
Overview
우리는 Relvy AI(https://www.relvy.ai)의 Bharath와 Simranjit입니다. Relvy는 소프트웨어 엔지니어링 팀을 위한 온콜 런북을 자동화합니다. 이는 텔레메트리 데이터와 코드를 대규모로 분석할 수 있는 도구를 갖춘 AI 에이전트로, 팀이 프로덕션 이슈를 몇 분 안에 디버깅하고 해결하도록 돕습니다.
Why AI‑assisted Root Cause Analysis Is Hard
- 텔레메트리 데이터 양이 모델을 잡음에 빠뜨릴 수 있습니다.
- 데이터 해석 / 추론은 기업 환경에 따라 달라집니다.
- 온콜은 시간 제약이 크고 위험도가 높은 문제이며, AI가 탐색할 여지가 거의 없습니다. 사용자를 잘못된 경로로 이끄는 오류는 쉽게 용서받지 못합니다.
벤치마크는 이러한 어려움을 반영합니다: Claude Opus 4.6은 OpenRCA 데이터셋에서 36 % 정확도만을 기록했으며, 코딩 작업에서의 성능에 비해 크게 낮습니다.
Our Approach
우리는 텔레메트리 데이터 분석을 위한 특화된 도구를 구축함으로써 이 문제들을 해결합니다:
- 조밀한 시계열 데이터에서 이상 징후를 감지하고 문제 구간을 식별합니다.
- 로그 패턴 검색을 수행합니다.
- 스팬 트리를 추론하며, 에이전트의 컨텍스트를 과부하시키지 않습니다.
에이전트를 런북에 중심을 두어 안내되지 않은 탐색을 줄이고, 경험 많은 엔지니어가 취할 가장 유용한 행동을 그대로 따라가는 결정론적 단계를 수행합니다. 이를 통해 분석 속도가 빨라지고, 엔지니어가 AI 작업을 검토할 때 인지 부하가 감소합니다.
How It Works
- Installation –
docker‑compose, Helm 차트, 혹은 클라우드 서비스에 가입하여 Relvy를 배포합니다. - Connect – 관측 스택과 코드 저장소를 연결합니다.
- Create a Runbook – 특정 알림에 대해 Relvy가 따라야 할 단계를 정의합니다.
- Investigation – Relvy가 런북을 실행하고, 조사 결과를 웹 UI의 노트북 형태로 제공하며, 데이터 시각화를 통해 엔지니어가 검증하고 신뢰를 쌓을 수 있게 합니다.
- Automation – Slack 알림에 자동으로 대응하도록 Relvy를 설정합니다.
Example Runbook Steps
- 특정 대시보드를 확인하여 오류가 특정 샤드에만 국한되는지 확인합니다.
- APM 페이지에서 처리량 급증을 살펴보고, 몇 개의 IP에서 발생했는지 판단합니다.
- 최근 커밋을 검토하여 영향을 받은 엔드포인트와 관련된 변경 사항을 찾습니다.
또한, 인간 승인이 필요한 완화 조치를 위해 Relvy가 실행할 수 있는 AWS CLI 명령을 구성할 수 있습니다.
About Us
- YC batch: 2024년 가을.
- Early work: 작은 언어 모델을 이용한 지속적인 로그 모니터링으로 시작했지만, 속도가 너무 느렸습니다.
- Current product: 초기 고객과 함께 약 1년간 개발한 결과물로, 효과적인 근본 원인 분석에 초점을 맞추고 있습니다.
오늘 Relvy를 사용해 보세요. 피드백을 환영하며, 여러분 회사에서 온콜 부담을 어떻게 해결하고 있는지도 궁금합니다.
Comments
Hacker News discussion (5 points, 4 comments)