Resolve AI, AI 코딩 붐이 생산 시스템을 무너뜨리고 있다며 해결하겠다고 밝혔다.
Source: VentureBeat
Greylock와 Lightspeed Venture Partners가 투자한 프로덕션 운영 스타트업 Resolve AI가 오늘 플랫폼을 대대적으로 확장한다고 발표했습니다. 이번 업데이트에는 항상 켜져 있는 백그라운드 에이전트, 재설계된 조사 아키텍처, 그리고 엔지니어와 AI 에이전트가 실시간으로 협업하는 공유 작업 공간이 포함됩니다.
이번 릴리스의 핵심은 Resolve AI 자체 연구소에서 개발한 새로운 다중 에이전트 조사 시스템입니다. 단일 AI 에이전트가 프로덕션 장애를 진단하는 방식(마치 혼자서 온콜 근무를 하는 엔지니어와 유사)에서 벗어나, 이제 플랫폼은 여러 가설을 동시에 탐색하고 서로의 결론을 독립적으로 검증하며, 근본 원인부터 증상까지 완전한 인과 사슬을 구축하는 전문화된 에이전트 팀을 배치합니다. 회사에 따르면, 이 아키텍처는 기존 버전 대비 내부 평가 벤치마크에서 근본 원인 정확도가 두 배 이상 향상되었습니다.
“단일 에이전트가 사람처럼 온콜에 대기한다는 개념을 생각해 보세요,” 라고 Resolve AI의 CEO 겸 공동 창업자 Spiros Xanthos가 발표 직전 VentureBeat와의 독점 인터뷰에서 말했습니다. “이제 우리는 거의 인간 팀이 디버깅하듯 함께 일하는 에이전트 팀을 보유하고 있으며, 품질이 2배 향상되었습니다.”
이 발표는 소프트웨어 산업이 겪고 있는 급격한 긴장감 속에 나왔습니다. AI 기반 코드 생성은 채택이 폭발적으로 늘어나, 엔지니어링 팀이 2년 전보다 훨씬 많은 소프트웨어를 배포할 수 있게 했습니다. 하지만 배포된 소프트웨어를 운영 중에 유지하고(장애 발생 시 디버깅, 배포 후 모니터링, 건강 상태 감사 등) 관리하는 일은 여전히 대부분 수작업에 의존하고 있습니다. 올해 초 10억 달러 기업가치로 1억 2500만 달러 시리즈 A 라운드를 마친 Resolve AI는 소프트웨어 라이프사이클의 운영 측면이 AI 투자에서 다음 주요 전선이 될 것이라고 직접 베팅하고 있습니다.
수백 개 실제 테스트 사례가 보여주는 정확도 주장
스타트업의 정확도 주장은 언제나 면밀히 검증돼야 하며, Xanthos는 평가 규모와 한계에 대해 솔직했습니다. 2배 향상 수치는 제3자 감사를 거친 것이 아니라 내부 벤치마크에서 나온 것이지만, 평가 세트는 Resolve AI의 엔터프라이즈 고객이 일상적으로 마주하는 복잡성을 반영하도록 설계되었습니다.
“우리가 시간이 지나면서 만든 매우 어렵고 복잡한 평가 세트입니다. 이는 실제 사례를 대표합니다,” 라고 Xanthos는 설명했습니다. “고객 데이터는 아니지만, 우리가 협업하는 대형 기술 기업에서 본 어려운 사례와 유사합니다.” 그는 이 세트가 Coinbase, Salesforce, DoorDash, Zscaler 등 Resolve AI 고객사의 프로덕션 장애 사례 수백 개를 포함한다고 밝혔습니다.
이 정확도 향상의 실질적 영향은 상당합니다. 이제 Resolve AI의 에이전트는 모든 온콜 알림에 대한 1차 대응자로 작동하며, 인간 엔지니어가 개입하기 전 보통 5분 이내에 트리아지를 완료합니다. 이전 공개 자료에서는 DoorDash가 근본 원인 파악 시간을 최대 87% 단축했다고 언급했습니다. Xanthos는 이 수치를 맥락화하면서 일반적인 기준을 설명했습니다.
“문제가 발생하면 인간이 노트북을 켜고 연결하는 데 510분 정도 걸릴 수 있습니다. 일반적인 MTTR은 수십 분, 경우에 따라서는 몇 시간까지도 걸립니다. 따라서 80% 이상, 즉 45배 빠른 개선은 실제로 엄청난 차이입니다. AI, 도구, 데이터, 관측성 어느 쪽에서도 이렇게 큰 성과를 본 적이 없습니다.”
AI 에이전트가 서로를 팩트체크해 ‘환각’ 근본 원인 방지
대규모 언어 모델을 고위험 프로덕션 환경에 적용할 때 가장 큰 문제 중 하나는 설득력 있게 들리지만 사실은 틀린 답변을 생성하는 경향입니다. 실시간 장애 상황에서 이런 오류는 엔지니어 팀을 잘못된 해결책을 찾게 만들고 서비스가 계속 다운되는 결과를 초래할 수 있습니다.
Xanthos는 이를 직접 인정했습니다. “이것은 모델을 그대로 사용할 때 매우 흔한 문제입니다. 모델은 항상 답을 주려고 하는데, 충분한 증거가 없으면 가장 가능성 높은 답을 제시합니다. 그 답은 대부분 틀릴 가능성이 높죠.”
Resolve AI의 대응책은 에이전트 간 계층적 검증 시스템입니다. 가설을 조사하는 각 에이전트는 자신이 의존한 모든 증거를 인용하고, 그 증거를 다른 에이전트에게 독립적인 검토를 위해 제시해야 합니다. 조사 에이전트는 근본 원인부터 증상까지 전체 인과 사슬을 구성해야 하며, 피어 에이전트는 논리상의 빈틈을 찾아 이론을 반증하려 시도합니다.
“많은 경우 에이전트가 논리적 빈틈을 발견해 이론을 반증합니다,” 라고 Xanthos는 말했습니다. “다층 방어와 에이전트 검증 덕분에 Resolve는 매우 정확하고 오도되지 않을 수 있습니다.”
동시에 그는 시스템이 ‘모른다’고 말할 수 있는 용기도 중요하다고 강조했습니다. “‘답을 가지고 있다’는 기준이 매우 높습니다. 그런 경우에는 ‘이게 내가 찾은 증거다. 여기서 갈 수 있는 세·네 가지 경로가 있지만, 이 문제가 확실히 원인이라고 완전히 증명하지는 못했다’라고 말합니다. 프로덕션에서 동작하는 시스템이 블랙박스가 될 수는 없습니다.” 잘못된 답변이 운영에 직접적인 영향을 미치는 분야에서는, 자신감 있는 출력보다 보정된 불확실성이 더 가치 있을 수 있습니다. 고객에게 직접 영향을 주는 장애 상황에서 엔지니어를 잘못된 방향으로 이끌면, 방지하려던 피해가 오히려 커질 수 있기 때문입니다.
절대 꺼지지 않는 백그라운드 에이전트 내부 구조
사고 대응을 넘어, Resolve AI는 엔지니어링 팀이 규모에 맞게 지속하기 어려운 지속적이고 종종 눈에 보이지 않는 운영 작업을 처리하도록 설계된 새로운 백그라운드 에이전트 클래스를 도입합니다.
이 에이전트들은 일정에 따라 실행되거나 이벤트(새 배포, 알림 발생, 풀 리퀘스트 병합 등)에 자동으로 깨어나며, 시간에 걸쳐 모든 조사와 인간 상호작용에서 축적된 조직 지식을 활용합니다. 엔지니어가 Resolve AI 인터페이스를 열면, 에이전트는 이미 작업을 진행하고 있습니다: 우선순위 이슈 사전 조사, 배포 모니터링, 알림 위생 감사, 설정 드리프트 표시, 비용 이상 징후 탐지 등.
Xanthos는 백그라운드 에이전트와 기존 사고 대응 에이전트를 구분했습니다. “이제 이 에이전트들을 언제든 백그라운드에서 실행할 수 있습니다—인간이 문제 디버깅을 요청하거나 알림이 발생했을 때만이 아니라.” 라고 그는 말했습니다. “많은 고객이 이제 프로덕션에 배포되기 전에 변경 사항을 모니터링하고 있습니다. 이를 지속적으로 감시하는 에이전트가 있습니다.”
그는 이러한 백그라운드 에이전트를 “모든 개발자가 사용할 수 있는 범용 SRE 에이전트”라고 설명했습니다. 이들은 클라우드 비용을 증가시킬 수 있는 인프라 변경 모니터링부터 사고 후 학습을 기반으로 코드 수정을 자동 생성하는 작업까지 다양한 업무를 수행합니다. 이 개념은 소프트웨어 운영의 구조적 문제를 해결합니다. 프로덕션 시스템을 건강하게 유지하기 위해 매일 해야 하는 작업(배포 모니터링, 알림 조사, 복잡한 환경 전반에 걸친 변경 추적 등)은 필수적이지만 반응적이고 수작업이 많습니다. 엔지니어링 조직은 이러한 작업이 필요함을 알지만, 기능 개발과 경쟁하게 됩니다. 지속적으로 이 작업을 수행하는 자동화된 에이전트는 팀을 반응형 화재 진압에서 선제적 운영 관리로 전환시킬 수 있습니다.
엔지니어와 AI 에이전트가 함께 조사하는 공유 작업 공간
이번 릴리스의 세 번째 주요 요소는 회사가 ‘공유 조사 표면’이라고 부르는 작업 공간입니다. 여기서는 엔지니어와 AI 에이전트가 실시간 사고 중에 동일한 라이브 증거를 기반으로 동시에 작업합니다. (이하 내용은 원문이 잘려 있어 이어서 제공되지 않았습니다.)