Kalibr: 에이전트 자체 최적화를 위한 인프라

발행: 1주 전 (2025년 12월 11일 오전 08:56 GMT+9)

10 min read

Source: Dev.to

대부분의 에이전트는 논리 오류와는 무관한 이유로 중단됩니다. 이들은 환경이 충분히 안정되지 않아 정적 라우팅이 살아남을 수 없는 상황에서 눈을 가리고 작동합니다. 모델 동작이 변하고, 제공자 지연 시간이 흔들리며, 도구가 조용히 성능이 저하되고, 레이트 제한이 갑자기 나타나고, JSON 파싱이 부하 하에서 다르게 동작합니다. 모든 변수가 움직이는 목표이며, 개발자는 실제 동작의 일부분만 포착하는 로그로 문제를 디버깅해야 합니다.

시스템이 클수록 눈이 더 멀게 됩니다. 인간의 최적화는 복잡한 에이전트 시스템이 실제 운영 변동성을 맞닥뜨리는 순간 되돌아가게 되고 쓸모 없게 됩니다. 이 병목 현상이 에이전트 채택을 방해하고 있습니다.

우리는 Kalibr를 만들어 이 문제를 없앴습니다.

Kalibr는 모든 에이전트 실행에서 단계‑별 텔레메트리를 캡처하고, 그 데이터를 실제 시스템 인텔리전스로 집계하며, 에이전트에게 현재 전체 시스템에서 실제로 작동하고 있는 가장 안전하고, 저렴하며, 빠른 실행 경로를 선택하도록 하는 간단한 API를 제공합니다.

한 줄의 코드.
에이전트는 더 이상 제어할 수 없는 이유로 실패하지 않습니다.

왜 에이전트가 중단되는가

현대의 다중‑에이전트 시스템은 GPT, Claude, Gemini, 내부 도구, 외부 API 등 수천 개의 분기 LLM 호출을 생성합니다. 이 구성 요소들은 어느 하나도 안정적이지 않으며, 모두가 점점 변합니다.

개발자는 기본적인 질문에 답할 방법이 없습니다:

• 왜 오늘 아침 비용이 300 % 급등했는가
• 왜 같은 워크플로우에서 지연 시간이 세 배가 되었는가
• 왜 어제는 정상 작동하던 브랜치에서 GPT가 환각을 일으키는가
• 왜 같은 입력에 대해 같은 에이전트가 다르게 행동하는가
• 이 호출 체인에서 실제 병목은 어디인가

대시보드는 죽은 뒤의 몸통만 보여줍니다. 인간 디버깅은 언제나 늦으며, 문제가 눈에 띄는 순간 최적화는 이미 구시대적입니다. 이 영역은 사후 분석이 아닌 실시간 런타임 인텔리전스를 필요로 합니다.

Kalibr가 하는 일

1. 자동 텔레메트리 캡처

OpenAI, Anthropic, Google, 로컬 모델 호출을 워크플로우를 바꾸지 않고 가로채어 캡처합니다. Kalibr가 수집하는 항목:

실행 시간
토큰 사용량
비용
성공 여부 또는 실패 여부
모델 및 제공자
부모/자식 관계
타임스탬프

에이전트 코드는 그대로 유지됩니다; SDK가 호출을 래핑합니다. 이 기본 레이어가 나머지 모든 기능을 가능하게 합니다.

2. 다중‑에이전트 시스템을 위한 분산 트레이싱

Kalibr는 각 워크플로우에 대한 전체 실행 그래프를 재구성합니다. 브랜치가 붕괴되면 다음을 확인할 수 있습니다:

어디서 붕괴됐는가
왜 붕괴됐는가
어떤 상위 결정이 이를 초래했는가
어떤 하위 효과가 발생했는가

마이크로서비스용 Datadog‑스타일 트레이싱이지만, 에이전트 워크로드에 맞춰 구축되었습니다.

3. 인텔리전스 API

에이전트가 단계를 실행하기 전에 Kalibr에 단 하나의 질문을 할 수 있습니다: 지금 무엇이 작동하고 있는가? (지난 주가 아니라, 몇 달 전 커밋한 라우팅 파일도 아닙니다.)

Kalibr는 다음을 기반으로 모델 추천을 반환합니다:

실시간 성공률
p50 및 p95 지연 시간
비용 변동
변동성
오류 패턴
전체 시스템에서 최근 발생한 실패

라우팅이 추측이 아닌 데이터‑드리븐 결정이 됩니다.

4. Handoff을 위한 TraceCapsules

Agent A가 Agent B에게 작업을 넘길 때, B는 전체 실행 이력을 그대로 이어받습니다:

어떤 모델이 사용됐는가
얼마나 비용이 소모됐는가
어떤 것이 실패했는가
어떤 것이 성공했는가

캡슐은 워크플로우가 완료될 때까지 함께 이동합니다. 각 홉마다 기록이 확장되어 기본적으로 엔드‑투‑엔드 투명성을 제공합니다.

5. 에이전트 간 공유 학습

한 에이전트가 실패 → Kalibr가 로그 기록 → 다음 에이전트가 동일한 실수를 회피합니다. 재학습 파이프라인도, 공유 코드도, 수동 개입도 필요 없습니다. 인텔리전스 레이어는 시스템이 실행되는 동안 지속적으로 업데이트되어 병적인 실패가 영원히 반복되는 것을 방지합니다.

왜 이 레이어는 선택 사항이 아닌가

에이전트는 불안정한 환경 안에서 작동합니다:

모델 성능이 변동
비용이 변동
레이트 제한이 급증
외부 도구가 성능 저하
입력이 혼란스러움
출력이 실행마다 다름

이 모든 현상이 인간이 반응할 수 있는 속도보다 빠르게 일어나 신뢰성, 정확성, 비용에 영향을 미칩니다. 정적 라우팅은 현실과 마주하면 바로 사라집니다. 수동 디버깅은 확장되지 않습니다. 모델 공급자는 교차‑제공자 인사이트를 절대 제공하지 않으며, 대시보드는 미래 결정을 최적화할 수 없습니다. 에이전트가 실제 워크로드에서 살아남으려면 공유된 두뇌가 필요합니다—Kalibr가 바로 그 두뇌입니다.

결과

Kalibr 없이

에이전트가 눈을 가리고 실행
실패가 끝없이 반복
비용 급등이 경고 없이 발생
드리프트 원인 불명
각 에이전트가 독립적으로 학습
규모가 커질수록 신뢰성 붕괴

Kalibr와 함께

에이전트가 최적 경로를 자동 선택
실패가 시스템 전체 학습으로 전환
실시간 가시성이 추측을 대체
라우팅이 적응형이며 안정적
비용과 지연이 평탄화
시스템이 실행될수록 신뢰성 향상

우리는 에이전트 시스템이 대규모로 작동하기 위해 필요한 인텔리전스 기판을 구축하고 있습니다.

SDK를 설치합니다.
LLM 호출을 래핑합니다.
시스템이 스스로 학습하도록 둡니다.

에이전트는 이제 예지력을 갖게 되었습니다.

Kalibr: 에이전트 자체 최적화를 위한 인프라

왜 에이전트가 중단되는가

Kalibr가 하는 일

1. 자동 텔레메트리 캡처

2. 다중‑에이전트 시스템을 위한 분산 트레이싱

3. 인텔리전스 API

4. Handoff을 위한 TraceCapsules

5. 에이전트 간 공유 학습

왜 이 레이어는 선택 사항이 아닌가

결과

Kalibr 없이

Kalibr와 함께

관련 글

우리 사이트가 싱가포르에서는 느리고 유럽에서는 완벽했는데, 그 이유는.

나는 Game Boy를 ChatGPT 안에 넣었다 (ChatGPT Apps)

Microsoft Planner를 사용하는 마케팅 매니저의 하루

spaceorbust – GitHub 커밋으로 우주 문명을 움직이는 터미널 RPG