우리는 AI 에이전트 협업을 위해 Message Buses를 Telemetry로 교체했습니다
Source: Dev.to
전통적인 메시지 버스의 과제
- 조정 오버헤드 – 명시적인 메시지 전달은 신중한 프로토콜 설계가 필요합니다.
- 디버깅 악몽 – 실패가 에이전트들 사이에 흩어져 있는 메시지들로부터 조각조각 맞춰야 합니다.
- 스케일링 문제 – 에이전트가 늘어날수록 라우팅 로직이 기하급수적으로 증가합니다.
- 상태 관리 – 에이전트들을 동기화하려면 복잡한 상태 머신이 요구됩니다.
이러한 문제들은 우리 AI 기반 개발 워크플로우에서 병목이 되었습니다.
조정 메커니즘으로서의 텔레메트리
명시적인 메시지를 보내는 대신, 각 에이전트는 구조화된 텔레메트리를 공유 관측 백엔드(예: SigNoz/ClickHouse)로 전송합니다. 그런 다음 에이전트는 그 텔레메트리를 조회하여 다른 에이전트가 무엇을 했는지 파악하고 다음 행동을 결정합니다.
Push 모델 → Stigmergic 모델: 에이전트는 직접적인 메시지보다 환경에 남긴 흔적에 반응합니다.
otel‑ops‑pack 핵심 루프
1. 모든 에이전트 작업이 텔레메트리 스팬이 된다
with tracer.start_as_current_span("agent_task") as span:
span.set_attribute("agent.id", "cursor-agent-1")
span.set_attribute("task.type", "code_generation")
span.set_attribute("task.status", "complete")
span.set_attribute("quality.score", 0.95)
# Do work...
2. 에이전트가 자신의 텔레메트리를 조회한다
def check_prerequisites(task_id):
"""Check if prerequisite tasks are complete by querying telemetry"""
query = f"""
SELECT status, quality_score
FROM spans
WHERE task_parent_id = '{task_id}'
AND status = 'complete'
"""
results = telemetry_client.query(query)
return len(results) > 0
3. 자발적 조정
에이전트들은 단일 진실의 원천을 공유하기 때문에 자연스럽게 조정됩니다. 명시적인 메시지는 필요 없으며, 감사 추적이 자동으로 구축됩니다.
증거 기반 거버넌스
텔레메트리 기반 조정 위에 BossCat이라는 증거 우선 거버넌스 프레임워크를 구축했습니다. 게이트는 진행을 허용하기 전에 구체적인 텔레메트리 증거를 요구하는 체크포인트 역할을 합니다.
Evidence Rule – 에이전트는 단순히 “보안 검증 통과”라고 주장할 수 없습니다. 보안 도구가 출력한 스팬 ID를 제공해야 하며, 이는 허위 컴플라이언스를 방지합니다.
gate_requirements:
- name: "security_scan"
evidence_type: "telemetry_span"
span_name: "security_scan_complete"
required_attributes:
- "vulnerabilities.critical: 0"
결과
- **96 %**의 게이트가 첫 시도에서 통과.
- 복잡한 워크플로우의 디버깅 시간이 몇 시간에서 몇 초로 감소.
- 조정 로직이 ≈ 85 % 감소.
왜 중요한가
자율 스웜이 표준이 되면서, 취약한 메시지 버스는 필요한 신뢰성을 유지할 수 없습니다. 텔레메트리 기반 아키텍처는 설계상으로 자체 문서화, 자체 감사, 자체 교정이 가능하여 미래 AI 인프라의 견고한 기반을 제공합니다.
오픈 소스
우리는 otel‑ops‑pack을 오픈소스로 공개하여 다른 사람들이 에이전트 시스템에 텔레메트리‑우선 조정을 도입할 수 있도록 돕고 있습니다.