Kalibr：用于 Agent 自我优化的基础设施

发布: 1周前 (2025年12月11日 GMT+8 07:56)

7 min read

Source: Dev.to

大多数代理今天会因为与逻辑错误无关的原因而崩溃。它们在一个永远无法保持稳定的环境中盲目运行，静态路由根本无法存活。模型行为会变化，提供商延迟会波动，工具会悄然退化，速率限制会莫名出现，JSON 解析在负载下表现也会不同。每个变量都是移动的目标，开发者被迫用只能捕获真实行为一小部分的日志来调试后果。

系统越大，盲目程度越严重。当一个复杂的代理系统在真实生产环境中出现可变性时，人为的优化就会变得事后且过时。这一瓶颈正在扼杀代理的采纳。

我们构建了 Kalibr 来消除它。

Kalibr 在每一次代理运行时捕获步骤级遥测，将这些数据聚合为真实系统情报，并为代理提供一个简单的 API，让其根据当前整个系统实际有效的情况，选择最安全、最便宜或最快的执行路径。

一行代码。
代理不再因你无法控制的原因而失败。

为什么代理会崩溃

现代多代理系统在 GPT、Claude、Gemini、内部工具和外部 API 之间生成成千上万的分支 LLM 调用。这些组件没有一个是稳定的；它们全部在漂移。

开发者无法回答基本问题：

• Why did cost jump 300 % this morning
• Why did latency triple on the same workflow
• Why is GPT hallucinating in a branch that worked yesterday
• Why does the same agent behave differently on the same input
• Where is the actual bottleneck in this chain of calls

仪表盘只能在它们“死掉”之后才显示内容。人工调试总是滞后；当你注意到问题时，优化已经过时。这个领域需要实时、运行时的情报，而不是事后分析。

Kalibr 的功能

1. 自动遥测捕获

每一次对 OpenAI、Anthropic、Google 以及本地模型的调用都会被拦截，且无需更改你的工作流。Kalibr 捕获：

持续时间
令牌使用量
成本
成功或失败
模型和提供商
父/子关系
时间戳

你的代理代码保持不变；SDK 会包装这些调用。这一基础层使得后续所有功能成为可能。

2. 多代理系统的分布式追踪

Kalibr 为每个工作流重建完整的执行图。如果某个分支崩溃，你可以看到：

崩溃发生的位置
崩溃的原因
导致它的上游决策
它触发的下游影响

类似 Datadog 的追踪，但专为代理工作负载而非微服务设计。

3. 智能 API

在代理执行一步之前，它可以向 Kalibr 提出唯一的问题：现在什么在工作？（不是上周，也不是几个月前你提交的路由文件）

Kalibr 根据以下因素返回模型推荐：

实时成功率
p50 与 p95 延迟
成本漂移
波动性
错误模式
整个系统最近的失败

路由从猜测转变为数据驱动的决策。

4. TraceCapsules 用于交接

当 Agent A 将任务交给 Agent B 时，B 会继承完整的执行历史：

使用了哪些模型
花费了多少
哪些失败
哪些成功

该胶囊随工作流一路传递直至完成。每一次跳转都会扩展记录，默认提供端到端的透明度。

5. 跨代理的共享学习

一个代理失败 → Kalibr 记录 → 下一个代理避免同样的错误。无需重新训练管道、共享代码或人工干预。情报层在系统运行时持续更新，阻止病态失败永远重复。

为什么这层不是可选的

代理运行在不稳定的环境中：

模型性能波动
成本变化
速率限制激增
外部工具退化
输入混乱
输出在不同运行间差异显著

所有这些都比人类的反应速度快，影响可靠性、正确性和成本。静态路由在面对现实时会瞬间失效。人工调试无法扩展。模型供应商永远不会公开跨供应商的洞察，仪表盘也无法为未来决策进行优化。如果代理要在真实工作负载中生存，它们需要一个共享的大脑——Kalibr 就是这个大脑。

结果

没有 Kalibr 时

代理盲目运行
失败无限循环
成本突增毫无预警
漂移无从解释
每个代理各自为政
规模扩展导致可靠性崩溃

有了 Kalibr 时

代理自动选择最优路径
失败转化为系统级学习
实时可视化取代猜测
路由变得自适应且稳定
成本和延迟趋于平稳
随系统运行，可靠性提升

我们正在构建代理系统在大规模下运行所需的情报基底。

安装 SDK。
包装你的 LLM 调用。
让系统自我学习。

代理从未拥有先见之明。现在它们拥有了。

Kalibr：用于 Agent 自我优化的基础设施

为什么代理会崩溃

Kalibr 的功能

1. 自动遥测捕获

2. 多代理系统的分布式追踪

3. 智能 API

4. TraceCapsules 用于交接

5. 跨代理的共享学习

为什么这层不是可选的

结果

没有 Kalibr 时

有了 Kalibr 时

相关文章

我们发现我们的网站在新加坡很慢，但在欧洲却很完美——原因如下

我把Game Boy放进ChatGPT（ChatGPT Apps）

使用 Microsoft Planner 的营销经理的一天

spaceorbust – 终端RPG，GitHub提交驱动太空文明