Kalibr：如果你手动调试Agent，你已经落后了

发布: 1天前 (2026年1月19日 GMT+8 11:35)

7 min read

原文: Dev.to

Source: Dev.to

有一个瓶颈正在扼杀生产环境中的 AI 代理。
这并不是模型质量、提示词或工具的问题。
瓶颈是你——更准确地说，是一种假设始终有人类在场维持运行的架构。

某些东西出现退化。必须有人类注意到、诊断、决定要更改什么，并部署修复。
这个循环就是限制因素。它慢、间歇性、夜间不工作，且无法扩展到每小时做出数千次决策的系统。

什么是代理可靠性

这就是当前的默认设置。

代理的成功率会略微下降。没有错误。JSON 仍然通过验证。日志看起来正常。但随着时间推移，延迟漂移，成功率下降，成本上升，边缘案例堆积。

最终有人注意到，警报触发，或客户投诉。于是流程开始：检查仪表盘，深入追踪，争论是模型、提示词还是工具的问题，发布更改，并希望它有效。

最佳情况： 恢复需要数小时。
典型情况： 需要数天。
最坏情况： 从未发生，因为没人注意到。

这就是 2026 年生产环境中“自主代理”的实际表现。

为什么这是一次架构失败

在其他所有成熟系统中，人类并不负责实时路由决策。

人类不进行数据包路由。
人类不对数据库进行再平衡。
人类不决定容器的运行位置。

如果把后端描述为“我们依赖工程师监视仪表盘并在出现故障时手动切换”，听起来会像个笑话——或者是2008年的一家创业公司。之所以把这些决策交给系统，是因为人类在可靠地做大量快速、重复的决策方面表现不佳。代理也没有本质区别；只不过我们尚未构建相应的抽象。把监视仪表盘和调节配置视为可接受的做法只是一种权宜之计，而不是解决方案。

当你去除人工环路会发生什么变化

想象一个系统，其中每个模型‑工具组合都被视为一条路径。每次执行后都会报告结果，概率在线更新，性能变化时流量会自动转移。当出现退化时，系统会绕过它——没有警报、没有仪表盘、没有事故。从用户的角度来看，什么也没有坏掉。

这不是优化，而是另一种可靠性模型。这正是 Kalibr 所做的：它学习在给定目标下哪些执行路径效果最佳，并相应地进行路由，而无需人在恢复环路中介入。可靠性始终是首要目标；其他考虑只有在成功得到保证后才会重要。

为什么这会随时间复合

一个持续运行的系统会收集干净的结果数据，学习更快，并持续改进。
一个宕机的系统会产生噪声数据，需要事后分析才能运行，并且每次故障时学习速度都会变慢。

人类仍然的作用

这并不是关于“取代人类”。人类仍然：

定义目标。
设计执行路径。
决定成功的意义。
改进策略。

人类只需停止为概率系统进行事件响应，而是转向更有杠杆作用的上游环节。任何需要人类日常维持运行的代理系统，都将输给只需要人类来改进的系统。

后果

可观测性是必要的，但不足以解决全部问题。
离线评估有用，但并不完整。
人在环中的调试无法规模化。

内部化这些理念的团队将交付真正有效的代理系统；其余团队则会继续在同样的火灾中苦苦挣扎。

这是一种决策边界的转变

可观测性工具： 将数据交给人类；人类决定。
路由系统： 将决策移入系统；人类监督。

这种区别很重要。当决策边界转移时，基础设施会进步：TCP 将数据包路由移至网络，编译器将硬件翻译移至软件，Kubernetes 将调度移至控制平面。决定当前代理应使用哪种模型也属于同一类。

在此失效的情况

There are limits:

Cold start 仍然需要判断；每条路径大约需要 20–50 个结果，路由才能变得自信。
Bad success metrics 会导致糟糕的优化。
某些任务本质上是模糊的。

These constraints define the boundary of where this approach works; they don’t change the direction of travel.

我所打的赌

代理已经在做比人类能够合理监督的更多的决策。将人类从可靠性循环中移除的抽象将会获胜，因为注意力是无法扩展的。这样的抽象必然会出现。

这就是我创建的公司：Kalibr。如果你的代理每天要做同样的决策数百次甚至上千次，这个问题已经在耗费你的成本。如果你仍然在手动为单个代理接线，你现在可以忽略它——但不会太久。

Kalibr：如果你手动调试Agent，你已经落后了

什么是代理可靠性

为什么这是一次架构失败

当你去除人工环路会发生什么变化

为什么这会随时间复合

人类仍然的作用

后果

这是一种决策边界的转变

在此失效的情况

我所打的赌

相关文章

Rapg：基于 TUI 的密钥管理器

技术是赋能者，而非救世主

行业调查：编码更快，调试更慢

踏入 agentic coding