第2天 | 🎅 他知道你是好人还是坏人……但如果他判断错了呢?
Source: Dev.to
介绍
“小时候我们接受了圣诞老人会知道我们是淘气还是乖巧的魔法。作为 2025 年的工程师,我们需要了解这个‘好孩子‑坏孩子’系统背后的机制,并在出现问题时能够观察到它。”
圣诞老人的 AI 架构
圣诞老人的运作可以视为一个三层 AI 系统:
| 层 | 责任 |
|---|---|
| Input | 收集约 20 亿儿童的行为数据,使用积分制(例如,“与兄弟姐妹分享玩具” +10,“在商店发脾气” ‑5)。 |
| Processing | 运行多个 AI 代理: • Data Agent – 收集并组织事件。 • Context Agent – 检索信件、过去行为、家庭情况。 • Judgment Agent – 计算好孩子/坏孩子分数。 • Gift Agent – 根据决策推荐礼物。 |
| Integration | 连接到 MCP 服务器,获取玩具库存、礼物偏好、配送路线和预算跟踪。 |
系统可以扩展,但一旦出现故障,调试将变得异常困难。
故障场景
Christmas Eve, 11:47 PM – 一位家长怒气冲冲地打来电话。7 岁的 Emma 一直是模范儿童,理应收到她请求的自行车,却收到 Naughty List – No Gift。
日志摘录:
Emma's judgment: 421 NICE points vs 189 NAUGHTY points
Gift Agent checks bicycle inventory → TIMEOUT
Gift Agent retries → TIMEOUT
Gift Agent retries again → TIMEOUT
Gift Agent checks inventory again → Count changed
Gift Agent reasoning: "Inventory uncertain, cannot fulfill request"
Gift Agent defaults to: NAUGHTY LIST
玩具库存 MCP 过载,导致超时。Gift Agent 将连续三次超时解释为“无法满足请求”,并默认最坏的结果,尽管 Emma 并没有淘气。
为什么传统调试不足
- 使用经典 API 时,你可以定位到具体代码行,修复后重新部署。
- 使用 AI 代理时,“bug”存在于模型的推理中(700 亿参数),而不是显式代码。
你只能看到输入和输出;内部神经网络的推理是不可见的,并且由于 temperature 设置和抽样随机性,同一次决策的复现并不可靠。
非确定性结果示例
| 运行 | 结果 |
|---|---|
| 1 | NICE LIST, gift = bicycle ✓ |
| 2 | NICE LIST, gift = video game ✓ |
| 3 | NICE LIST, gift = art supplies ✓ |
| 4 | NAUGHTY LIST, no gift ✗ |
AI 可观测性的核心挑战
- 黑箱推理 – 需要了解 为什么 做出决策,而不仅仅是 返回了什么。
- 可复现性 – 相同输入可能产生不同输出;可观测性必须捕获推理路径。
- 质量评估 – 判断一个裁决是否符合业务价值(例如,“这个孩子是淘气还是乖巧?”)。
- 成本控制 – 未受控的 token 使用会爆炸(例如,一篇 15 k‑词的作文会消耗 53 500 个 token)。
- 级联故障 – 单一故障(超时)可能触发一连串推理,导致不良的默认结果。
构建可观测性层
1. 基础(分布式追踪 & 指标)
- 在代理之间追踪请求:Data → Context → Judgment → Gift。
- 捕获延迟细分、每次请求的 token 使用、按代理划分的成本归属以及工具调用成功率。
- 对 MCP 服务器健康问题和成本激增设置警报。
2. 语义可观测性
- 记录完整的提示、检索到的上下文、工具调用及其结果、推理链和每次决策的置信度分数。
- 使 Emma 案例可重放:Gift Agent 看到三次超时,将 “inventory uncertain” 解释为 “cannot fulfill request”,于是默认 NAUGHTY LIST。
3. 在线评估
- 持续评估生产环境中的决策质量。
- 使用 LLM‑as‑a‑judge 对抽样决策进行准确性、公平性等评分,并在阈值被突破时触发自动化操作(例如回滚)。
示例评估负载
{
"accuracy": {
"score": 0.3,
"reasoning": "Timeouts should trigger retry logic, not default to worst‑case outcome. System error conflated with behavioral judgment."
},
"fairness": {
"score": 0.4,
"reasoning": "Similar timeout patterns resulted in NICE determination for other children. Inconsistent failure handling."
}
}
没有评估:“我们明天开会讨论 Emma 的案例。”
有评估:“‘超时级联导致 NAUGHTY’模式的准确率跌破 0.7。自动回滚已触发,受影响案例 23 起。”
LaunchDarkly 的解决方案
LaunchDarkly 将 AI 可观测性、在线评估和功能管理相结合,为你提供:
- 开箱即用的追踪,覆盖代理网络和 MCP 交互。
- 语义日志,捕获提示、上下文、工具调用、推理和置信度。
- 持续评估,为决策打分并强制质量阈值。
- 功能标记,用于守护发布并安全实验新的推理模式。
通过层层叠加这些能力,你不仅可以调试 AI 代理做了什么,还能了解 它为什么这么做,控制成本,保持生产系统的可信度。
结论
AI 代理的可观测性需要超越传统日志。它要求追踪、对推理的语义洞察以及自动化的质量评估。借助三层方法——基础、语义可观测性和在线评估——你可以将神秘的 AI 行为转化为可操作、可复现的情报,就像圣诞老人的工坊需要确保每个孩子的魔法都可靠一样。