为什么可观测AI是企业实现可靠LLM所缺失的SRE层
Source: VentureBeat
为什么可观测性保障企业 AI 的未来
企业部署 LLM 系统的竞争,类似于云计算早期的采纳阶段。高管们热衷于其承诺;合规要求可追责;工程师只想要一条平坦的道路。
然而,在热情背后,大多数领导者承认他们无法追踪 AI 决策是如何做出的,是否对业务有帮助,或是否违反了任何规则。
以一家财富 100 强银行为例,该行部署了一个 LLM 来对贷款申请进行分类。基准准确率 看起来很出色。但六个月后,审计人员发现 18 % 的关键案件被错误路由,且没有任何警报或痕迹。根本原因既不是偏见也不是坏数据,而是不可见。没有可观测性,就没有可追责性。
如果你看不见它,就无法信任它。未被观测的 AI 将在沉默中失败。
可视性不是奢侈品;它是信任的基石。没有它,AI 将变得不可治理。
从结果出发,而非模型
大多数企业 AI 项目都是技术负责人先选模型,随后才定义成功指标。这是倒置的顺序。
颠倒顺序:
- 先定义结果。 可衡量的业务目标是什么?
- 减少 15 % 的账单呼叫
- 将文档审查时间缩短 60 %
- 将案件处理时间缩短两分钟
- 围绕该结果设计遥测(telemetry), 而不是围绕“准确率”或“BLEU 分数”。
- 选择能够显著推动这些 KPI 的提示、检索方法和模型。
在一家全球保险公司,将成功重新定义为“每笔理赔节省的分钟数”而非“模型精度”,使一个孤立的试点项目转变为全公司范围的路线图。
用于 LLM 可观测性的 3 层遥测模型
正如微服务依赖日志、指标和追踪,AI 系统也需要结构化的可观测性栈:
a) 提示和上下文 – 输入内容
- 记录每个提示模板、变量和检索到的文档。
- 记录模型 ID、版本、延迟和 token 数量(你的主要成本指标)。
- 保持可审计的脱敏日志,显示哪些数据被遮蔽、何时以及由哪条规则执行。
b) 策略和控制 – 防护栏
- 捕获安全过滤结果(毒性、PII)、引用存在性和规则触发。
- 为每次部署存储策略原因和风险层级。
- 将输出关联回治理模型卡,以实现透明。
c) 结果和反馈 – 是否有效?
- 收集人工评分和接受答案的编辑距离。
- 跟踪下游业务事件(案件关闭、文档批准、问题解决)。
- 测量 KPI 的增量、通话时长、积压、重新打开率。
这三层通过共同的 trace ID 连接,使任何决策都可以被重放、审计或改进。
Diagram © SaiKrishna Koorapati (2025). Created specifically for this article; licensed to VentureBeat for publication.
应用 SRE 纪律:AI 的 SLO 与错误预算
服务可靠性工程(SRE)改变了软件运维;现在轮到 AI 了。
为每个关键工作流定义三条“黄金信号”:
| 信号 | 目标 SLO | 触发时的处理 |
|---|---|---|
| 真实性 | ≥ 95 % 与记录来源核对 | 回退到已验证的模板 |
| 安全性 | ≥ 99.9 % 通过毒性/PII 过滤 | 隔离并进行人工审查 |
| 有用性 | ≥ 80 % 首次通过即被接受 | 重新训练或回滚提示/模型 |
如果幻觉或拒绝率超过预算,系统会自动切换到更安全的提示或人工审查,就像服务中断时重新路由流量一样。
这不是官僚主义,而是将可靠性应用于推理过程。
在两个敏捷冲刺中构建轻量可观测层
你不需要六个月的路线图,只需专注并完成两个短冲刺。
冲刺 1(第 1‑3 周):基础设施
- 受版本控制的提示注册表
- 与策略绑定的脱敏中间件
- 带 trace ID 的请求/响应日志
- 基础评估(PII 检查、引用存在性)
- 简单的人机交互(HITL)界面
冲刺 2(第 4‑6 周):防护栏与 KPI
- 离线测试集(100–300 条真实示例)
- 真实性和安全性的策略门
- 轻量仪表盘,跟踪 SLO 与成本
- 自动化 token 与延迟追踪
六周后,你将拥有能够回答 90 % 治理和产品问题的轻量层。
让评估持续进行(且不乏味)
评估不应是一次性的英雄式任务,而应是例行公事。
- 从真实案例中策划测试集;每月刷新 10–20 %。
- 定义清晰的接受标准,由产品和风险团队共同分享。
- 在每次提示/模型/策略变更时运行测试套件,并每周进行漂移检查。
- 每周发布一份统一的记分卡,覆盖真实性、安全性、有用性和成本。
当评估成为 CI/CD 的一部分,它们不再是合规秀场,而是运营脉搏检查。
在关键环节引入人工监督
完全自动化既不现实也不负责任。高风险或模糊的案例应升级至人工审查。
- 将低置信度或被策略标记的响应路由给专家。
- 捕获每一次编辑和原因,作为训练数据和审计证据。
- 将审查者的反馈反馈到提示和策略中,实现持续改进。
在一家健康科技公司,这一做法将误报率降低了 22 %,并在数周内产出可重新训练、符合合规要求的数据集。
通过设计而非盲目期待来控制成本
(文章截断。)