为什么可观测AI是企业实现可靠LLM所缺失的SRE层

发布: (2025年11月30日 GMT+8 03:00)
8 min read

Source: VentureBeat

为什么可观测性保障企业 AI 的未来

企业部署 LLM 系统的竞争,类似于云计算早期的采纳阶段。高管们热衷于其承诺;合规要求可追责;工程师只想要一条平坦的道路。

然而,在热情背后,大多数领导者承认他们无法追踪 AI 决策是如何做出的,是否对业务有帮助,或是否违反了任何规则。

以一家财富 100 强银行为例,该行部署了一个 LLM 来对贷款申请进行分类。基准准确率 看起来很出色。但六个月后,审计人员发现 18 % 的关键案件被错误路由,且没有任何警报或痕迹。根本原因既不是偏见也不是坏数据,而是不可见。没有可观测性,就没有可追责性。

如果你看不见它,就无法信任它。未被观测的 AI 将在沉默中失败。

可视性不是奢侈品;它是信任的基石。没有它,AI 将变得不可治理。

从结果出发,而非模型

大多数企业 AI 项目都是技术负责人先选模型,随后才定义成功指标。这是倒置的顺序。

颠倒顺序:

  • 先定义结果。 可衡量的业务目标是什么?
    • 减少 15 % 的账单呼叫
    • 将文档审查时间缩短 60 %
    • 将案件处理时间缩短两分钟
  • 围绕该结果设计遥测(telemetry), 而不是围绕“准确率”或“BLEU 分数”。
  • 选择能够显著推动这些 KPI 的提示、检索方法和模型。

在一家全球保险公司,将成功重新定义为“每笔理赔节省的分钟数”而非“模型精度”,使一个孤立的试点项目转变为全公司范围的路线图。

用于 LLM 可观测性的 3 层遥测模型

正如微服务依赖日志、指标和追踪,AI 系统也需要结构化的可观测性栈:

a) 提示和上下文 – 输入内容

  • 记录每个提示模板、变量和检索到的文档。
  • 记录模型 ID、版本、延迟和 token 数量(你的主要成本指标)。
  • 保持可审计的脱敏日志,显示哪些数据被遮蔽、何时以及由哪条规则执行。

b) 策略和控制 – 防护栏

  • 捕获安全过滤结果(毒性、PII)、引用存在性和规则触发。
  • 为每次部署存储策略原因和风险层级。
  • 将输出关联回治理模型卡,以实现透明。

c) 结果和反馈 – 是否有效?

  • 收集人工评分和接受答案的编辑距离。
  • 跟踪下游业务事件(案件关闭、文档批准、问题解决)。
  • 测量 KPI 的增量、通话时长、积压、重新打开率。

这三层通过共同的 trace ID 连接,使任何决策都可以被重放、审计或改进。

Diagram © SaiKrishna Koorapati (2025). Created specifically for this article; licensed to VentureBeat for publication.

应用 SRE 纪律:AI 的 SLO 与错误预算

服务可靠性工程(SRE)改变了软件运维;现在轮到 AI 了

为每个关键工作流定义三条“黄金信号”:

信号目标 SLO触发时的处理
真实性≥ 95 % 与记录来源核对回退到已验证的模板
安全性≥ 99.9 % 通过毒性/PII 过滤隔离并进行人工审查
有用性≥ 80 % 首次通过即被接受重新训练或回滚提示/模型

如果幻觉或拒绝率超过预算,系统会自动切换到更安全的提示或人工审查,就像服务中断时重新路由流量一样。

这不是官僚主义,而是将可靠性应用于推理过程。

在两个敏捷冲刺中构建轻量可观测层

你不需要六个月的路线图,只需专注并完成两个短冲刺。

冲刺 1(第 1‑3 周):基础设施

  • 受版本控制的提示注册表
  • 与策略绑定的脱敏中间件
  • 带 trace ID 的请求/响应日志
  • 基础评估(PII 检查、引用存在性)
  • 简单的人机交互(HITL)界面

冲刺 2(第 4‑6 周):防护栏与 KPI

  • 离线测试集(100–300 条真实示例)
  • 真实性和安全性的策略门
  • 轻量仪表盘,跟踪 SLO 与成本
  • 自动化 token 与延迟追踪

六周后,你将拥有能够回答 90 % 治理和产品问题的轻量层。

让评估持续进行(且不乏味)

评估不应是一次性的英雄式任务,而应是例行公事。

  • 从真实案例中策划测试集;每月刷新 10–20 %。
  • 定义清晰的接受标准,由产品和风险团队共同分享。
  • 在每次提示/模型/策略变更时运行测试套件,并每周进行漂移检查。
  • 每周发布一份统一的记分卡,覆盖真实性、安全性、有用性和成本。

当评估成为 CI/CD 的一部分,它们不再是合规秀场,而是运营脉搏检查。

在关键环节引入人工监督

完全自动化既不现实也不负责任。高风险或模糊的案例应升级至人工审查。

  • 将低置信度或被策略标记的响应路由给专家。
  • 捕获每一次编辑和原因,作为训练数据和审计证据。
  • 将审查者的反馈反馈到提示和策略中,实现持续改进。

在一家健康科技公司,这一做法将误报率降低了 22 %,并在数周内产出可重新训练、符合合规要求的数据集。

通过设计而非盲目期待来控制成本

(文章截断。)

Back to Blog

相关文章

阅读更多 »