为什么可观测AI是企业实现可靠LLM所缺失的SRE层

发布: 2个月前 (2025年11月30日 GMT+8 03:00)

8 分钟阅读

Source: VentureBeat

为什么可观测性保障企业 AI 的未来

企业部署 LLM 系统的竞争，类似于云计算早期的采纳阶段。高管们热衷于其承诺；合规要求可追责；工程师只想要一条平坦的道路。

然而，在热情背后，大多数领导者承认他们无法追踪 AI 决策是如何做出的，是否对业务有帮助，或是否违反了任何规则。

以一家财富 100 强银行为例，该行部署了一个 LLM 来对贷款申请进行分类。基准准确率看起来很出色。但六个月后，审计人员发现 18 % 的关键案件被错误路由，且没有任何警报或痕迹。根本原因既不是偏见也不是坏数据，而是不可见。没有可观测性，就没有可追责性。

如果你看不见它，就无法信任它。未被观测的 AI 将在沉默中失败。

可视性不是奢侈品；它是信任的基石。没有它，AI 将变得不可治理。

从结果出发，而非模型

大多数企业 AI 项目都是技术负责人先选模型，随后才定义成功指标。这是倒置的顺序。

颠倒顺序：

先定义结果。 可衡量的业务目标是什么？
- 减少 15 % 的账单呼叫
- 将文档审查时间缩短 60 %
- 将案件处理时间缩短两分钟
围绕该结果设计遥测（telemetry）， 而不是围绕“准确率”或“BLEU 分数”。
选择能够显著推动这些 KPI 的提示、检索方法和模型。

在一家全球保险公司，将成功重新定义为“每笔理赔节省的分钟数”而非“模型精度”，使一个孤立的试点项目转变为全公司范围的路线图。

用于 LLM 可观测性的 3 层遥测模型

正如微服务依赖日志、指标和追踪，AI 系统也需要结构化的可观测性栈：

a) 提示和上下文 – 输入内容

记录每个提示模板、变量和检索到的文档。
记录模型 ID、版本、延迟和 token 数量（你的主要成本指标）。
保持可审计的脱敏日志，显示哪些数据被遮蔽、何时以及由哪条规则执行。

b) 策略和控制 – 防护栏

捕获安全过滤结果（毒性、PII）、引用存在性和规则触发。
为每次部署存储策略原因和风险层级。
将输出关联回治理模型卡，以实现透明。

c) 结果和反馈 – 是否有效？

收集人工评分和接受答案的编辑距离。
跟踪下游业务事件（案件关闭、文档批准、问题解决）。
测量 KPI 的增量、通话时长、积压、重新打开率。

这三层通过共同的 trace ID 连接，使任何决策都可以被重放、审计或改进。

Diagram © SaiKrishna Koorapati (2025). Created specifically for this article; licensed to VentureBeat for publication.

应用 SRE 纪律：AI 的 SLO 与错误预算

服务可靠性工程（SRE）改变了软件运维；现在轮到 AI 了。

为每个关键工作流定义三条“黄金信号”：

信号	目标 SLO	触发时的处理
真实性	≥ 95 % 与记录来源核对	回退到已验证的模板
安全性	≥ 99.9 % 通过毒性/PII 过滤	隔离并进行人工审查
有用性	≥ 80 % 首次通过即被接受	重新训练或回滚提示/模型

如果幻觉或拒绝率超过预算，系统会自动切换到更安全的提示或人工审查，就像服务中断时重新路由流量一样。

这不是官僚主义，而是将可靠性应用于推理过程。

在两个敏捷冲刺中构建轻量可观测层

你不需要六个月的路线图，只需专注并完成两个短冲刺。

冲刺 1（第 1‑3 周）：基础设施

受版本控制的提示注册表
与策略绑定的脱敏中间件
带 trace ID 的请求/响应日志
基础评估（PII 检查、引用存在性）
简单的人机交互（HITL）界面

冲刺 2（第 4‑6 周）：防护栏与 KPI

离线测试集（100–300 条真实示例）
真实性和安全性的策略门
轻量仪表盘，跟踪 SLO 与成本
自动化 token 与延迟追踪

六周后，你将拥有能够回答 90 % 治理和产品问题的轻量层。

让评估持续进行（且不乏味）

评估不应是一次性的英雄式任务，而应是例行公事。

从真实案例中策划测试集；每月刷新 10–20 %。
定义清晰的接受标准，由产品和风险团队共同分享。
在每次提示/模型/策略变更时运行测试套件，并每周进行漂移检查。
每周发布一份统一的记分卡，覆盖真实性、安全性、有用性和成本。

当评估成为 CI/CD 的一部分，它们不再是合规秀场，而是运营脉搏检查。

在关键环节引入人工监督

完全自动化既不现实也不负责任。高风险或模糊的案例应升级至人工审查。

将低置信度或被策略标记的响应路由给专家。
捕获每一次编辑和原因，作为训练数据和审计证据。
将审查者的反馈反馈到提示和策略中，实现持续改进。

在一家健康科技公司，这一做法将误报率降低了 22 %，并在数周内产出可重新训练、符合合规要求的数据集。

通过设计而非盲目期待来控制成本

(文章截断。)

为什么可观测AI是企业实现可靠LLM所缺失的SRE层

为什么可观测性保障企业 AI 的未来

从结果出发，而非模型

用于 LLM 可观测性的 3 层遥测模型

a) 提示和上下文 – 输入内容

b) 策略和控制 – 防护栏

c) 结果和反馈 – 是否有效？

应用 SRE 纪律：AI 的 SLO 与错误预算

在两个敏捷冲刺中构建轻量可观测层

冲刺 1（第 1‑3 周）：基础设施

冲刺 2（第 4‑6 周）：防护栏与 KPI

让评估持续进行（且不乏味）

在关键环节引入人工监督

通过设计而非盲目期待来控制成本

相关文章

AI模型阻止了87%的单次攻击，但在攻击者持续攻击时仅阻止8%

Accenture 与 OpenAI 加速企业 AI 成功

OpenAI取得Thrive Holdings的所有权股份，以加速企业 AI 采用

[论文] AI/ML 模型卡在 Edge AI 网络基础设施中：迈向 Agentic AI

为什么可观测性保障企业 AI 的未来

从结果出发，而非模型

用于 LLM 可观测性的 3 层遥测模型

a) 提示和上下文 – 输入内容

b) 策略和控制 – 防护栏

c) 结果和反馈 – 是否有效？

应用 SRE 纪律：AI 的 SLO 与错误预算

在两个敏捷冲刺中构建轻量可观测层

冲刺 1（第 1‑3 周）：基础设施

冲刺 2（第 4‑6 周）：防护栏与 KPI

让评估持续进行（且不乏味）

在关键环节引入人工监督

通过设计而非盲目期待来控制成本

相关文章

AI模型阻止了87%的单次攻击，但在攻击者持续攻击时仅阻止8%

Accenture 与 OpenAI 加速企业 AI 成功

OpenAI取得Thrive Holdings的所有权股份，以加速企业 AI 采用

[论文] AI/ML 模型卡在 Edge AI 网络基础设施中：迈向 Agentic AI

冲刺 1（第 1‑3 周）：基础设施

冲刺 2（第 4‑6 周）：防护栏与 KPI

OpenAI取得Thrive Holdings的所有权股份，以加速企业 AI 采用