LLM 评估指南：何时在你的 AI 应用中添加在线评估

发布: 1个月前 (2025年12月18日 GMT+8 01:42)

12 min read

Source: Dev.to

Original article – 发布于2025年11月13日

快速决策框架

AI 配置的在线评估目前处于封闭测试阶段。必须先在项目中安装评估器，才能将其附加到 AI 配置的变体上。

在线评估为 LLM 应用提供实时质量监控。采用 LLM‑as‑a‑judge 方法论，它们会对生产流量中可配置比例的请求执行自动质量检查，生成结构化分数和通过/未通过的判断，供程序化处理。LaunchDarkly 内置了三种评估器：

accuracy
relevance
toxicity

跳过在线评估的情况

检查完全是确定性的（如模式验证、编译测试）
流量很低，能够在可观测性仪表盘中手动审查输出
主要在调试执行问题

添加在线评估的情况

需要量化的质量分数来触发自动化操作（回滚、重路由、告警）
手动质量审查无法满足流量规模
需要衡量多个质量维度（准确性、相关性、毒性）
想要在不同细分市场中获取统计质量趋势，以支持 AI 治理和合规
需要在监控代币使用量和成本的同时监控质量指标
正在进行 A/B 测试或受保护发布，需要自动化质量门

大多数团队在手动质量审查成为瓶颈时，会在 2‑3 个冲刺内加入在线评估。可配置的抽样率让你在评估覆盖率、成本和延迟之间取得平衡。

在线评估 vs. LLM 可观测性

LLM 可观测性展示了发生了什么。在线评估自动评估质量并根据评估结果触发操作。

LLM 可观测性：你的监控摄像头

LLM 可观测性通过分布式追踪展示所有发生的事情：完整对话、工具调用、令牌使用、延迟细分以及成本归属。它非常适合调试和了解出了什么问题。但当你每天处理 10 000 个对话时，手动审查它们以寻找质量模式并不可行。

在线评估：你的保安

使用 LLM‑as‑a‑judge 方法论，根据你的质量评分标准（准确性、相关性、毒性）对每个抽样请求自动打分并采取行动。无需将对话导出到电子表格进行人工审查，你即可获得实时质量监控、漂移检测，并在触发警报、回滚或重新路由。

凌晨 3 点的区别

没有评估：“我们明天开会审查样本，决定是否回滚。”
有评估：“质量低于阈值，自动回滚已触发，以下是失败的内容……”

Source: …

在线评估的实际工作原理

LaunchDarkly 的在线评估采用 LLM‑as‑a‑judge 方法，内置了三种评审员，可直接在仪表盘中配置——无需修改代码。

入门指南

从 AI Configs 菜单中安装评审员。
将评审员绑定到 AI Config 的变体上。
配置抽样率（在覆盖率与成本/延迟之间取得平衡）。
评估指标会自动以自定义事件的形式发出。
这些指标会自动用于 A/B 测试和受保护的发布。

每个内置评审员的输出

Accuracy judge（准确性评审员）

{
  "score": 0.85,
  "reasoning": "Response correctly answered the question but missed one edge case regarding error handling"
}

Relevance judge（相关性评审员）

{
  "score": 0.92,
  "reasoning": "Response directly addressed the user's query with appropriate context and examples"
}

Toxicity judge（有害性评审员）

{
  "score": 0.0,
  "reasoning": "Content is professional and appropriate with no toxic language detected"
}

每个评审员都会返回 0.0 到 1.0 之间的分数以及解释评估结果的 reasoning。内置评审员的评估标准是固定的，只需通过选择提供商和模型进行配置。

配置方法

在 LaunchDarkly 仪表盘的 AI Configs 菜单中安装评审员。
它们会以预配置的 AI Config 形式出现（例如 AI Judge – Accuracy）。
在 completion mode（完成模式）下配置 AI Config 变体时，选择要附加的评审员并设定所需的抽样率。
针对不同环境使用不同的评审员组合，以满足质量要求和成本约束。

在线评估解决的真实问题

面向生产应用的规模 – 您的 SQL 生成器每天处理 50 000 条查询。可观测性显示每条查询；在线评估会自动告诉您语义错误的比例，并内置幻觉检测。
多维质量监控 – 客服 AI 不仅仅是“是否有响应？”它必须准确、相关、无毒、合规且恰当。在线评估同时对所有维度打分，每个维度都有自己的阈值和推理。
RAG 流水线验证 – 检索增强生成系统需要持续监控检索质量和生成准确性。在线评估评估检索到的上下文是否相关，以及响应是否正确使用该上下文，从而防止幻觉并确保事实依据。
成本与性能优化 – 将 token 使用量与质量指标一起监控。如果某些查询消耗的 token 是其他查询的 10× ，在线评估帮助识别这些模式，以便您优化提示或路由逻辑，在不牺牲质量的前提下降低成本。
用于 AI 治理的可操作指标 – 将 10 000 条响应从数据转化为决策，使用评估驱动的质量门：
- 准确率下降到 0.8 以下？自动回滚。
- 相关性跌至 0.7 以下？触发切换到后备模型。
- 有害性超过 0.1？发出警报，立即进行人工审查。

团队警报

Toxicity above 0.2? 立即审查并可能回滚。
Relevance dropping for specific user segments? 进行有针对性的配置更新。
指标会自动提供给 A/B 测试和受控发布，以实现持续改进。

Source: …

示例实现路径

第 1‑2 周：定义质量维度并安装评审员

首先仅使用 LLM 可观测性。手动审查样本以了解你的系统。
定义你的质量维度（例如，准确性、相关性、毒性，或任何其他针对你的应用的标准）。
从 LaunchDarkly 的 AI Configs 菜单中安装内置评审员。

第 3‑4 周：通过抽样附加评审员

将评审员附加到 LaunchDarkly 中的 AI Config 变体。
从一两个关键评审员开始（准确性和相关性是不错的默认选择）。
将抽样率设置为 10 %–20 % 的流量，以在覆盖率、成本和延迟之间取得平衡。
将自动化得分与人工判断进行比较，以验证评审员是否适用于你的使用场景。

第 5 周起：通过质量门进行运营化

随着学习的深入，添加更多评估维度。
将得分连接到自动化操作和评估者驱动的质量门：
- 当 准确性低于 0.7 时，触发警报。
- 当 毒性超过 0.2 时，立即调查。
利用自定义事件和指标进行 A/B 测试以及受控发布，持续提升应用性能。

底线

您不需要在第一天就进行在线评估。先使用 LLM observability 通过分布式追踪来了解您的 AI 系统。
当您听到自己说“我们需要审查更多对话”，或“我们怎么知道质量在下降？”时，加入评估。

LaunchDarkly 的三个内置评判器（accuracy、relevance、toxicity）提供 LLM‑as‑a‑judge 评估，您可以将其附加到 completion mode 下的任何 AI Config 变体，并可配置抽样率。

Note: 在线评估目前仅适用于 completion‑mode AI Config。基于 Agent 的配置尚不支持。

评估指标会自动作为自定义事件发出，并直接输入到 A/B 测试和受保护的发布中，实现持续的 AI 治理和质量改进 无需代码更改。

LLM observability 是您的监控摄像头。在线评估是您的保安。

下一步

准备开始了吗？

如果您还没有账户，请注册一个免费的 LaunchDarkly 账户。

构建完整的质量流水线

AI Config CI/CD Pipeline – 为您的部署过程添加自动化质量门和 LLM‑as‑a‑judge 测试。
将离线评估（在 CI/CD 中）与在线评估（在生产中）相结合，实现全面的质量覆盖。

了解更多关于 AI Config 的信息

AI Config 文档 – 了解 AI Config 如何实现实时 LLM 配置。
在线评估文档 – 深入了解 judge 的安装和配置。
Guardrail 指标 – 在 A/B 测试和受保护发布期间监控质量。

实际案例

LaunchDarkly 仪表板中的 LLM 可观测性 – 使用分布式追踪跟踪您的 AI 应用性能。

行业标准

LaunchDarkly 的方法符合新兴的 AI 可观测性标准，包括 OpenTelemetry 的 AI 监控语义约定，确保您的评估基础设施能够与更广泛的可观测性生态系统集成。

LLM 评估指南：何时在你的 AI 应用中添加在线评估

快速决策框架

跳过在线评估的情况

添加在线评估的情况

在线评估 vs. LLM 可观测性

LLM 可观测性：你的监控摄像头

在线评估：你的保安

在线评估的实际工作原理

入门指南

每个内置评审员的输出

Accuracy judge（准确性评审员）

Relevance judge（相关性评审员）

Toxicity judge（有害性评审员）

配置方法

在线评估解决的真实问题

团队警报

示例实现路径

第 1‑2 周：定义质量维度并安装评审员

第 3‑4 周：通过抽样附加评审员

第 5 周起：通过质量门进行运营化

底线

下一步

准备开始了吗？

构建完整的质量流水线

了解更多关于 AI Config 的信息

实际案例

行业标准

相关文章

如何使用 Synthetic Data 评估 LLM Prompt：一步一步的指南

低代码 LLM 评估框架（n8n）：自动化测试指南

AI：真正的10倍生产力技巧

OpenAI 在部分国家推出有趣的 “Your Year with ChatGPT” 功能

快速决策框架

跳过在线评估的情况

添加在线评估的情况

在线评估 vs. LLM 可观测性

LLM 可观测性：你的监控摄像头

在线评估：你的保安

在线评估的实际工作原理

入门指南

每个内置评审员的输出

Accuracy judge（准确性评审员）

Relevance judge（相关性评审员）

Toxicity judge（有害性评审员）

配置方法

在线评估解决的真实问题

团队警报

示例实现路径

第 1‑2 周：定义质量维度并安装评审员

第 3‑4 周：通过抽样附加评审员

第 5 周起：通过质量门进行运营化

底线

下一步

准备开始了吗？

构建完整的质量流水线

了解更多关于 AI Config 的信息

实际案例

行业标准

相关文章

如何使用 Synthetic Data 评估 LLM Prompt：一步一步的指南

低代码 LLM 评估框架（n8n）：自动化测试指南

AI：真正的10倍生产力技巧

OpenAI 在部分国家推出有趣的 “Your Year with ChatGPT” 功能

第 1‑2 周：定义质量维度并安装评审员

第 3‑4 周：通过抽样附加评审员

第 5 周起：通过质量门进行运营化