LLM 评估指南:何时在你的 AI 应用中添加在线评估
Source: Dev.to
Original article – 发布于2025年11月13日
快速决策框架
AI 配置的在线评估目前处于封闭测试阶段。必须先在项目中安装评估器,才能将其附加到 AI 配置的变体上。
在线评估为 LLM 应用提供实时质量监控。采用 LLM‑as‑a‑judge 方法论,它们会对生产流量中可配置比例的请求执行自动质量检查,生成结构化分数和通过/未通过的判断,供程序化处理。LaunchDarkly 内置了三种评估器:
- accuracy
- relevance
- toxicity
跳过在线评估的情况
- 检查完全是确定性的(如模式验证、编译测试)
- 流量很低,能够在可观测性仪表盘中手动审查输出
- 主要在调试执行问题
添加在线评估的情况
- 需要量化的质量分数来触发自动化操作(回滚、重路由、告警)
- 手动质量审查无法满足流量规模
- 需要衡量多个质量维度(准确性、相关性、毒性)
- 想要在不同细分市场中获取统计质量趋势,以支持 AI 治理和合规
- 需要在监控代币使用量和成本的同时监控质量指标
- 正在进行 A/B 测试或受保护发布,需要自动化质量门
大多数团队在手动质量审查成为瓶颈时,会在 2‑3 个冲刺内加入在线评估。可配置的抽样率让你在评估覆盖率、成本和延迟之间取得平衡。
在线评估 vs. LLM 可观测性
LLM 可观测性展示了发生了什么。在线评估自动评估质量并根据评估结果触发操作。
LLM 可观测性:你的监控摄像头
LLM 可观测性通过分布式追踪展示所有发生的事情:完整对话、工具调用、令牌使用、延迟细分以及成本归属。它非常适合调试和了解出了什么问题。但当你每天处理 10 000 个对话时,手动审查它们以寻找质量模式并不可行。
在线评估:你的保安
使用 LLM‑as‑a‑judge 方法论,根据你的质量评分标准(准确性、相关性、毒性)对每个抽样请求自动打分并采取行动。无需将对话导出到电子表格进行人工审查,你即可获得实时质量监控、漂移检测,并在触发警报、回滚或重新路由。
凌晨 3 点的区别
- 没有评估:“我们明天开会审查样本,决定是否回滚。”
- 有评估:“质量低于阈值,自动回滚已触发,以下是失败的内容……”
Source: …
在线评估的实际工作原理
LaunchDarkly 的在线评估采用 LLM‑as‑a‑judge 方法,内置了三种评审员,可直接在仪表盘中配置——无需修改代码。
入门指南
- 从 AI Configs 菜单中安装评审员。
- 将评审员绑定到 AI Config 的变体上。
- 配置抽样率(在覆盖率与成本/延迟之间取得平衡)。
- 评估指标会自动以自定义事件的形式发出。
- 这些指标会自动用于 A/B 测试和受保护的发布。
每个内置评审员的输出
Accuracy judge(准确性评审员)
{
"score": 0.85,
"reasoning": "Response correctly answered the question but missed one edge case regarding error handling"
}
Relevance judge(相关性评审员)
{
"score": 0.92,
"reasoning": "Response directly addressed the user's query with appropriate context and examples"
}
Toxicity judge(有害性评审员)
{
"score": 0.0,
"reasoning": "Content is professional and appropriate with no toxic language detected"
}
每个评审员都会返回 0.0 到 1.0 之间的分数以及解释评估结果的 reasoning。内置评审员的评估标准是固定的,只需通过选择提供商和模型进行配置。
配置方法
- 在 LaunchDarkly 仪表盘的 AI Configs 菜单中安装评审员。
- 它们会以预配置的 AI Config 形式出现(例如 AI Judge – Accuracy)。
- 在 completion mode(完成模式)下配置 AI Config 变体时,选择要附加的评审员并设定所需的抽样率。
- 针对不同环境使用不同的评审员组合,以满足质量要求和成本约束。
在线评估解决的真实问题
-
面向生产应用的规模 – 您的 SQL 生成器每天处理 50 000 条查询。可观测性显示每条查询;在线评估会自动告诉您语义错误的比例,并内置幻觉检测。
-
多维质量监控 – 客服 AI 不仅仅是“是否有响应?”它必须准确、相关、无毒、合规且恰当。在线评估同时对所有维度打分,每个维度都有自己的阈值和推理。
-
RAG 流水线验证 – 检索增强生成系统需要持续监控检索质量和生成准确性。在线评估评估检索到的上下文是否相关,以及响应是否正确使用该上下文,从而防止幻觉并确保事实依据。
-
成本与性能优化 – 将 token 使用量与质量指标一起监控。如果某些查询消耗的 token 是其他查询的 10× ,在线评估帮助识别这些模式,以便您优化提示或路由逻辑,在不牺牲质量的前提下降低成本。
-
用于 AI 治理的可操作指标 – 将 10 000 条响应从数据转化为决策,使用评估驱动的质量门:
- 准确率下降到 0.8 以下?自动回滚。
- 相关性跌至 0.7 以下?触发切换到后备模型。
- 有害性超过 0.1?发出警报,立即进行人工审查。
团队警报
- Toxicity above 0.2? 立即审查并可能回滚。
- Relevance dropping for specific user segments? 进行有针对性的配置更新。
- 指标会自动提供给 A/B 测试和受控发布,以实现持续改进。
Source: …
示例实现路径
第 1‑2 周:定义质量维度并安装评审员
- 首先仅使用 LLM 可观测性。手动审查样本以了解你的系统。
- 定义你的质量维度(例如,准确性、相关性、毒性,或任何其他针对你的应用的标准)。
- 从 LaunchDarkly 的 AI Configs 菜单中安装内置评审员。
第 3‑4 周:通过抽样附加评审员
- 将评审员附加到 LaunchDarkly 中的 AI Config 变体。
- 从一两个关键评审员开始(准确性和相关性是不错的默认选择)。
- 将抽样率设置为 10 %–20 % 的流量,以在覆盖率、成本和延迟之间取得平衡。
- 将自动化得分与人工判断进行比较,以验证评审员是否适用于你的使用场景。
第 5 周起:通过质量门进行运营化
- 随着学习的深入,添加更多评估维度。
- 将得分连接到自动化操作和评估者驱动的质量门:
- 当 准确性低于 0.7 时,触发警报。
- 当 毒性超过 0.2 时,立即调查。
- 利用自定义事件和指标进行 A/B 测试以及受控发布,持续提升应用性能。
底线
- 您不需要在第一天就进行在线评估。先使用 LLM observability 通过分布式追踪来了解您的 AI 系统。
- 当您听到自己说“我们需要审查更多对话”,或“我们怎么知道质量在下降?”时,加入评估。
LaunchDarkly 的三个内置评判器(accuracy、relevance、toxicity)提供 LLM‑as‑a‑judge 评估,您可以将其附加到 completion mode 下的任何 AI Config 变体,并可配置抽样率。
Note: 在线评估目前仅适用于 completion‑mode AI Config。基于 Agent 的配置尚不支持。
评估指标会自动作为自定义事件发出,并直接输入到 A/B 测试和受保护的发布中,实现持续的 AI 治理和质量改进 无需代码更改。
LLM observability 是您的监控摄像头。在线评估是您的保安。
下一步
准备开始了吗?
如果您还没有账户,请注册一个免费的 LaunchDarkly 账户。
构建完整的质量流水线
- AI Config CI/CD Pipeline – 为您的部署过程添加自动化质量门和 LLM‑as‑a‑judge 测试。
- 将离线评估(在 CI/CD 中)与在线评估(在生产中)相结合,实现全面的质量覆盖。
了解更多关于 AI Config 的信息
- AI Config 文档 – 了解 AI Config 如何实现实时 LLM 配置。
- 在线评估文档 – 深入了解 judge 的安装和配置。
- Guardrail 指标 – 在 A/B 测试和受保护发布期间监控质量。
实际案例
- LaunchDarkly 仪表板中的 LLM 可观测性 – 使用分布式追踪跟踪您的 AI 应用性能。
行业标准
LaunchDarkly 的方法符合新兴的 AI 可观测性标准,包括 OpenTelemetry 的 AI 监控语义约定,确保您的评估基础设施能够与更广泛的可观测性生态系统集成。