LLM 评估指南:何时在你的 AI 应用中添加在线评估

发布: (2025年12月18日 GMT+8 01:42)
12 min read
原文: Dev.to

Source: Dev.to

Original article – 发布于2025年11月13日

快速决策框架

AI 配置的在线评估目前处于封闭测试阶段。必须先在项目中安装评估器,才能将其附加到 AI 配置的变体上。

在线评估为 LLM 应用提供实时质量监控。采用 LLM‑as‑a‑judge 方法论,它们会对生产流量中可配置比例的请求执行自动质量检查,生成结构化分数和通过/未通过的判断,供程序化处理。LaunchDarkly 内置了三种评估器:

  • accuracy
  • relevance
  • toxicity

跳过在线评估的情况

  • 检查完全是确定性的(如模式验证、编译测试)
  • 流量很低,能够在可观测性仪表盘中手动审查输出
  • 主要在调试执行问题

添加在线评估的情况

  • 需要量化的质量分数来触发自动化操作(回滚、重路由、告警)
  • 手动质量审查无法满足流量规模
  • 需要衡量多个质量维度(准确性、相关性、毒性)
  • 想要在不同细分市场中获取统计质量趋势,以支持 AI 治理和合规
  • 需要在监控代币使用量和成本的同时监控质量指标
  • 正在进行 A/B 测试或受保护发布,需要自动化质量门

大多数团队在手动质量审查成为瓶颈时,会在 2‑3 个冲刺内加入在线评估。可配置的抽样率让你在评估覆盖率、成本和延迟之间取得平衡。

在线评估 vs. LLM 可观测性

LLM 可观测性展示了发生了什么。在线评估自动评估质量并根据评估结果触发操作。

LLM 可观测性:你的监控摄像头

LLM 可观测性通过分布式追踪展示所有发生的事情:完整对话、工具调用、令牌使用、延迟细分以及成本归属。它非常适合调试和了解出了什么问题。但当你每天处理 10 000 个对话时,手动审查它们以寻找质量模式并不可行。

在线评估:你的保安

使用 LLM‑as‑a‑judge 方法论,根据你的质量评分标准(准确性、相关性、毒性)对每个抽样请求自动打分并采取行动。无需将对话导出到电子表格进行人工审查,你即可获得实时质量监控、漂移检测,并在触发警报、回滚或重新路由。

凌晨 3 点的区别

  • 没有评估:“我们明天开会审查样本,决定是否回滚。”
  • 有评估:“质量低于阈值,自动回滚已触发,以下是失败的内容……”

Source:

在线评估的实际工作原理

LaunchDarkly 的在线评估采用 LLM‑as‑a‑judge 方法,内置了三种评审员,可直接在仪表盘中配置——无需修改代码。

入门指南

  1. AI Configs 菜单中安装评审员。
  2. 将评审员绑定到 AI Config 的变体上。
  3. 配置抽样率(在覆盖率与成本/延迟之间取得平衡)。
  4. 评估指标会自动以自定义事件的形式发出。
  5. 这些指标会自动用于 A/B 测试和受保护的发布。

每个内置评审员的输出

Accuracy judge(准确性评审员)

{
  "score": 0.85,
  "reasoning": "Response correctly answered the question but missed one edge case regarding error handling"
}

Relevance judge(相关性评审员)

{
  "score": 0.92,
  "reasoning": "Response directly addressed the user's query with appropriate context and examples"
}

Toxicity judge(有害性评审员)

{
  "score": 0.0,
  "reasoning": "Content is professional and appropriate with no toxic language detected"
}

每个评审员都会返回 0.0 到 1.0 之间的分数以及解释评估结果的 reasoning。内置评审员的评估标准是固定的,只需通过选择提供商和模型进行配置。

配置方法

  • 在 LaunchDarkly 仪表盘的 AI Configs 菜单中安装评审员。
  • 它们会以预配置的 AI Config 形式出现(例如 AI Judge – Accuracy)。
  • completion mode(完成模式)下配置 AI Config 变体时,选择要附加的评审员并设定所需的抽样率。
  • 针对不同环境使用不同的评审员组合,以满足质量要求和成本约束。

在线评估解决的真实问题

  • 面向生产应用的规模 – 您的 SQL 生成器每天处理 50 000 条查询。可观测性显示每条查询;在线评估会自动告诉您语义错误的比例,并内置幻觉检测。

  • 多维质量监控 – 客服 AI 不仅仅是“是否有响应?”它必须准确、相关、无毒、合规且恰当。在线评估同时对所有维度打分,每个维度都有自己的阈值和推理。

  • RAG 流水线验证 – 检索增强生成系统需要持续监控检索质量和生成准确性。在线评估评估检索到的上下文是否相关,以及响应是否正确使用该上下文,从而防止幻觉并确保事实依据。

  • 成本与性能优化 – 将 token 使用量与质量指标一起监控。如果某些查询消耗的 token 是其他查询的 10× ,在线评估帮助识别这些模式,以便您优化提示或路由逻辑,在不牺牲质量的前提下降低成本。

  • 用于 AI 治理的可操作指标 – 将 10 000 条响应从数据转化为决策,使用评估驱动的质量门:

    • 准确率下降到 0.8 以下?自动回滚。
    • 相关性跌至 0.7 以下?触发切换到后备模型。
    • 有害性超过 0.1?发出警报,立即进行人工审查。

团队警报

  • Toxicity above 0.2? 立即审查并可能回滚。
  • Relevance dropping for specific user segments? 进行有针对性的配置更新。
  • 指标会自动提供给 A/B 测试和受控发布,以实现持续改进。

Source:

示例实现路径

第 1‑2 周:定义质量维度并安装评审员

  1. 首先仅使用 LLM 可观测性。手动审查样本以了解你的系统。
  2. 定义你的质量维度(例如,准确性、相关性、毒性,或任何其他针对你的应用的标准)。
  3. 从 LaunchDarkly 的 AI Configs 菜单中安装内置评审员。

第 3‑4 周:通过抽样附加评审员

  1. 将评审员附加到 LaunchDarkly 中的 AI Config 变体。
  2. 从一两个关键评审员开始(准确性和相关性是不错的默认选择)。
  3. 将抽样率设置为 10 %–20 % 的流量,以在覆盖率、成本和延迟之间取得平衡。
  4. 将自动化得分与人工判断进行比较,以验证评审员是否适用于你的使用场景。

第 5 周起:通过质量门进行运营化

  1. 随着学习的深入,添加更多评估维度。
  2. 将得分连接到自动化操作和评估者驱动的质量门:
    • 准确性低于 0.7 时,触发警报。
    • 毒性超过 0.2 时,立即调查。
  3. 利用自定义事件和指标进行 A/B 测试以及受控发布,持续提升应用性能。

底线

  • 您不需要在第一天就进行在线评估。先使用 LLM observability 通过分布式追踪来了解您的 AI 系统。
  • 当您听到自己说“我们需要审查更多对话”,或“我们怎么知道质量在下降?”时,加入评估。

LaunchDarkly 的三个内置评判器(accuracy、relevance、toxicity)提供 LLM‑as‑a‑judge 评估,您可以将其附加到 completion mode 下的任何 AI Config 变体,并可配置抽样率。

Note: 在线评估目前仅适用于 completion‑mode AI Config。基于 Agent 的配置尚不支持。

评估指标会自动作为自定义事件发出,并直接输入到 A/B 测试和受保护的发布中,实现持续的 AI 治理和质量改进 无需代码更改

LLM observability 是您的监控摄像头。在线评估是您的保安。

下一步

准备开始了吗?

如果您还没有账户,请注册一个免费的 LaunchDarkly 账户

构建完整的质量流水线

  • AI Config CI/CD Pipeline – 为您的部署过程添加自动化质量门和 LLM‑as‑a‑judge 测试。
  • 将离线评估(在 CI/CD 中)与在线评估(在生产中)相结合,实现全面的质量覆盖。

了解更多关于 AI Config 的信息

实际案例

行业标准

LaunchDarkly 的方法符合新兴的 AI 可观测性标准,包括 OpenTelemetry 的 AI 监控语义约定,确保您的评估基础设施能够与更广泛的可观测性生态系统集成。

Back to Blog

相关文章

阅读更多 »

AI:真正的10倍生产力技巧

悖论:我们是真正高效,还是仅仅在表演?你真的因为 AI 而提升了 10 倍的生产力,还是只是因为算法而忙碌了 10 倍?这是一…