为什么你的 AI 搜索评估可能是错误的(以及如何修复)

发布: (2026年3月9日 GMT+8 21:30)
9 分钟阅读

Source: Towards Data Science

为什么对 AI 搜索进行基准测试很重要

近十年来,我常被问到,“我们怎么知道当前的 AI 部署是否已经优化?” 诚实的答案是:大量测试。明确的基准可以帮助你:

  • 衡量随时间的改进
  • 客观比较不同供应商
  • 向利益相关者证明 ROI

常见的陷阱

大多数团队评估 AI 搜索的方式是:

  1. 只跑少量查询。
  2. 选取“感觉”最好的系统。
  3. 花数月时间集成——结果却发现准确率实际上 比之前更差

这是一笔 50 万美元的错误,本可以避免。

为什么临时测试会失效

  • 不能反映生产行为——有限的查询集无法覆盖真实世界的多样性。
  • 不可复现——结果无法在以后重现或审计。
  • 通用基准——全公司范围的测试并未针对你的特定领域或使用场景进行定制。

有效基准的特征

  • 领域特定:使用与实际工作负载相匹配的数据和查询。
  • 查询类型全面:覆盖导航型、信息型和交易型意图。
  • 结果一致:运行可重复,且提供明确的指标(如 MAP、NDCG、precision@k)。
  • 评估者一致性:考虑人工评审之间的分歧(例如使用 Cohen’s κ)。

已验证的流程(多年研究总结)

  1. 定义成功标准 – 将指标与业务目标对齐(相关性、延迟、成本)。
  2. 策划具代表性的查询集 – 从所有意图类别中抽样真实用户查询。
  3. 创建真实标签 – 让多位领域专家标注相关性;解决冲突。
  4. 运行基线与候选模型 – 在现有系统和新系统上执行相同查询。
  5. 分析结果 – 对比指标、统计显著性以及错误模式。
  6. 迭代与部署 – 根据发现优化模型,然后进行持续监控后上线。

遵循结构化、可复现的基准测试,你将避免代价高昂的集成惊喜,确保你的 AI 搜索在生产环境中真正得到优化。

Source:

基准评估标准

第 1 步 – 为你的使用场景定义“好”的含义

  1. 在任何测试之前明确目标结果。

    • 金融服务:“数值数据必须与官方来源的误差在 ±0.1 % 以内,并附带带时间戳的引用。”
    • 开发者工具:“代码示例必须在声明的语言版本上未经修改即可运行。”
  2. 将阈值与业务影响挂钩。

    • 示例:如果 1 % 的准确率提升能为支持团队每月节省 40 小时,而切换成本为 1 万美元的工程时间,则盈亏平衡点是首月 2.5 % 的准确率提升。

第 2 步 – 构建你的黄金测试集

操作推荐做法
来源查询从生产日志中抽取。
组成80 % 常见模式,20 % 边缘案例。
规模最少 100 – 200 条查询 → 置信区间 ±2‑3 %。
评分标准- 4 分 – 完全正确且有权威引用的答案。
- 3 分 – 正确但需要用户推断。
- 2 分 – 部分相关。
- 1 分 – 仅略相关。
- 0 分 – 完全不相关。
示例提供 5‑10 条示例查询,并为每个评分层级给出对应的结果。
标注两位领域专家独立标注前 10 条结果。
一致性度量计算 Cohen’s κ;目标 κ ≥ 0.70。
额外检查:人类‑LLM 之间的 Pearson r > 0.80。
示例:Claude Sonnet 在使用明确评分标准时获得 κ = 0.84。

第 5 步 – 使用 ICC 衡量评估稳定性

类内相关系数(Intraclass Correlation Coefficient,ICC) 将方差分为:

  • 查询间方差 – 某些查询本身更难。
  • 查询内方差 – 同一查询在不同运行中的不一致性。

ICC 解释

ICC可靠性
≥ 0.75良好 – 提供者行为一致。
0.50 – 0.75中等 – 查询难度与提供者噪声混合。
< 0.50差 – 结果不可靠。

示例比较

提供者准确率ICC解释
A73 %0.66多次试验中表现一致。
B73 %0.30不可预测;相同查询会得到不同结果。

如果不考虑 ICC,可能仅凭准确率选择提供者 B,结果在生产环境中会出现不稳定。

要点

  • 仅靠准确率不够 – 需结合可靠性指标(ICC)。
  • 记录所有内容(评分标准版本、变更日志、试验次数),以确保可复现性。
  • 迭代改进:当 ICC 或人类‑LLM 一致性低时,重新审视评分标准、标注流程或提示设计,再对提供者的优劣作出结论。

成功的真实面貌

在完成验证后,您可以在完整的测试集上评估各提供商。结果可能如下所示:

ProviderAccuracy (± SD)95 % CIICC
A81.2 % ± 2.1 %79.1 % – 83.3 %0.68
B78.9 % ± 2.8 %76.1 % – 81.7 %0.71
C83.1 % ± 4.8 %78.3 % – 87.9 %0.42
D79.8 % ± 4.2 %75.6 % – 84.0 %0.39
  • Providers A vs. B – 置信区间重叠,因此提供商 A 的准确率优势在 p < 0.05 水平上具有统计显著性。然而,提供商 B 的 ICC 更高(0.71 对 0.68),表明结果更为一致——相同查询产生的输出更可预测。根据您的使用场景,一致性可能比 2.3 个百分点的准确率差异更重要。

  • Providers C vs. D – 提供商 C 看起来更好,但宽阔的置信区间有大量重叠。两者的 ICC 均 < 0.50,意味着大部分方差来源于试验间的随机性,而非查询难度。当出现这种方差水平时,评估方法本身需要调试,才能信任比较结果。

关键要点

  • 这并非唯一的搜索质量评估方式,但它在 准确性可行性 之间取得了平衡。
  • 该框架提供可复现的结果,能够预测生产环境表现,使您能够在同等条件下比较提供商。
  • 依赖挑选的演示会导致毫无意义的供应商比较——每个人的测量方式都不同。
  • 如果您正在为搜索基础设施做出百万美元的决策,就必须为团队 正确测量
0 浏览
Back to Blog

相关文章

阅读更多 »

使用 AI 与真实世界健康数据

我一直在与其他人合作,探索 AI 如何利用真实世界的 biosensor 数据。一个非常清楚的事实是,我们从诊所获得的数据……