Tenacious-Bench：在没有数据集时构建销售领域评估基准

发布: 3天前 (2026年5月2日 GMT+8 03:13)

4 分钟阅读

原文: Dev.to

Source: Dev.to

差距

通用 LLM 基准（如 τ²‑Bench）评估零售领域的任务完成情况——取消订单、处理退货、检查库存。它们无法回答 B2B 销售团队真正需要的问题：这封外联邮件是否对正确的买家说了正确的话？

我们记录了八种来自真实流水线追踪的具体失效模式，这些模式在现有基准中被忽视：

每种失效模式至少对应我们第 10 周流水线运行中的三条真实追踪记录。

Tenacious 没有历史标注的潜在客户数据。我们从零开始创建了 202 项任务，采用四模式创作流水线完成。

为何选择路径 B（偏好调优评判器）？
我们的失效模式是判断错误，而非生成错误。流水线已经能够生成流畅、写得好的邮件；问题在于它们有时会针对错误的细分。监督微调（SFT）只能提升已经不错的邮件的表面质量，而 DPO 训练的评判器能够学习捕捉判断错误。

reward = \beta \times \bigl(\log \pi_{\text{DPO}}(\text{email} \mid \text{prompt}) - \log \pi_{\text{ref}}(\text{email} \mid \text{prompt})\bigr)

留出任务：25/50 包含来自 LLM 合成流水线的标注伪影（GT = FAIL 且无失效类别）。这会放大错误计数，压低合成任务的准确率（36 % 对比 62 % 在程序化任务上）。