Tenacious-Bench:在没有数据集时构建销售领域评估基准

发布: (2026年5月2日 GMT+8 03:13)
4 分钟阅读
原文: Dev.to

Source: Dev.to

差距

通用 LLM 基准(如 τ²‑Bench)评估零售领域的任务完成情况——取消订单、处理退货、检查库存。它们无法回答 B2B 销售团队真正需要的问题:这封外联邮件是否对正确的买家说了正确的话?

审计

我们记录了八种来自真实流水线追踪的具体失效模式,这些模式在现有基准中被忽视:

  • 细分错误路由 – 尽管 ICP 分类正确,但邮件投向了错误的买家细分
  • 信号夸大 – 仅凭单个招聘信息就断言强烈的招聘意向
  • 语调漂移 – 使用居高临下或紧迫的语言,违背风格指南
  • 注入边缘案例 – 通过潜在客户备注字段进行提示注入,绕过 ToneGuard
  • 基准过度承诺 – 承诺顾问可用性,但在当前基准摘要中未体现
  • 竞争对手差距框架 – 技术上正确的差距分析,却显得傲慢
  • AI 成熟度不匹配 – 向没有数据层的公司推销机器学习平台迁移
  • 多线程泄漏 – 同时向联合创始人和副总裁发送外联,导致上下文泄漏

每种失效模式至少对应我们第 10 周流水线运行中的三条真实追踪记录。

在没有标注数据的情况下构建数据集

Tenacious 没有历史标注的潜在客户数据。我们从零开始创建了 202 项任务,采用四模式创作流水线完成。

训练实验

为何选择路径 B(偏好调优评判器)?
我们的失效模式是判断错误,而非生成错误。流水线已经能够生成流畅、写得好的邮件;问题在于它们有时会针对错误的细分。监督微调(SFT)只能提升已经不错的邮件的表面质量,而 DPO 训练的评判器能够学习捕捉判断错误。

奖励公式

reward = \beta \times \bigl(\log \pi_{\text{DPO}}(\text{email} \mid \text{prompt}) - \log \pi_{\text{ref}}(\text{email} \mid \text{prompt})\bigr)
  • 留出任务:25/50 包含来自 LLM 合成流水线的标注伪影(GT = FAIL 且无失效类别)。这会放大错误计数,压低合成任务的准确率(36 % 对比 62 % 在程序化任务上)。

未来工作(Tenacious‑Bench v0.2)

  • 添加多轮轨迹任务
  • 基于角色的语调评分
  • 实时基准库存验证
  • 对 LLM 合成真值进行双重验证步骤

资源

  • 数据集:
  • 评判器 LoRA:
  • 代码仓库:
0 浏览
Back to Blog

相关文章

阅读更多 »

模型越智能,节省越多。

神话:更智能的模型会让插件变得多余。自从 WOZCODE 推出以来,许多 Claude Code 高级用户低声说插件的优势将会消失。