Tenacious-Bench v0.1:小型 B2B 销售外联基准及污染检查

发布: (2026年5月2日 GMT+8 18:22)
4 分钟阅读
原文: Dev.to

Source: Dev.to

Overview

一般的销售基准往往忽视了真实外呼代理的失误:对弱信号的夸大、危险的“bench”承诺、语气漂移成咄咄逼人的跟进,以及代表所承诺的内容与交付能力之间的差距。作为一次课堂项目(TRP1 第 11 周),我构建了 Tenacious‑Bench v0.1,一个紧凑的、机器评分的任务集,专注于这些失误模式——而非通用的友好性。

What’s in the dataset

公开发布在 Hugging Face:.
在 hub 查看器中目前显示 168 条记录,划分为:

  • train:105 条
  • validation:63 条

任务混合了多种创作方式——程序化扫荡、多 LLM 合成并经评审过滤、基于追踪信息的场景、以及手工编写的对抗案例——因此基准并非单一生成器的单一文化。

每条记录包含:

  • 结构化输入(潜在客户背景、技术栈、人数、信号置信度、bench 可用性等)
  • 候选外呼内容(主题 / 正文 / CTA)
  • 明确的真实期望(例如何时转交 vs. 何时继续筛选)
  • 版本化的评分细则,确保分数可复现且不含主观随意

Why contamination and provenance matter

合成基准会以乏味的方式泄漏:跨划分的近重复措辞、嵌入相邻度过高,或是“评估”任务实际上与训练任务仅在日期上做了微调。我会进行:

  • n‑gram 重叠检查
  • 嵌入相似度分析
  • 明确的信号窗口 / 来源策略(train/dev 与持出时间标记)

结果记录在仓库的 JSON 报告中。目标并非完美,而是让泄漏可见并可操作。

Training angle (Path B)

我并未在此发布大型 SFT 语料库;项目强调 偏好式批评路径(ORPO/DPO‑风格的数据准备 + LoRA 训练),以捕捉不一致和不安全的承诺。数据集本身即是审稿人可以直接加载的产物,训练代码和日志与项目 README 同置。

Limitations (stated plainly)

  • 任务为合成且以英语为主;它们不能替代真实的 A/B 测试或合规审查。
  • 该基准旨在为产品团队迭代销售代理提供回归测试工具,而非证明真实世界的提升效果。

Call to action

如果你正在构建外呼代理,尝试在这些任务的一个子集上对模型进行评分,并与内部评分标准进行对比。我特别关注模型“流畅”却违反 bench/信号安全的案例——这些正是值得进一步扩展的行。

0 浏览
Back to Blog

相关文章

阅读更多 »