Tenacious-Bench v0.1:小型 B2B 销售外联基准及污染检查
Source: Dev.to
Overview
一般的销售基准往往忽视了真实外呼代理的失误:对弱信号的夸大、危险的“bench”承诺、语气漂移成咄咄逼人的跟进,以及代表所承诺的内容与交付能力之间的差距。作为一次课堂项目(TRP1 第 11 周),我构建了 Tenacious‑Bench v0.1,一个紧凑的、机器评分的任务集,专注于这些失误模式——而非通用的友好性。
What’s in the dataset
公开发布在 Hugging Face:.
在 hub 查看器中目前显示 168 条记录,划分为:
- train:105 条
- validation:63 条
任务混合了多种创作方式——程序化扫荡、多 LLM 合成并经评审过滤、基于追踪信息的场景、以及手工编写的对抗案例——因此基准并非单一生成器的单一文化。
每条记录包含:
- 结构化输入(潜在客户背景、技术栈、人数、信号置信度、bench 可用性等)
- 候选外呼内容(主题 / 正文 / CTA)
- 明确的真实期望(例如何时转交 vs. 何时继续筛选)
- 版本化的评分细则,确保分数可复现且不含主观随意
Why contamination and provenance matter
合成基准会以乏味的方式泄漏:跨划分的近重复措辞、嵌入相邻度过高,或是“评估”任务实际上与训练任务仅在日期上做了微调。我会进行:
- n‑gram 重叠检查
- 嵌入相似度分析
- 明确的信号窗口 / 来源策略(train/dev 与持出时间标记)
结果记录在仓库的 JSON 报告中。目标并非完美,而是让泄漏可见并可操作。
Training angle (Path B)
我并未在此发布大型 SFT 语料库;项目强调 偏好式批评路径(ORPO/DPO‑风格的数据准备 + LoRA 训练),以捕捉不一致和不安全的承诺。数据集本身即是审稿人可以直接加载的产物,训练代码和日志与项目 README 同置。
Limitations (stated plainly)
- 任务为合成且以英语为主;它们不能替代真实的 A/B 测试或合规审查。
- 该基准旨在为产品团队迭代销售代理提供回归测试工具,而非证明真实世界的提升效果。
Call to action
如果你正在构建外呼代理,尝试在这些任务的一个子集上对模型进行评分,并与内部评分标准进行对比。我特别关注模型“流畅”却违反 bench/信号安全的案例——这些正是值得进一步扩展的行。