Tenacious-Bench v0.1：小型 B2B 销售外联基准及污染检查

发布: 2天前 (2026年5月2日 GMT+8 18:22)

4 分钟阅读

Source: Dev.to

Overview

一般的销售基准往往忽视了真实外呼代理的失误：对弱信号的夸大、危险的“bench”承诺、语气漂移成咄咄逼人的跟进，以及代表所承诺的内容与交付能力之间的差距。作为一次课堂项目（TRP1 第 11 周），我构建了 Tenacious‑Bench v0.1，一个紧凑的、机器评分的任务集，专注于这些失误模式——而非通用的友好性。

What’s in the dataset

公开发布在 Hugging Face：.
在 hub 查看器中目前显示 168 条记录，划分为：

train：105 条
validation：63 条

任务混合了多种创作方式——程序化扫荡、多 LLM 合成并经评审过滤、基于追踪信息的场景、以及手工编写的对抗案例——因此基准并非单一生成器的单一文化。

每条记录包含：

结构化输入（潜在客户背景、技术栈、人数、信号置信度、bench 可用性等）
候选外呼内容（主题 / 正文 / CTA）
明确的真实期望（例如何时转交 vs. 何时继续筛选）
版本化的评分细则，确保分数可复现且不含主观随意

Why contamination and provenance matter

合成基准会以乏味的方式泄漏：跨划分的近重复措辞、嵌入相邻度过高，或是“评估”任务实际上与训练任务仅在日期上做了微调。我会进行：

n‑gram 重叠检查
嵌入相似度分析
明确的信号窗口 / 来源策略（train/dev 与持出时间标记）

结果记录在仓库的 JSON 报告中。目标并非完美，而是让泄漏可见并可操作。

Training angle (Path B)

我并未在此发布大型 SFT 语料库；项目强调 偏好式批评路径（ORPO/DPO‑风格的数据准备 + LoRA 训练），以捕捉不一致和不安全的承诺。数据集本身即是审稿人可以直接加载的产物，训练代码和日志与项目 README 同置。

Limitations (stated plainly)

任务为合成且以英语为主；它们不能替代真实的 A/B 测试或合规审查。
该基准旨在为产品团队迭代销售代理提供回归测试工具，而非证明真实世界的提升效果。

Call to action

如果你正在构建外呼代理，尝试在这些任务的一个子集上对模型进行评分，并与内部评分标准进行对比。我特别关注模型“流畅”却违反 bench/信号安全的案例——这些正是值得进一步扩展的行。

Tenacious-Bench v0.1：小型 B2B 销售外联基准及污染检查

Overview

What’s in the dataset

Why contamination and provenance matter

Training angle (Path B)

Limitations (stated plainly)

Call to action

相关文章

你到底指的是什么（不）精确的语义搜索？

新AI工具悄然取代你一半的开发工作流（以及该怎么办）

计算套利：为何 API 路由是下一场大型基础设施布局

免费 GCP 练习考试（13 条认证路径及解释）

Overview

What’s in the dataset

Why contamination and provenance matter

Training angle (Path B)

Limitations (stated plainly)

Call to action

相关文章

你到底指的是什么（不）精确的语义搜索？

新AI工具悄然取代你一半的开发工作流（以及该怎么办）

计算套利：为何 API 路由是下一场大型基础设施布局

免费 GCP 练习考试（13 条认证路径及解释）

Training angle (Path B)