如何将 System prompts 用作评估的 Ground Truth
发布: (2025年12月10日 GMT+8 11:50)
3 min read
原文: Dev.to
Source: Dev.to
问题:缺乏明确的真实标签
大多数团队在评估 AI 代理时都会遇到困难,因为他们没有明确定义的真实标签。典型的工作流程:
- 花费数月时间创建人工标签。
- 雇佣标注员来构建数据集。
- 发现这些标签不一致、成本高且难以扩展。
解决方案:使用系统提示作为真实标签
你的 系统提示 是评估的最终真实来源。它定义了:
- 代理的角色——它应该是什么。
- 约束——它绝不能做什么。
- 指令——它应如何行为。
- 价值观——对它而言重要的是什么。
代理的所有行为都应依据这些规范进行衡量。
使用系统提示进行评估的方法
- 从提示中提取客观标准。
- 自动化检查,验证每个响应是否满足这些标准。
示例
系统提示:
“You are a customer support agent. You must be polite, professional, and never discuss politics.”
从提示中衍生的评估问题:
- 响应是否 礼貌?
- 响应是否 专业?
- 响应是否 避免政治话题?
这些问题是 客观的,因为它们直接反映了系统提示中的指令,消除了主观标注的需求。
好处
- 无需昂贵的标注员——评估实现自动化。
- 一致性——标准固定且明确。
- 可扩展——适用于任意规模的交互。
入门指南
实现一个框架,解析系统提示,生成相应的评估标准,并自动检查每个代理响应是否符合这些标准。
该方法为 Noveum.ai 的评估流水线提供动力。