如何将 System prompts 用作评估的 Ground Truth

发布: (2025年12月10日 GMT+8 11:50)
3 min read
原文: Dev.to

Source: Dev.to

问题:缺乏明确的真实标签

大多数团队在评估 AI 代理时都会遇到困难,因为他们没有明确定义的真实标签。典型的工作流程:

  • 花费数月时间创建人工标签。
  • 雇佣标注员来构建数据集。
  • 发现这些标签不一致、成本高且难以扩展。

解决方案:使用系统提示作为真实标签

你的 系统提示 是评估的最终真实来源。它定义了:

  • 代理的角色——它应该是什么。
  • 约束——它绝不能做什么。
  • 指令——它应如何行为。
  • 价值观——对它而言重要的是什么。

代理的所有行为都应依据这些规范进行衡量。

使用系统提示进行评估的方法

  1. 从提示中提取客观标准
  2. 自动化检查,验证每个响应是否满足这些标准。

示例

系统提示:

“You are a customer support agent. You must be polite, professional, and never discuss politics.”

从提示中衍生的评估问题:

  • 响应是否 礼貌
  • 响应是否 专业
  • 响应是否 避免政治话题

这些问题是 客观的,因为它们直接反映了系统提示中的指令,消除了主观标注的需求。

好处

  • 无需昂贵的标注员——评估实现自动化。
  • 一致性——标准固定且明确。
  • 可扩展——适用于任意规模的交互。

入门指南

实现一个框架,解析系统提示,生成相应的评估标准,并自动检查每个代理响应是否符合这些标准。

该方法为 Noveum.ai 的评估流水线提供动力。

Back to Blog

相关文章

阅读更多 »

二元加权评估...如何

1. 什么是二元加权评估?从高层次来看:- 为任务定义一组二元标准。每个标准都是一个可以用…回答的问题。