System prompts를 Ground Truth로 사용하여 평가하는 방법
Source: Dev.to
문제: 명확한 정답(ground truth) 부재
대부분의 팀은 명확히 정의된 정답이 없어서 AI 에이전트를 평가하는 데 어려움을 겪습니다. 일반적인 워크플로우:
- 수개월 동안 수동 라벨을 만들기 위해 노력한다.
- 데이터셋을 구축하기 위해 라벨러를 고용한다.
- 라벨이 일관성이 없고, 비용이 많이 들며, 규모를 확장할 수 없다는 것을 발견한다.
해결책: 시스템 프롬프트를 정답으로 사용
당신의 시스템 프롬프트가 평가를 위한 최종적인 진실 원천이다. 시스템 프롬프트는 다음을 정의한다:
- 에이전트의 역할 – 에이전트가 무엇이어야 하는가.
- 제약 조건 – 에이전트가 절대 해서는 안 되는 것.
- 지시 사항 – 에이전트가 어떻게 행동해야 하는가.
- 가치 – 에이전트에게 중요한 것이 무엇인가.
에이전트가 수행하는 모든 행동은 이 사양에 비추어 측정되어야 한다.
시스템 프롬프트를 활용한 평가 방법
- 목표 기준을 추출한다(프롬프트에서).
- 자동화된 검사를 구현해 각 응답이 해당 기준을 만족하는지 확인한다.
예시
시스템 프롬프트:
“당신은 고객 지원 에이전트입니다. 정중하고, 전문적이며, 절대로 정치 이야기를 하지 않아야 합니다.”
프롬프트에서 도출한 평가 질문:
- 응답이 정중한가?
- 응답이 전문적인가?
- 응답이 정치적 주제를 피하고 있는가?
이 질문들은 객관적이다. 왜냐하면 시스템 프롬프트의 지시를 직접 반영하므로 주관적인 라벨링이 필요 없기 때문이다.
장점
- 비싼 라벨러가 필요 없음 – 평가가 자동화된다.
- 일관성 – 기준이 고정되고 모호함이 없다.
- 확장성 – 어떤 규모의 상호작용에도 적용 가능하다.
시작하기
시스템 프롬프트를 파싱하고, 해당 평가 기준을 생성하며, 각 에이전트 응답을 자동으로 검사하는 프레임워크를 구현한다.
이 접근 방식은 Noveum.ai의 평가 파이프라인을 구동한다.