System prompts를 Ground Truth로 사용하여 평가하는 방법

발행: (2025년 12월 10일 오후 12:50 GMT+9)
4 min read
원문: Dev.to

Source: Dev.to

문제: 명확한 정답(ground truth) 부재

대부분의 팀은 명확히 정의된 정답이 없어서 AI 에이전트를 평가하는 데 어려움을 겪습니다. 일반적인 워크플로우:

  • 수개월 동안 수동 라벨을 만들기 위해 노력한다.
  • 데이터셋을 구축하기 위해 라벨러를 고용한다.
  • 라벨이 일관성이 없고, 비용이 많이 들며, 규모를 확장할 수 없다는 것을 발견한다.

해결책: 시스템 프롬프트를 정답으로 사용

당신의 시스템 프롬프트가 평가를 위한 최종적인 진실 원천이다. 시스템 프롬프트는 다음을 정의한다:

  • 에이전트의 역할 – 에이전트가 무엇이어야 하는가.
  • 제약 조건 – 에이전트가 절대 해서는 안 되는 것.
  • 지시 사항 – 에이전트가 어떻게 행동해야 하는가.
  • 가치 – 에이전트에게 중요한 것이 무엇인가.

에이전트가 수행하는 모든 행동은 이 사양에 비추어 측정되어야 한다.

시스템 프롬프트를 활용한 평가 방법

  1. 목표 기준을 추출한다(프롬프트에서).
  2. 자동화된 검사를 구현해 각 응답이 해당 기준을 만족하는지 확인한다.

예시

시스템 프롬프트:

“당신은 고객 지원 에이전트입니다. 정중하고, 전문적이며, 절대로 정치 이야기를 하지 않아야 합니다.”

프롬프트에서 도출한 평가 질문:

  • 응답이 정중한가?
  • 응답이 전문적인가?
  • 응답이 정치적 주제를 피하고 있는가?

이 질문들은 객관적이다. 왜냐하면 시스템 프롬프트의 지시를 직접 반영하므로 주관적인 라벨링이 필요 없기 때문이다.

장점

  • 비싼 라벨러가 필요 없음 – 평가가 자동화된다.
  • 일관성 – 기준이 고정되고 모호함이 없다.
  • 확장성 – 어떤 규모의 상호작용에도 적용 가능하다.

시작하기

시스템 프롬프트를 파싱하고, 해당 평가 기준을 생성하며, 각 에이전트 응답을 자동으로 검사하는 프레임워크를 구현한다.

이 접근 방식은 Noveum.ai의 평가 파이프라인을 구동한다.

Back to Blog

관련 글

더 보기 »

이진 가중 평가...방법

1. 이진 가중 평가란 무엇인가? 높은 수준에서: - 작업에 대한 이진 기준 집합을 정의한다. 각 기준은 ...에 대한 답변이 가능한 질문이다.