에이전트 빌더를 위한 Eval 워크플로우: 베이스라인 vs 스캐폴드된 에이전트를 통해 모든 프롬프트 포크, 블라인드 제3자 심사

발행: 6시간 전 (2026년 4월 22일 PM 04:17 GMT+9)

4 분 소요

Source: Dev.to

What it is

Plain GPT‑4o와 GPT‑4o + reasoning scaffold를 사용해 어떤 프롬프트든 A/B 테스트하는 n8n eval 워크플로우를 만들었습니다. 평가자는 블라인드 Gemini 평가자로, “동점(tie)”을 반환하도록 허용되어 있으며 실제로 자주 그렇게 합니다. 핵심은 여러분이 직접 작업에 대해 테스트하고 스스로 판단한다는 점입니다.

What it’s actually testing

스캐폴드가 적용된 에이전트가 프롬프트에 있는 구체적인 주장에 참여하는지, 아니면 일반적인 답변에 머무는지 여부.
스캐폴드가 사과성(sycophancy), 깊이, 진단 절차에 어떤 영향을 미치는지.
다양한 하네스 모드(추론, 반‑속임수, 메모리, 코드)가 서로 다른 작업 유형에 어떤 스트레스를 주는지.
- 모드는 HTTP 툴의 JSON 본문에서 편집 가능.

쉬운 프롬프트에서는 차이가 미묘하게 나타나고, 감정 + 인지적 주장이 혼합된 이중‑로드 프롬프트, 숨겨진 거짓 전제가 있는 조언 프롬프트, 혹은 다변량 인과 추론과 같은 경우에 차이가 더 뚜렷합니다. 복잡도가 낮은 단일 턴 작업은 GPT‑4o가 스캐폴드 없이도 잘 처리하기 때문에 종종 동점이 나옵니다.

Where you might apply this pattern

코드 리뷰 또는 진단 에이전트 – 실제로 신경 쓰는 실패 모드를 잡아내는지 테스트.
콘텐츠 또는 연구 워크플로우 – 주제에 대해 일반적인 출력이 줄어드는지 테스트.
멀티‑에이전트 시스템 – 단일 에이전트 호출을 포크에 감싸서 영구 통합 전에 효과를 확인.
프롬프트 엔지니어링 A/B 테스트 – 인지 레이어가 자체 프롬프트 반복에 미치는 영향을 측정.

Setup

세 개의 크레덴셜 설정
- OpenAI (두 프로듀서 에이전트)
- Google Gemini (블라인드 평가자)
- Ejentum API용 Header Auth (무료 키는 ejentum.com에서 100회 호출 가능)
n8n 채팅 트리거에 프롬프트 붙여넣기.
워크플로우 구성 (모드 선택을 위한 JSON 본문 등).
워크플로우 실행하여 다음을 얻음:
- 한 번 실행에서의 A vs B 출력.
- 같은 실행에서 나온 블라인드 평가자 판정 JSON.
리소스 – 워크플로우 JSON, README, 그리고 IDE 설정용 TypeScript 포트(Antigravity, Claude Code, Cursor).

에이전트 빌더를 위한 Eval 워크플로우: 베이스라인 vs 스캐폴드된 에이전트를 통해 모든 프롬프트 포크, 블라인드 제3자 심사

What it is

What it’s actually testing

Where you might apply this pattern

Setup

관련 글

왜 모든 AI 코딩 앱은 섬인가

이걸 공유하면 안 될 텐데: 2026년에 여전히 노출된 AWS 키를 찾아내는 37가지 Google Dork 패턴

내가 일찍 알았으면 좋았던 프리랜스 요율 공식 (무료 계산기 포함)

주간 Dev Log 2026-W02