에이전트 빌더를 위한 Eval 워크플로우: 베이스라인 vs 스캐폴드된 에이전트를 통해 모든 프롬프트 포크, 블라인드 제3자 심사
Source: Dev.to
What it is
Plain GPT‑4o와 GPT‑4o + reasoning scaffold를 사용해 어떤 프롬프트든 A/B 테스트하는 n8n eval 워크플로우를 만들었습니다. 평가자는 블라인드 Gemini 평가자로, “동점(tie)”을 반환하도록 허용되어 있으며 실제로 자주 그렇게 합니다. 핵심은 여러분이 직접 작업에 대해 테스트하고 스스로 판단한다는 점입니다.
What it’s actually testing
- 스캐폴드가 적용된 에이전트가 프롬프트에 있는 구체적인 주장에 참여하는지, 아니면 일반적인 답변에 머무는지 여부.
- 스캐폴드가 사과성(sycophancy), 깊이, 진단 절차에 어떤 영향을 미치는지.
- 다양한 하네스 모드(추론, 반‑속임수, 메모리, 코드)가 서로 다른 작업 유형에 어떤 스트레스를 주는지.
- 모드는 HTTP 툴의 JSON 본문에서 편집 가능.
쉬운 프롬프트에서는 차이가 미묘하게 나타나고, 감정 + 인지적 주장이 혼합된 이중‑로드 프롬프트, 숨겨진 거짓 전제가 있는 조언 프롬프트, 혹은 다변량 인과 추론과 같은 경우에 차이가 더 뚜렷합니다. 복잡도가 낮은 단일 턴 작업은 GPT‑4o가 스캐폴드 없이도 잘 처리하기 때문에 종종 동점이 나옵니다.
Where you might apply this pattern
- 코드 리뷰 또는 진단 에이전트 – 실제로 신경 쓰는 실패 모드를 잡아내는지 테스트.
- 콘텐츠 또는 연구 워크플로우 – 주제에 대해 일반적인 출력이 줄어드는지 테스트.
- 멀티‑에이전트 시스템 – 단일 에이전트 호출을 포크에 감싸서 영구 통합 전에 효과를 확인.
- 프롬프트 엔지니어링 A/B 테스트 – 인지 레이어가 자체 프롬프트 반복에 미치는 영향을 측정.
Setup
-
세 개의 크레덴셜 설정
- OpenAI (두 프로듀서 에이전트)
- Google Gemini (블라인드 평가자)
- Ejentum API용 Header Auth (무료 키는 ejentum.com에서 100회 호출 가능)
-
n8n 채팅 트리거에 프롬프트 붙여넣기.
-
워크플로우 구성 (모드 선택을 위한 JSON 본문 등).
-
워크플로우 실행하여 다음을 얻음:
- 한 번 실행에서의 A vs B 출력.
- 같은 실행에서 나온 블라인드 평가자 판정 JSON.
-
리소스 – 워크플로우 JSON, README, 그리고 IDE 설정용 TypeScript 포트(Antigravity, Claude Code, Cursor).