Escalation Rule: 모든 AI Agent Config에 빠진 한 줄
Source: Dev.to
무엇이 일어나는가 (없을 경우)
에스컬레이션 규칙이 없으면, 에이전트는 모호한 상황에서 최선을 다합니다. “최선을 다한다”는 것이 다음과 같은 경우가 될 때는 문제가 됩니다:
- 자신이 판단할 권한이 없는 결정을 내림
- 불완전한 정보에 기반해 진행함
- 추적하기 어려운 하위 문제를 생성함
- 조용히 틀린데 자신감 있게 보이는 출력 제공
에이전트가 악의적인 것은 아니며, 단지 작업을 완료한다는 지시를 따를 뿐입니다. 작업을 깨끗하게 완료할 수 없을 때 무엇을 해야 하는지는 알려지지 않았습니다.
패턴
에스컬레이션 규칙은 세 부분으로 구성됩니다:
1. 트리거 조건
“불확실함”을 명시적으로 정의합니다. 예시:
- 필수 입력이 누락된 경우
- 상충되는 지시가 있는 경우
- 인간의 판단이 필요한 결정(돈을 쓰는 것, 외부 파티와 연락, 데이터 삭제 등)
- 정의된 임계값 이하의 신뢰도
2. 구조화된 출력
트리거가 발동하면, 인간이 조치를 취할 수 있도록 충분한 컨텍스트를 담은 JSON 파일(예: outbox.json)을 작성합니다:
{
"status": "escalated",
"reason": "Missing customer ID — cannot proceed with refund processing",
"context": "Order #4821, amount $89.99, customer email unverified",
"suggested_action": "Verify customer identity before processing",
"timestamp": "2026-03-08T07:00:00Z"
}
3. 하드 스톱
에이전트는 파일을 작성하고 멈춥니다. 재시도하거나 우회책을 찾으려 하지 않으며, 인간이 개입할 때까지 진행하지 않습니다.
에이전트 설정에 적용하기
설정 파일(예: SOUL.md)에 넣을 수 있는 예시 문구:
## Escalation Rule
If you encounter a situation where you are uncertain about the correct action,
or where proceeding could cause irreversible harm, STOP immediately.
Write your current state, the reason for stopping, and relevant context
to `outbox.json`. Do not attempt to continue or find a workaround.
Uncertainty is a valid stopping condition.
마지막 문장이 핵심입니다: “Uncertainty is a valid stopping condition.”
LLM은 도움이 되도록 훈련되어 있기 때문에, 도움을 주지 않겠다는 명시적인 허가가 필요합니다.
실제 결과
이 패턴을 여섯 개 에이전트에 적용한 결과:
- 80% 감소된 하위 오류 – 대부분의 실수가 불확실성 지점에서 잡힙니다.
- 짧아진 디버깅 시간 –
outbox.json이 빵 부스러기처럼 단서를 제공합니다. - 에이전트 출력에 대한 신뢰도 상승 – 에이전트가 진행할 때는 기준을 통과했음을 알 수 있습니다.
흔한 반론
“하지만 이러면 에이전트가 계속 멈출 거예요.”
올바르게 설정된 에이전트는 그렇지 않습니다. 과도한 멈춤은 트리거 조건이 너무 넓게 정의된 경우입니다. “불확실함”의 정의를 좁히면 멈춤 빈도는 크게 감소합니다. 가끔씩 잘 설명된 멈춤은 자신감 있게 조용히 틀린 결과보다 훨씬 유용합니다.
30초 감사 체크리스트
- 각 에이전트의 설정을 검토한다.
- 물어본다: 에이전트가 무엇을 해야 할지 모를 때 어떻게 되는가?
- 답이 “멈추고 알려준다”가 아니라면, 에스컬레이션 규칙이 빠진 것입니다.
오늘 바로 규칙을 추가하세요—단 한 문단이면 충분합니다. 에이전트 운영 품질이 크게 향상되는 것을 확인할 수 있을 것입니다.
이 패턴과 30가지 이상의 다른 패턴은 Ask Patrick Library에 있습니다 — AI 에이전트 구축자를 위한 운영 설정. askpatrick.co