정책 게이트가 존재할 때 모델이 자체 검열한다

발행: 1개월 전 (2026년 3월 20일 오전 03:36 GMT+9)

9 분 소요

원문: Dev.to

Source: Dev.to

AI 에이전트에서 대부분의 사람들이 아직 눈치채지 못한 흥미로운 현상이 일어나고 있습니다.

모델 앞에 하드 정책 게이트, 즉 특정 행동을 결정적으로 차단하는 장치를 두면 모델의 행동 양식이 달라집니다. 차단될 행동을 시도하는 것을 멈추고, 그 경계 안에서 작동하도록 적응합니다.

이는 파인튜닝이나 프롬프트 엔지니어링에 관한 것이 아니라, 모델이 일관되고 강제 가능한 제약에 어떻게 반응하는가에 관한 이야기입니다.

가드레일 문제

오늘날 대부분의 AI 안전은 다른 AI가 첫 번째 AI를 감시하는 방식에 의존합니다. 가드레일 모델에 “에이전트가 데이터베이스를 삭제하지 못하게 해라”라고 말하고 그 모델이 듣기를 기대하죠. 하지만 가드레일에도 자체적인 문제가 있습니다. 하버드의 최근 연구에 따르면 ChatGPT의 가드레일 민감도가 사용자의 좋아하는 스포츠 팀과 같은 요인에 따라 달라진다고 합니다—특정 요청에 대해 챈저스 팬보다 차저스 팬이 더 많이 거절당했으며, 검열된 정보를 요청할 때 여성보다 남성이 더 적게 거절당했습니다.

이것이 확률적 시스템을 사용해 다른 확률적 시스템을 검사할 때 발생하는 현상입니다: 결과가 일관되지 않으며 때로는 이상하게 보이기도 합니다.

연구자들은 LLM에서 두 가지 유형의 검열을 구분합니다:

하드 검열 – 모델이 명시적으로 답변을 거부합니다. 예: “그 부분에 대해서는 도와드릴 수 없습니다.”
소프트 검열 – 모델이 정보를 생략하거나 특정 요소를 축소해서 응답하지만, 여전히 답변을 제공합니다.

규칙이 모호할 때 두 경우 모두 예측하기 어렵습니다.

Hard Boundaries가 바뀌는 점

게이트는 추론하지도 않고, 피곤해지지도 않으며, 혼란스러워하지도 않습니다—단순히 코드에 작성된 규칙에 따라 행동을 검사합니다. 규칙이 “no”라고 하면, 매번 그렇습니다.
모델은 이를 빠르게 학습합니다. 윤리나 안전을 이해해서가 아니라, 해당 행동이 거부 규칙에 걸릴 것이 확실하기 때문에 그런 행동을 생성하는 것을 멈춥니다. 에이전트의 목표는 작업을 수행하는 것이며, 항상 차단되는 일에 토큰을 낭비하는 것은 도움이 되지 않습니다.
이는 확률적 가드레일을 사용할 때 모델이 행동하는 방식과 정반대입니다. 다른 모델이 감시하고 속임을 받을 수 있을 때, 에이전트는 탐색하고, 표현을 바꾸며, 통과할 수 있는 문구를 찾으면서 적대적인 역학을 만들어냅니다.
하드 바운더리는 그 적대적인 역학을 제거합니다. 모델은 정규식이나 타입 검사를 회피할 수 없기 때문에 시도를 중단합니다.

이것이 어떻게 보이는가

고객 지원 에이전트를 운영하는 팀은 이 패턴을 발견했습니다. 하드 제한이 적용되기 전에는 에이전트가 정책 한도를 초과하는 환불을 가끔 제안하곤 했습니다. 가드레일이 대부분을 차단했지만 일부는 빠져 나왔습니다.

간단한 규칙—if amount > 500 then deny—을 추가한 후, 행동은 몇 시간 안에 바뀌었습니다. 에이전트는 큰 환불을 제안하는 것을 완전히 멈추고, 대신 스토어 크레딧을 제공하거나, 인간에게 에스컬레이션하고, 경계 내에서 작동하는 대안을 찾았습니다.

쉘 명령에서도 비슷한 패턴이 나타납니다. rm -rf 를 충분히 차단하면 에이전트는 파괴적인 명령을 생성하지 않으며, 그냥 포기합니다.

이는 모델이 도덕적으로 더 나아진 것이 아니라, 제약 조건 내에서 성공하도록 최적화된 결과입니다.

왜 이것이 중요한가

보안 업계는 오랫동안 AI 모델이 제약을 우회하는 방법을 너무 창의적으로 찾아내어, 어떤 장벽도 탈옥(jailbreak)할까 걱정해 왔습니다.

일관된 제약은 행동을 변화시킵니다. 모델이 특정 행동이 항상 실패한다는 것을 학습하면, 그 가지는 효과적인 행동 공간에서 가지치기됩니다. 가장 저항이 적은 경로는 선을 지키는 것이 됩니다.

이러한 영향은 안전을 넘어 확장됩니다:

모델이 더 예측 가능하고 신뢰할 수 있게 됩니다.
예상치 못한 행동에 대한 지속적인 두려움 없이 프로덕션에 투입하기가 쉬워집니다.
메커니즘은 단순한 효율성—모델은 끊임없이 무엇을 시도할지에 대한 미세 결정을 내리며, 항상 실패하는 금지된 행동은 빠르게 포기됩니다.

요점

당신이 실제로 세상에서 무언가를 하는 에이전트를 구축하고 있다면, 이것에 주목할 가치가 있습니다. 에이전트를 제약하는 방식은 단순히 시스템을 보호하는 것이 아니라, 에이전트의 행동 방식을 형성합니다. 잘 설계된 정책 레이어는 외부 검증이 아니라 에이전트 의사결정 과정의 일부가 됩니다.

에이전트는 경계에 맞서기보다 경계와 함께 작동하는 법을 배우게 됩니다.

저는 Faramesh를 구축하고 있습니다. 이 프로젝트는 실제로 이 아이디어를 구현한 것으로, AI 에이전트를 위한 강력한 정책 게이트를 제공합니다. 자세한 내용은 faramesh.dev에서 확인하세요.

정책 게이트가 존재할 때 모델이 자체 검열한다

가드레일 문제

Hard Boundaries가 바뀌는 점

이것이 어떻게 보이는가

왜 이것이 중요한가

요점

관련 글

Claude Code의 settings.json 하드닝 치트시트

우리는 내부 코딩 에이전트를 어떻게 모니터링하여 불일치를 감지하는가

우리는 다른 AI 에이전트를 감사하는 AI를 구축했습니다 (A2A가 실제 운영에서 어떻게 작동하는지)

결정론적 제어 플레인: 신뢰할 수 있는 AI 에이전트 구축