배포 시뮬레이션으로 출시 전 모델 행동 예측
출처: OpenAI 블로그
소개
새 모델을 출시하기 전에 연구소는 단순히 그 모델이 무엇을 할 수 있는지 이해하는 것이 아니라, 실제 사용 환경에서 어떻게 작동할 가능성이 있는지, 그리고 어떤 새로운 위험을 야기할 수 있는지 파악해야 합니다. 능력 증가와 함께 이 중요성은 더욱 커집니다. 선행 배포 안전 검토의 일환으로 표적 평가, 레드 팀 테스트 및 기타 체크를 통해 모델 행동을 이해합니다. 우리는 이제 배포가 일어나기 전인 후보 모델이 사용자들에게 도달하기 전에 어떻게 행동할지를 미리 보여주는 시뮬레이션 방법을 사용하기 시작했습니다. 이는 보완적인 신호를 제공합니다.
배포 시뮬레이션은 실제 배포가 일어날 때까지 미래 배포를 시뮬레이션하는 방법입니다. 우리는 이전 대화를 개인정보 보호에 유의하면서 새로운 후보 모델과 재생합니다. 이를 통해 배포 전 실제 상황에 어떻게 새 모델이 반응하는지, 새로운 원치 않는 행동이 등장하는지 여부와 그 빈도 등을 연구할 수 있습니다.
GPT‑5 시리즈 Thinking 배포 중 여러 차례에 걸쳐 배포 시뮬레이션은 원치 않는 모델 행동 빈도 추정을 개선하고, 출시 전 새로운 정렬 형태를 발견하는 데 도움을 주며, 모델이 자신이 테스트받고 있음을 인식할 수 있는 위험을 낮추는 데 기여했습니다. 또한 어려운 에이전시 롤아웃에 적용했으며, 이를 통해 표준 채팅을 넘어 도구 사용이 포함된 복잡한 에이전트 환경으로 확장될 수 있음을 보였으며, 내부 모델 배포 전 위험 평가를 위해 활용할 수 있음을 확인했습니다.
배포 시뮬레이션에서 얻은 통찰은 모델 개발 단계에서 전통적인 평가의 맹점을 파악하고 완화 방안 및 배포 결정을 안내하는 데 사용되었습니다. 파이프라인을 더 쉽게 실행할 수 있게 되면, 향후 모델 개발 과정에서는 더욱 중요한 역할을 할 것으로 기대합니다.
배포 시뮬레이션 작동 방식
산업 전반에서 사용되는 사전 배포 평가는 일반적으로 합성, 수작업 작성, 혹은 실제 프로덕션 프롬프트를 혼합한 것으로 구성되며, 이들을 의도적으로 어려움, 고위험성, 또는 적대적 특성을 갖게 선택합니다. 이러한 평가는 일반적으로 두 가지 얽힌 목표를 가지고 있습니다: 1) 배포 트래픽에서 거의 발생하지 않을 가능성이 있는 상황에 모델을 스트레스 테스트하여 그 응답을 평가하고, 2) 원치 않는 모델 행동을 전반적으로 이해하고 새로운 원치 않는 행동을 발견하며 배포 시점 빈도를 예측하는 것입니다.
전통적 평가는 여전히 첫 번째 목표에 필수적이지만, Deployment Simulation은 비특정 위험(non‑tail risks)에 대해 보다 큰 발전을 이뤘습니다(우리의 실험에서는 빈도가 20만 메시지당 1 미만이 발생하는 행동을 측정하기 어렵다는 한계가 있습니다). 배포 시뮬레이션의 강점은 전통적 평가와 마주해야 하는 핵심 과제를 회피함으로써 비롯됩니다:
- 커버리지: 평가 프롬프트가 모든 원치 않는 모델 행동 유형을 커버할 것이라고 확신하기 어렵습니다. 새로운 원치 않는 행동을 측정하려면 새로운 평가를 만들어야 하고, 어떤 해를 측정해야 하는지 파악해야 합니다.
- 선택 편향: 전통적 평가는 특정 원치 않는 모델 행동을 중심으로 구성되며, 과거에 발생한 맥락을 강조하는 방식으로 선택되어 편향될 수 있습니다.
- 모델이 테스트받고 있음을 인식: 모델은 점점 더 자신이 테스트받고 있음을 파악할 수 있어 행동이 왜곡되고 안전성 측정에 영향을 미칩니다. OpenAI에서 사용하는 많은 전통적 평가는 실제 프로덕션 트래픽을 기반으로 하므로 이 문제를 겪지 않지만, 이는 업계 전반에 걸친 전통적 평가의 일반적인 문제입니다.
배포 시뮬레이션의 핵심 기술은 간단합니다: 우리는 배포에서 최근 대화들을 가져와 기존 모델의 원본 어시스턴트 응답을 제거하고, 출시 예정인 후보 모델로 재생성합니다. 완성된 답변을 검토하여 새로운 실패 모드를 찾고, 이 배포와 유사한 분포 내 빈도를 기반으로 배포 시점 원치 않는 행동 빈도를 추정합니다. 출시 후에 실제 배포 트래픽에서 동일한 측정을 수행함으로써 우리 예측을 검증할 수 있습니다.
배포 시뮬레이션은 앞서 언급한 세 가지 한계를 크게 완화합니다: 샘플링 편향은 최근 사용량을 대표하는 평가 프롬프트 분포를 사용함으로써 해결됩니다. 대표적인 프롬프트를 사용한 배포 시뮬레이션은 커버리지에 대한 우려도 완화할 수 있습니다. 우리는 단순히 더 많은 트래픽을 시뮬레이션함으로써 원치 않는 모델 행동을 보다 풍부하게 커버할 수 있습니다. 계산과 커버리지 사이의 이 tradeoff(교환)은 중요합니다. 이는 위험 평가의 품질이 수동으로 새로운 평가를 만들기 위한 노력에 의존하는 것이 아니라 계산량에 따라 향상된다는 것을 의미합니다. 모델은 배포 시뮬레이션을 통해 얻은 대화와 실제 배포 트래픽 사이의 차이를 구분하지 못하는 것으로 보입니다.
그림 1: 우리 배포 시뮬레이션 파이프라인 개요
비교
| 구분 | 전통적 평가 | 배포 시뮬레이션 |
|---|---|---|
| 커버리지 | 저 빈도·고위험성 위험에 대한 커버age가 좋음 | 배포 트래픽에서 예상되는 다양한 위험을 포괄적으로 이해 가능 |
| 표현/편향 | 과거 발생 사례에 초점을 맞춘 표적 평가, 낮은 빈도 위험에 편향됨 | 현재 배포 트래픽의 실제 분포를 반영한 대표적인 위험에 초점 |
| 평가 인식 | 모델이 테스트받고 있음을 쉽게 인식해 행동 왜곡 가능성 있음 | 배포와 유사한 맥락으로 모델 인식 억제 |
| 노력 | 수작업으로 프롬프트 분배 및 설정 설계에 많은 시간 필요 | 인프라 초기 비용 후 배포 전 프록스 재사용 및 알려진 실패 모드 검증 도구 활용 |
전통적 평가와 Deployment Simulation의 고수준 비교
배포 시뮬레이션 테스트 방법
배포 시뮬레이션을 평가하기 위해 우리는 GPT‑5.4 Thinking에 대한 20가지 원치 않는 행동 유형의 배포 시점 빈도에 대한 예측을 사전 등록했습니다. 또한 GPT‑5 시리즈 Thinking 모델의 다른 배포들에 대해 회고적 연구를 진행했습니다.
분석하는 모델 행동은 정렬(정렬)과 허용되지 않은 콘텐츠 카테고리를 모두 포함하며, 시스템 카드에 보고된 바 있습니다(예: 도구에 대해 거짓말을 하거나 허용되지 않은 성적 내용을 출력함). 이 결과에서는 원치 않는 모델 행동 20개 카테고리만 추적하고 새로운 정렬 행동을 찾고 있을 뿐이며, Deployment Simulation은 배포 시점 모델 속성(any deployment-time model property)을 시뮬레이션할 수 있는 일반적인 기술입니다.
사용한 프로덕션 트래픽도 GPT‑5 시리즈 Thinking 모델에서 나왔습니다. 평가를 진행하기 전에 자동으로 계정 연결 식별자와 식별 가능한 정보를 제거했습니다. 개인정보 보호 정책에 따라 우리는 모델 개선을 위해 데이터를 허용한 사용자들만 ChatGPT 트래픽을 분석했으며, 평가 결과는 전체적인 요약만 보고했습니다.
총 약 130만 개의 익명화된 대화를 GPT‑5 Thinking에서 GPT‑5.4 배포까지 분석했으며, 이는 2025년 8월부터 2026년 3월까지의 기간을 포괄합니다.
평가 방법론
배포 시뮬레이션이 만든 사전 배포 위험 평가의 품질을 세 가지 주요 방식으로 평가했습니다:
- 분류 체계 커버리지: 출시 후 감사가 초기 원치 않는 행동 분류에 없었던 중요한 정렬 행동을 발견했는가?
- 방향 정확도: 시뮬레이션이 알려진 행동을 위해 배포 빈도가 증가할지 감소할지를 정확히 예측했는가?
- 비율 교정: 우리 사전 배포 예측이 실제 비율과 일치했는가?