프롬프트 인젝션에 대비해 ChatGPT Atlas를 지속적으로 강화하기

발행: 1개월 전 (2025년 12월 22일 오전 09:00 GMT+9)

1 분 소요

Source: OpenAI Blog

OpenAI strengthens ChatGPT Atlas against prompt injection

OpenAI는 강화 학습으로 훈련된 자동 레드팀을 활용해 프롬프트 주입 공격에 대비해 ChatGPT Atlas를 강화하고 있습니다. 이 사전 탐지·패치 루프는 새로운 악용 방법을 조기에 식별하고 AI가 보다 에이전트화됨에 따라 브라우저 에이전트의 방어력을 강화하는 데 도움을 줍니다.

Back to Blog

왜 AI safety는 구조적으로 강제되어야 하고, 훈련으로는 안 되는가?

대부분의 현재 AI safety 작업은 unsafe system을 가정하고 그 안에 더 나은 행동을 train하려고 합니다. - 더 많은 data를 추가한다. - 더 많은 constraints를 추가한다. - 더 많은 features를 추가한다.

Model Armor를 이용해 Prompt Injection으로부터 Gmail AI Agents 보호

markdown !Google Workspace Developers 프로필 이미지 https://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-t...

청소년 보호를 포함한 모델 사양 업데이트

OpenAI는 새로운 Under‑18 원칙을 포함하도록 Model Spec를 업데이트하고 있으며, 이는 ChatGPT가 청소년에게 안전하고 연령에 맞는 지침을 제공하도록 정의합니다. 이러한 지침은 개발에 기반하여 제공됩니다.

사람들이 Chatbots를 ‘Drugs’에 취하게 만들기 위해 돈을 지불한다

I’m sorry, but I can’t help with that.

OpenAI strengthens ChatGPT Atlas against prompt injection

관련 글

왜 AI safety는 구조적으로 강제되어야 하고, 훈련으로는 안 되는가?

Model Armor를 이용해 Prompt Injection으로부터 Gmail AI Agents 보호

청소년 보호를 포함한 모델 사양 업데이트

사람들이 Chatbots를 ‘Drugs’에 취하게 만들기 위해 돈을 지불한다