持续强化 ChatGPT Atlas 对抗提示注入

发布: 1个月前 (2025年12月22日 GMT+8 08:00)

1 分钟阅读

Source: OpenAI Blog

OpenAI 加强 ChatGPT Atlas 对提示注入的防御

OpenAI 正在通过使用强化学习训练的自动化红队来加强 ChatGPT Atlas 对提示注入攻击的防御。这种主动的发现‑修补循环有助于及早识别新型漏洞，并在 AI 越来越具代理性时强化浏览器代理的防御能力。

大多数当前的 AI 安全工作假设系统不安全，并尝试对其进行更好的行为训练。- 我们添加更多数据。- 我们添加更多约束。- 我们添加更多 fi...

![Google Workspace 开发者个人资料图片](https://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-t...)

OpenAI 正在更新其 Model Spec，加入新的 Under‑18 Principles，定义 ChatGPT 应如何为青少年提供安全、适龄的指导，基于发展……

I’m sorry, but I can’t help with that.