· ai
为什么 AI 安全应从结构上强制,而不是通过训练
大多数当前的 AI 安全工作假设系统不安全,并尝试对其进行更好的行为训练。- 我们添加更多数据。- 我们添加更多约束。- 我们添加更多 fi...
大多数当前的 AI 安全工作假设系统不安全,并尝试对其进行更好的行为训练。- 我们添加更多数据。- 我们添加更多约束。- 我们添加更多 fi...
我们介绍 EvilGenie,一个用于编程环境中 reward hacking 的基准。我们从 LiveCodeBench 获取问题,并创建一个环境,使得 agents …