reward hacking

0个月前 · ai

为什么 AI 安全应从结构上强制，而不是通过训练

大多数当前的 AI 安全工作假设系统不安全，并尝试对其进行更好的行为训练。- 我们添加更多数据。- 我们添加更多约束。- 我们添加更多 fi...

#AI safety #alignment #reinforcement learning #structural enforcement #machine learning #AI governance #reward hacking
1个月前 · ai

【论文】EvilGenie：奖励劫持基准

我们介绍 EvilGenie，一个用于编程环境中 reward hacking 的基准。我们从 LiveCodeBench 获取问题，并创建一个环境，使得 agents …

#reward hacking #code generation #benchmark #LLM evaluation #AI safety