reward hacking

0개월 전 · ai

왜 AI safety는 구조적으로 강제되어야 하고, 훈련으로는 안 되는가?

대부분의 현재 AI safety 작업은 unsafe system을 가정하고 그 안에 더 나은 행동을 train하려고 합니다. - 더 많은 data를 추가한다. - 더 많은 constraints를 추가한다. - 더 많은 features를 추가한다.

#AI safety #alignment #reinforcement learning #structural enforcement #machine learning #AI governance #reward hacking
1개월 전 · ai

[Paper] EvilGenie: 보상 해킹 벤치마크

우리는 프로그래밍 환경에서 보상 해킹을 위한 벤치마크인 EvilGenie를 소개합니다. 우리는 LiveCodeBench에서 문제를 가져와 에이전트가 사용할 수 있는 환경을 만들고...

#reward hacking #code generation #benchmark #LLM evaluation #AI safety