· ai
왜 AI safety는 구조적으로 강제되어야 하고, 훈련으로는 안 되는가?
대부분의 현재 AI safety 작업은 unsafe system을 가정하고 그 안에 더 나은 행동을 train하려고 합니다. - 더 많은 data를 추가한다. - 더 많은 constraints를 추가한다. - 더 많은 features를 추가한다.
대부분의 현재 AI safety 작업은 unsafe system을 가정하고 그 안에 더 나은 행동을 train하려고 합니다. - 더 많은 data를 추가한다. - 더 많은 constraints를 추가한다. - 더 많은 features를 추가한다.
우리는 프로그래밍 환경에서 보상 해킹을 위한 벤치마크인 EvilGenie를 소개합니다. 우리는 LiveCodeBench에서 문제를 가져와 에이전트가 사용할 수 있는 환경을 만들고...