EUNO.NEWS EUNO.NEWS
  • All (2328) +189
  • AI (543) +17
  • DevOps (137) +1
  • Software (976) +118
  • IT (666) +52
  • Education (5) +1
  • Notice (1)
  • All (2328) +189
    • AI (543) +17
    • DevOps (137) +1
    • Software (976) +118
    • IT (666) +52
    • Education (5) +1
  • Notice (1)
  • All (2328) +189
  • AI (543) +17
  • DevOps (137) +1
  • Software (976) +118
  • IT (666) +52
  • Education (5) +1
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1주 전 · ai

    [Paper] EvilGenie: 보상 해킹 벤치마크

    우리는 프로그래밍 환경에서 보상 해킹을 위한 벤치마크인 EvilGenie를 소개합니다. 우리는 LiveCodeBench에서 문제를 가져와 에이전트가 사용할 수 있는 환경을 만들고...

    #reward hacking #code generation #benchmark #LLM evaluation #AI safety
EUNO.NEWS
RSS GitHub © 2025