EUNO.NEWS EUNO.NEWS
  • All (2385) +223
  • AI (549) +19
  • DevOps (142) +2
  • Software (1001) +131
  • IT (688) +70
  • Education (5) +1
  • Notice
  • All (2385) +223
    • AI (549) +19
    • DevOps (142) +2
    • Software (1001) +131
    • IT (688) +70
    • Education (5) +1
  • Notice
  • All (2385) +223
  • AI (549) +19
  • DevOps (142) +2
  • Software (1001) +131
  • IT (688) +70
  • Education (5) +1
  • Notice
Sources Tags Search
한국어 English 中文
  • 1周前 · ai

    【论文】EvilGenie:奖励劫持基准

    我们介绍 EvilGenie,一个用于编程环境中 reward hacking 的基准。我们从 LiveCodeBench 获取问题,并创建一个环境,使得 agents …

    #reward hacking #code generation #benchmark #LLM evaluation #AI safety
  • 1周前 · ai

    [Paper] 对离线数据选择与在线自我精炼生成的统一理解——后训练 LLM

    离线数据选择和在线自我精炼生成能够提升数据质量,是将大语言模型(LLMs)适配到特定…的关键步骤。

    #LLM fine-tuning #bilevel optimization #data selection #self-refining generation #AI safety

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2025