EUNO.NEWS EUNO.NEWS
  • All (2352) +197
  • AI (546) +17
  • DevOps (141) +1
  • Software (988) +123
  • IT (672) +55
  • Education (5) +1
  • Notice
  • All (2352) +197
    • AI (546) +17
    • DevOps (141) +1
    • Software (988) +123
    • IT (672) +55
    • Education (5) +1
  • Notice
  • All (2352) +197
  • AI (546) +17
  • DevOps (141) +1
  • Software (988) +123
  • IT (672) +55
  • Education (5) +1
  • Notice
Sources Tags Search
한국어 English 中文
  • 1周前 · ai

    【论文】EvilGenie:奖励劫持基准

    我们介绍 EvilGenie,一个用于编程环境中 reward hacking 的基准。我们从 LiveCodeBench 获取问题,并创建一个环境,使得 agents …

    #reward hacking #code generation #benchmark #LLM evaluation #AI safety
  • 1周前 · ai

    [Paper] 超越准确性:对 Imputation 中 Uncertainty Estimation 的实证研究

    处理缺失数据是数据驱动分析中的核心挑战。现代 imputation 方法不仅旨在实现精确重建,而且在 … 方面也有所不同。

    #imputation #uncertainty estimation #calibration #deep generative models #benchmark
  • 1周前 · ai

    [Paper] Bangla 手语翻译:数据集创建挑战、基准测试与前景

    Bangla Sign Language Translation (BdSLT) 迄今为止受到严重限制,因为该语言本身资源极其匮乏。标准的句子级数据集创建……

    #sign-language #dataset #translation #computer-vision #benchmark
  • 1周前 · ai

    [Paper] LLM 能否提取类似人类的细粒度证据用于基于证据的事实核查?

    误信息经常在在线新闻文章下的用户评论中传播,这凸显了需要有效的方法来检测事实错误的信息。

    #LLM #evidence extraction #fact-checking #multilingual dataset #benchmark
  • 1周前 · ai

    [Paper] CodeFuse-CommitEval:面向提交信息和代码变更不一致检测的LLM能力基准测试

    Version control 依赖 commit messages 来传达代码更改的原因,但这些 messages 往往质量低下,更关键的是不一致……

    #LLM #benchmark #commit-message inconsistency #software engineering #code review
EUNO.NEWS
RSS GitHub © 2025