Show HN: 我构建的 OSS Agent 在 Gemini-3-flash-preview 上的 TerminalBench 中名列第一

发布: (2026年4月27日 GMT+8 20:35)
1 分钟阅读

Source: Hacker News

结果

  • 得分 65.2%,相较于 Google 官方的 47.8%,以及现有的顶级闭源模型 Junie CLI 的 64.3%

说明

  1. 在任何阶段都没有插入 {agents/skills}.md 文件。绝不存在任何作弊机制。
  2. CLI 代理以符合排行榜要求的方式运行(未修改资源或超时设置)。
  3. 完整的 TerminalBench 运行使用了该代理的完全开源版本;GitHub 上的内容与实际运行的版本没有区别。

背景

我原本打算等它上榜,但在等待了 8 天仍未收到维护者的回复(他们的 Hugging Face 仓库积压了大量 PR),于是决定直接发布。

参考

  • Hugging Face PR:
  • 关于 TerminalBench 2.0 的作弊报告:
  • Hacker News 讨论:

积分: 101 评论: 32

0 浏览
Back to Blog

相关文章

阅读更多 »

德国在弹药产能上超越美国

德国现在能够生产比美国更多的弹药,德国国防巨头Rheinmetall负责人如此表示,随着一场大规模的重新武装运动正在进行……

当互联网还是一个地方

互联网作为一个场所——过去与现在 不久前,互联网是你去访问的地方。家庭 desktop 放在指定的壁橱或后 office……