Show HN: 我构建的 OSS Agent 在 Gemini-3-flash-preview 上的 TerminalBench 中名列第一
发布: (2026年4月27日 GMT+8 20:35)
1 分钟阅读
原文: Hacker News
Source: Hacker News
结果
- 得分 65.2%,相较于 Google 官方的 47.8%,以及现有的顶级闭源模型 Junie CLI 的 64.3%。
说明
- 在任何阶段都没有插入
{agents/skills}.md文件。绝不存在任何作弊机制。 - CLI 代理以符合排行榜要求的方式运行(未修改资源或超时设置)。
- 完整的 TerminalBench 运行使用了该代理的完全开源版本;GitHub 上的内容与实际运行的版本没有区别。
背景
我原本打算等它上榜,但在等待了 8 天仍未收到维护者的回复(他们的 Hugging Face 仓库积压了大量 PR),于是决定直接发布。
参考
- Hugging Face PR:
- 关于 TerminalBench 2.0 的作弊报告:
- Hacker News 讨论:
积分: 101 评论: 32