Show HN: 제가 만든 OSS Agent가 Gemini-3-flash-preview에서 TerminalBench 1위를 차지했습니다
발행: (2026년 4월 27일 PM 09:35 GMT+9)
2 분 소요
원문: Hacker News
Source: Hacker News
Results
- **65.2%**를 기록했으며, Google 공식 47.8%, 기존 최고 폐쇄형 모델인 Junie CLI **64.3%**보다 높았습니다.
Clarifications
{agents/skills}.md파일은 한 번도 삽입되지 않았으며, 부정 행위 메커니즘도 전혀 없습니다.- CLI 에이전트는 리더보드 규정에 맞게 실행되었습니다(리소스나 타임아웃을 수정하지 않음).
- 전체 TerminalBench 실행은 에이전트의 완전 오픈소스 버전을 사용해 진행되었으며, GitHub에 있는 내용과 실행된 내용 사이에 차이가 없습니다.
Context
원래는 리더보드에 올라오기를 기다리려 했지만, 유지 관리자가 8일 동안 응답하지 않았고(Hugging Face 저장소에 풀 리퀘스트가 많이 쌓여 있음) 결국 바로 게시하기로 했습니다.
References
- Hugging Face PR:
- Cheating reports on TerminalBench 2.0:
- Hacker News discussion:
Points: 101 Comments: 32