Show HN: 제가 만든 OSS Agent가 Gemini-3-flash-preview에서 TerminalBench 1위를 차지했습니다

발행: (2026년 4월 27일 PM 09:35 GMT+9)
2 분 소요

Source: Hacker News

Results

  • **65.2%**를 기록했으며, Google 공식 47.8%, 기존 최고 폐쇄형 모델인 Junie CLI **64.3%**보다 높았습니다.

Clarifications

  1. {agents/skills}.md 파일은 한 번도 삽입되지 않았으며, 부정 행위 메커니즘도 전혀 없습니다.
  2. CLI 에이전트는 리더보드 규정에 맞게 실행되었습니다(리소스나 타임아웃을 수정하지 않음).
  3. 전체 TerminalBench 실행은 에이전트의 완전 오픈소스 버전을 사용해 진행되었으며, GitHub에 있는 내용과 실행된 내용 사이에 차이가 없습니다.

Context

원래는 리더보드에 올라오기를 기다리려 했지만, 유지 관리자가 8일 동안 응답하지 않았고(Hugging Face 저장소에 풀 리퀘스트가 많이 쌓여 있음) 결국 바로 게시하기로 했습니다.

References

  • Hugging Face PR:
  • Cheating reports on TerminalBench 2.0:
  • Hacker News discussion:

Points: 101 Comments: 32

0 조회
Back to Blog

관련 글

더 보기 »

Tell HN: 새로운 Tindie 팀의 업데이트

소개 친애하는 Tindie 커뮤니티 여러분, 저는 공유 수이며, 새로운 Tindie 소유팀을 대표하여 글을 씁니다. 현재 Tindie는 EETree가 소유하고 있습니다.

인터넷이 장소였을 때

인터넷을 하나의 장소로 — 과거와 현재 그리 오래 전만은, 인터넷은 당신이 찾아가는 장소였다. 가족용 데스크톱은 지정된 옷장이나 뒤쪽 사무실에 놓여 있었다....