구글, ‘제미나이 3.1 프로’ 출시…오퍼스 4.6 절반 비용으로 AI 1위 탈환
Published: (February 19, 2026 at 08:25 PM EST)
4 min read
Source: Platum
Source: Platum

Gemini 3.1 Pro 발표 및 평가
인텔리전스 인덱스 결과
- 전체 10개 평가 항목 중 6개에서 1위
- 주요 1위 항목:
- Terminal‑Bench Hard (에이전틱 코딩)
- AA‑Omniscience (지식·환각 감소)
- Humanity’s Last Exam (추론·지식)
- GPQA‑Diamond (과학적 추론)
- SciCode (코딩)
- CritPt (연구급 물리 추론)
특히 CritPt에서는 공개되지 않은 연구급 물리 문제를 18 % 정확도로 해결해 2위 모델보다 5 pp 이상 앞섰다.
환각 감소 및 멀티모달 성능
- 전작 Gemini 3 Pro 대비 환각 오류율 38 pp 감소
- 멀티모달 이해·추론 벤치마크 MMMU‑Pro에서
- Gemini 3.1 Pro = 1위
- Gemini 3 Pro = 2위
- Gemini 3 Flash = 3위
- ARC‑AGI‑2 벤치마크에서 77.1 % 기록, Gemini 3 Pro(31.1 %)와 Gemini 3 Deep Think(45.1 %)를 크게 앞섬
실무 에이전틱 평가
- GDPval‑AA에서는 전작 대비 ELO 점수 100점 이상 상승했지만, 클로드 소넷 4.6, 오퍼스 4.6, GPT‑5.2, GLM‑5보다 낮은 순위에 머물러 실세계 에이전틱 작업에서 아직 격차가 존재함을 시사한다.
비용 효율성
- 인텔리전스 인덱스 전체 실행 비용: $892(≈ 1,300,000원) → 오퍼스 4.6·GPT‑5.2 등 경쟁 프론티어 모델의 절반 이하
- API 가격
- 입력 토큰 100만 개당: 2,900원 ($2)
- 출력 토큰 100만 개당: 17,400원 ($12)
- 검색 그라운딩: 월 5,000건까지 무료, 초과 시 1,000건당 20,000원 ($14)
- 오픈소스 모델 GLM‑5(547 달러) 대비 약 2배 비용이 소요돼, 폐쇄형 프론티어 모델 대비 비용 우위는 있지만 오픈소스와의 격차는 여전히 존재함.
파트너 및 기업 반응
- JetBrains AI 디렉터 블라디슬라프 탄코프: 품질 15 % 향상, 더 빠르고 효율적이며 출력 토큰 수 감소
- Databricks: 테이블·비정형 데이터 기반 추론 벤치마크 OfficeQA에서 최고 수준 결과 달성
배포 및 생태계 지원
- 소비자: Gemini 앱, 노트북 LM을 통해 이용 가능 (AI Pro·Ultra 구독자에게 상위 사용 한도 적용)
- 개발자: Gemini API (AI Studio, Gemini CLI, Android Studio) 및 에이전틱 개발 플랫폼 Google Antigravity에서 프리뷰 접근 가능
- 기업: Vertex AI와 Gemini Enterprise 활용 가능
- 마이크로소프트 생태계: GitHub Copilot, Visual Studio, VS Code에서도 이용 가능
향후 일정 및 전망
- 현재는 프리뷰 단계이며, 정식 출시(GA)는 추가 검증 후 조만간 진행될 예정
- AI 모델 왕좌가 수개월 단위로 교체되는 상황에서, 정식 출시 이후에도 Gemini 3.1 Pro가 순위를 유지할 수 있을지 업계의 관심이 집중되고 있다.