구글, 안드로이드 앱 코딩용 새로운 AI 모델 다수 테스트… 순위 공개
출처: 9to5Google

Google은 다시 한 번 “Android Bench” 순위를 업데이트해 Android 앱 개발에 가장 적합한 AI 모델들을 공개했습니다. 이번 업데이트에서는 오픈‑웨이트 모델들을 다수 추가하고, 각 모델이 사용하는 토큰 수와 비용에 대한 상세 정보를 제공했습니다.
대형 언어 모델이 코딩에 매우 뛰어나게 된 한 가지 이유는, 앱 및 기타 소프트웨어 프로젝트 개발을 돕는 능력이 크게 향상되었기 때문이며, 이는 “바이브 코딩(vibe coding)”이라는 흐름을 촉진했습니다. 올해 초 Google은 Android 앱 개발에 가장 적합한 AI 모델을 평가한 벤치마크 순위를 발표했으며, 여기에는 일반적인 Android 개발 작업과 베스트 프랙티스 준수 여부가 반영되었습니다.
“Android Bench”가 처음 공개됐을 때 Gemini 3.1 Pro가 1위를 차지했고, 이후 OpenAI의 GPT 5.4가 동률을 기록했습니다.
2026년 5월 18일 업데이트 기준으로 새로운 왕이 등장했습니다. Google에 따르면 현재 Android 앱 개발에 가장 적합한 AI 모델은 GPT 5.5이며, GPT 5.4와 Gemini 3.1 Pro보다 약 2% 정도 앞선다고 합니다.
Google은 이제 각 모델에 대해 세 가지 핵심 지표를 표시합니다:
- 평균 지연 시간: 10회 실행에 걸쳐 100개의 작업을 해결하는 데 걸린 시간
- 평균 총 토큰 수: 10회 실행에 걸친 전체 벤치마크 실행 동안 사용된 토큰 양
- 평균 비용: 테스트 시점의 벤치마크 실행당 비용 (USD)
GPT 5.5가 약간 더 강력하지만, Gemini 3.1 Pro와 동일한 기능을 수행하는 데 드는 비용이 두 배 이상 높습니다.
상위 10개 모델 (2026년 5월 21일 기준)
Model Score Avg Latency Avg Total Tokens Avg Cost
-----------------------------------------------------------------------
New: GPT 5.5 7 4 15.5 $133.9
GPT 5.4 7 2.4 21.2 $91.7
Gemini 3.1 Pro Preview 7 2.4 11.5 $49.0
New: Claude Opus 4.7 6.8 11.6 $124.3
GPT 5.3 Codex 6 7.7 11.2 $42.6
Claude Opus 4.6 6.6 9.9 $84.4
GPT 5.2 Codex 6 2.5 24.3 $121.9
Claude Opus 4.5 6.1 9.1 $102.5
Gemini 3 Pro Preview 6 0.4 9.8 $63.7
New: GLM 5.1 5.9 9.7 33.4 $46.7
이번 순위에는 Gemma, Qwen, DeepSeek, MiMo 등 더 많은 오픈‑웨이트 모델도 포함되었습니다. 이 중 GLM 5.1이 가장 높은 점수를 기록했으며, 그 뒤를 Kimi K2.6이 잇습니다.
전체 순위는 Google 공식 웹사이트에서 확인할 수 있습니다.
Google은 대략 월간 주기로 “Android Bench”를 지속적으로 업데이트하고 있습니다. Gemini 3.5 Pro가 곧 출시되고 3.5 Flash가 이미 서비스 중인 만큼, Google 자체 모델이 현재 OpenAI가 차지하고 있는 선두 자리를 되찾을 수 있을지 주목됩니다.