Google Gemma 4, iPhone에서 네이티브 실행 및 전체 오프라인 AI 추론 지원

발행: 3주 전 (2026년 4월 15일 PM 02:19 GMT+9)

4 분 소요

Source: Hacker News

Overview

온‑디바이스 AI는 수년간 화두였지만, 구글의 최신 움직임은 이를 무시하기 어렵게 만들었습니다. 구글의 오픈‑소스 모델 패밀리인 Gemma 4가 이제 iPhone에서 완전한 로컬 추론과 오프라인 기능을 제공하며 직접 실행됩니다. 이는 엣지 AI 배포가 더 이상 미래의 과제가 아니라 지금 바로 진행되고 있다는 신호입니다.

Benchmark Comparison

초기 벤치마크에 따르면 Gemma 4의 31 B 파라미터 버전은 Qwen 3.5의 27 B 모델과 어깨를 나란히 합니다. 두 모델은 파라미터 수에서 약 4 B 차이가 나는 정도로 비교적 비슷한 매치를 이루고 있습니다. 각각 장단점이 있으며, 어느 하나가 모든 작업을 지배하는 것은 아닙니다.

Model Variants for Mobile

더 주목할 만한 이야기는 작은 변형인 E2B와 E4B입니다. 이들은 명확히 모바일 배포를 위해 설계되어, 순수 성능보다 효율성을 우선시합니다. 구글 자체 앱은 E2B 변형을 더 빠르고 가볍으며, 메모리와 열 제한이 중요한 실제 디바이스 환경에 더 적합하기 때문에 사용자에게 권장합니다.

Getting Started

Google AI Edge Gallery를 App Store에서 다운로드합니다.
앱을 열고 원하는 모델 변형을 선택한 뒤, 디바이스에서 직접 추론을 시작합니다.
- API 호출 없음. 클라우드 의존 없음.

Features of Google AI Edge Gallery

프롬프트 기반 생성용 텍스트 인터페이스.
통합 이미지 인식 및 음성 상호작용.
확장 가능한 Skills 프레임워크로, 단순 데모가 아닌 온‑디바이스 AI 실험을 위한 플랫폼 역할을 합니다.

Technical Details

Gemma 4는 iPhone의 GPU를 통해 추론을 수행합니다. 실제로 응답이 매우 낮은 지연 시간으로 도착하며, 이는 소비자 하드웨어가 눈에 띄는 성능 저하 없이 이 수준의 워크로드를 지속할 수 있음을 보여줍니다. 이러한 저지연, 오프라인 기능은 로컬 AI 배포의 상업적 타당성을 강력히 뒷받침합니다.

Implications for Enterprise

오프라인 기능은 다음과 같은 기업 사용 사례의 계산 방식을 바꿉니다:

연결이 불안정한 현장 애플리케이션.
엄격한 데이터 프라이버시 요구가 있는 의료 환경.
데이터를 클라우드로 전송하는 것이 금지된 모든 시나리오.

Conclusion

iPhone에서의 Gemma 4는 단순한 기술 개념 증명을 넘어, 온‑디바이스 AI 시대가 도래했음을 명확히 알리는 신호입니다. 구글에게 있어 Gemma 패밀리는 확실히 병에서 나온 상태입니다.

Google Gemma 4, iPhone에서 네이티브 실행 및 전체 오프라인 AI 추론 지원

Overview

Benchmark Comparison

Model Variants for Mobile

Getting Started

Features of Google AI Edge Gallery

Technical Details

Implications for Enterprise

Conclusion

관련 글

휴머노이드 ‘Lightning’ 로봇, 하프 마라톤 기록 경신

Qwen3.6-Max-Preview: 더 똑똑하고, 더 날카롭게, 여전히 진화 중

LLM 벤치마크 재고: 점수만으로는 전체 이야기를 알 수 없는 이유

일반 Evals에서 특정 모니터로: Annotation Queue Bridge