당신의 AI가 읽고, Gemma 4는 볼 수 있다.

발행: 2주 전 (2026년 5월 23일 PM 04:20 GMT+9)

10 분 소요

출처: Dev.to

이 글은 Gemma 4 챌린지: “Gemma 4에 대해 쓰기”에 제출한 글입니다.
2년 동안 AI와 대화한다는 것은 타이핑을 의미했습니다. 당신은 말을 글로 설명하고, AI는 글로 답했습니다. 사진, 손글씨 메모, 스크린샷에 대한 도움이 필요했다면 먼저 그것을 문단으로 바꿔야 했고, 중요한 부분을 빼먹지 않기를 바랐습니다.

Gemma 4는 멀티모달(multimodal)합니다. 이는 복잡한 말이 아니라 간단한 아이디어: 설명하는 대신 사진을 보여줄 수 있다는 뜻이죠. 저는 오후 내내 바로 그걸 해봤고, “AI에게 말하기”와 “AI에게 보여주기” 사이의 차이가 생각보다 컸습니다.

다음은 멀티모달이 실제로 의미하는 것, 제가 보여준 세 가지 사례, 그리고 약 5분 안에 직접 체험해볼 수 있는 방법(무료, 별도 하드웨어 필요 없음)입니다.

**모드(mode)**는 입력 유형을 말합니다: 텍스트는 하나의 모드, 이미지가 또 다른 모드, 오디오는 세 번째 모드입니다.
텍스트 전용 모델은 단어만 읽을 수 있는 친구에게 문자 메시지를 보내는 것과 같습니다. 멀티모달 모델은 그 친구와 영상 통화를 하는 것과 같죠—카메라에 무언가를 들이대면 상대가 바로 볼 수 있습니다.
Gemma 4는 텍스트, 이미지, 오디오를 같은 모델로 처리합니다. 별도의 “이미지 리더”를 붙이는 것이 아니라, 문장을 이해하는 것과 사진을 이해하는 것이 동일한 엔진입니다. 이것은 겉보기에보다 훨씬 큰 차이를 만들며, 아래 예시들이 이를 명확히 보여줍니다.

저는 영리한 프롬프트를 짜지 않았습니다. 사진을 그대로 업로드하고, 지식이 풍부한 친구에게 묻듯이 간단한 질문만 했습니다.

시들어 보이는 실내 식물
사진을 올리고 “뭐가 문제인가요?”라고 물었습니다. 모델은 아래쪽 잎이 노랗게 변하고 토양이 물에 젖어 보이며, 과다 급수가 원인일 가능성을 제시하고 화분 배수가 제대로 되는지 확인하라고 조언했습니다. 저는 잎이 노랗다는 사실을 전혀 언급하지 않았지만, 모델이 스스로 알아냈습니다.
손글씨 장보기 리스트
제 손글씨는 정말 형편없습니다. 사진을 찍어 올리고 리스트를 텍스트로 변환해 달라고 요청했더니, 거의 모든 항목을 정확히 읽어냈습니다(“타마린드”를 “토마토”로 추측했지만, 괜찮았습니다). 직접 타이핑하는 것보다 사진을 찍는 것이 훨씬 빨랐습니다.
제목 없는 라인 차트 스크린샷
“여기 추세가 어떻게 되나요?”라고 물었더니, 모델은 꾸준히 상승하는 흐름, 중간의 하강, 마지막의 급격한 상승을 설명했습니다—레이블이 아니라 데이터 형태 자체를 읽어낸 것이죠. 차트를 보는 것이 부담스러운 사람에게는 조용한 초능력과도 같습니다.

완벽하지는 않았습니다. 장보기 항목 하나를 틀렸고, 아주 작은 밀집 텍스트를 읽으라고 하면 어려움을 겪을 것입니다. 하지만 “설명 대신 보여주기”는 요청할 수 있는 도움의 종류를 크게 바꿉니다. 이제 번역자가 될 필요가 없습니다.

이게 단순히 재미를 넘어 중요한 이유 3가지

번역 단계가 사라집니다.
이미지를 말로 설명하는 것은 손실이 크고 시간이 오래 걸립니다. 사진 한 장이면 색, 레이아웃, 손글씨, 언급하지 않은 디테일까지 모두 담고 있습니다.
타이핑을 싫어하는 사람도 AI를 활용할 수 있습니다.
카메라를 문제에 향하고 물어보기만 하면 됩니다. 완벽한 프롬프트를 작성하는 것보다 훨씬 낮은 진입 장벽이죠.
작은 버전은 로컬에서 실행됩니다.
Gemma 4는 노트북이나 심지어 스마트폰에서도 돌아갈 수 있을 정도로 작은 사이즈로 제공됩니다. 즉, “AI에게 사진을 보여준다”는 것이 내 사진을 누군가의 서버에 업로드한다는 의미가 아니라, 내 기기 자체에서 처리한다는 뜻입니다. 개인 문서, 의료 사진, 아이 숙제 등 민감한 데이터를 다룰 때 유용함과 거부감 사이의 차이를 만들죠.

마지막 요점이 제가 가장 강조하고 싶은 부분입니다. 시각을 갖춘 모델이 완전히 내 소유 하드웨어에서, 인터넷 없이도 동작한다는 것은 2023년엔 SF 소설 수준이었지만, 2026년엔 무료 다운로드로 가능해졌습니다.

시작하는 가장 쉬운 방법 (두 가지 경로, 쉬운 순)

Google AI Studio(aistudio.google.com)에 접속해 Google 계정으로 로그인합니다.
새 프롬프트를 시작하고 모델 드롭다운에서 Gemma 4를 선택합니다.
이미지/업로드 아이콘을 클릭하고 컴퓨터에 있는 사진(식물, 영수증, 화이트보드, 차트 등)을 추가합니다.
간단한 질문을 입력합니다: “이게 뭐에요?” 혹은 “이미지 안 텍스트를 읽어 주세요.”

그럼 AI가 보는 대로 답변을 보여줄 것입니다.
설정도, 카드도, 코딩도 필요 없습니다.

로컬에서 완전히 사생활을 보호하며 실행하고 싶다면

Ollama를 ollama.com에서 설치합니다(윈도우/맥/리눅스용 한 번 다운로드).
터미널을 열고 작은 멀티모달 모델을 받아옵니다:

ollama run gemma4:e4b

첫 실행 시 모델(수 기가바이트)을 한 번 다운로드하면 이후에는 인터넷 없이도 동작합니다.
채팅 프롬프트에 이미지 파일을 지정하고 질문하면, 사진을 로컬에서 읽어 주므로 전혀 업로드되지 않습니다.

먼저 경로 A로 마법을 체험하고, 프라이버시가 필요할 때는 경로 B로 전환하세요.

다음에 시도해 보고 싶은 것은 오디오입니다. Gemma 4는 듣고 볼 수 있으니, 음성 메모와 사진을 동시에 넣고 두 가지에 대한 질문을 할 수 있습니다. 아직은 초기 단계지만, 어떤 가능성을 열어줄지 기대됩니다.

간단한 버전만으로도 일상에서 AI 활용 방식이 크게 바뀝니다. 타이핑은 줄고, 보여주는 횟수는 늘어나며, 영상 통화 상대가 눈을 가졌다는 느낌이 듭니다.

직접 해보고, 이상한 것을 보여주고, AI가 뭐라고 했는지 알려 주세요—그게 재미있는 부분이니까요.

더 깊이 파고들고 싶다면, 공식 모델이 Hugging Face와 Kaggle에 모두 무료로 제공되고 있으니 다운로드해 보세요.

당신의 AI가 읽고, Gemma 4는 볼 수 있다.

이게 단순히 재미를 넘어 중요한 이유 3가지

시작하는 가장 쉬운 방법 (두 가지 경로, 쉬운 순)

로컬에서 완전히 사생활을 보호하며 실행하고 싶다면

관련 글

내 스킬

PREDICTION-20260525-0007: 비대칭 레버리지를 이용한 지루함 [2026-Q3 through 2027-Q3]

서버 없이 100개의 브라우저 기반 이미지 도구를 만든 방법 (FFmpeg WASM, PDF-lib, AI Background Removal)

Nginx CVE-2026-9256, AI 프롬프트 인젝션 방어, 그리고 Claude AI 데이터 유출 데모