DeepSeek가 마침내 ‘눈을 뜨다’: 멀티모달 이미지 인식 실시간 서비스 시작, 중국 LLM의 마지막 누락된 조각

발행: (2026년 5월 2일 PM 02:12 GMT+9)
12 분 소요
원문: Dev.to

Source: Dev.to

지난 1년 동안 DeepSeek의 순수 텍스트 버전에 의존해 온 사용자들에게 이 소식은 마치 시각 장애인이 시력을 되찾은 것과 같습니다.

DeepSeek은 이제 사진을 업로드하면 이미지 내용을 진정으로 이해합니다. 그것은 다음을 할 수 있습니다:

  • 유물의 스타일적 시기를 식별
  • 복잡한 차트를 해석
  • 음식 재료를 분석
  • 시각적 특징으로부터 역사적 맥락을 추론

한때 농담처럼 “눈이 먼”이라고 불리던 그 고래가 드디어 눈을 뜨게 되었습니다.

이것이 “이미지‑투‑텍스트” 그 이상인 이유

다중모달 능력이 단순히 “이미지를 AI에 넣고 설명하게 하는 것”이라고 생각하는 경우가 많습니다. 만약 그렇다면, 6개월 전만 해도 많은 모델이 이미 이를 수행할 수 있었을 것입니다. DeepSeek의 새로운 모드는 훨씬 더 깊게 들어갑니다.

  • 사고 과정 출력:

    1. 사용자의 요청을 분석합니다
    2. 이미지를 “검토”합니다
    3. 해석을 생성합니다
  • 이것은 픽셀‑단위 설명이 아니라 추론 체인을 갖춘 시각적 이해입니다.

지금까지의 실제 테스트 결과

테스트DeepSeek가 수행하는 내용
청동 유물 사진형태와 무늬를 설명하고 형식적 특성을 기반으로 대략적인 시대와 문화 유형을 추론합니다
외국 스낵 패키지브랜드를 식별하고, 성분 목록을 읽으며, 식이 요법에 대한 제안을 제공합니다
컨셉 폰 렌더링디자인 언어를 분석하고, 제품 포지셔닝을 추론합니다

핵심 차이점: DeepSeek의 다중모달 능력은 이미지를 텍스트로 변환한 뒤 그 텍스트를 언어 모델에 입력하는 것이 아닙니다. 대신 시각 인코딩과 언어 이해가 모델 내부에서 깊게 융합됩니다.

기술 유출에 따르면, 회색조 테스트는 DeepSeek‑OCR2시각 인과 흐름 메커니즘을 기반으로 구축된 것으로 보이며, 이는 모델이 인간처럼 중요도에 따라 이미지 내용을 재배열하여 핵심 영역을 우선 처리하고 보조 정보를 뒤따라 처리하게 합니다. 이 때문에 같은 시기에 출시된 경쟁 제품에 비해 복잡한 차트와 문서에서 뛰어난 정확성을 보이는 것입니다.

맥락 및 시기

  • 소문: 멀티모달 업그레이드는 오랫동안 “천둥은 많고 비는 적다”는 평을 받아왔음.
  • 2026년 1월: DeepSeek‑OCR2 오픈소스화 → 외부에서는 빠른 비전 통합을 기대함.
  • 4개월 후: DeepSeek‑V4가 성숙해진 뒤 통합이 드디어 이루어짐.

산업 현황 (2025 말 – 2026 초)

분야주요 모델(들)
텍스트 추론DeepSeek V4 (긴 컨텍스트, MoE, 강력한 중국어 이해)
코드 생성Kimi K2.5 (에이전트 작업, 코드 생성)
멀티모달Alibaba Qwen3‑Max‑Thinking (보고‑추론), Tongyi Qianwen (비전 반복)

GPT‑5.5, Claude 4, Gemini 2.5 Pro가 완전 멀티모달인 세상에서 “볼 수 없는” 모델은 터치스크린이 없는 전화기와 같다—사용은 가능하지만 언제나 뭔가 빠진 느낌이 든다.

멀티모달이 더 이상 사치가 아닌 이유

시나리오비전이 중요한 이유
기술 문서 이해아키텍처 다이어그램, 흐름도, 데이터 차트는 대부분 시각적이다
제품 분석스크린샷, UI 목업, 경쟁 자료는 시각적 검토가 필요하다
일상 생활 지원메뉴 번역, 약품 라벨 해석, 가구 조립 도면
개발 및 디버깅오류 스크린샷, 모니터링 대시보드, 성능 플레임 그래프

멀티모달 기능이 없는 대형 모델은 카메라가 없는 스마트폰과 같다—대부분의 작업을 할 수 있지만 사용자가 “사진을 찍고 AI에게 물어볼” 때는 “듣기”만 할 수 있고 “보기”는 할 수 없다.

현재 중국 멀티모달 현황

제공업체모델하이라이트
Alibaba Tongyi Qianwen (Qwen3)Qwen3‑Max‑Thinking초기 멀티모달 투자; 수학 차트 및 과학 이미지에 뛰어남
DeepSeek이미지 인식 모드늦게 진입; DeepSeek‑OCR2 시각 인코딩 기반; 복잡한 문서 및 구조화된 이미지 이해에 강점
KimiK2.5코드 및 에이전트‑시나리오 멀티모달에 집중; 코드 스크린샷 이해 및 개발 환경 재현에 우수

개발자는 이제 실제로 이미지를 “볼” 수 있는 모델을 얻기 위해 플랫폼을 전환할 필요가 없습니다.

그레이스케일 테스터 피드백 (세 단어)

  1. 빠른 – 업로드 후 약 2–3 초 정도의 DeepSeek 플래시 모드와 유사한 응답 시간.
  2. 정확한 – 선명한 이미지에서 텍스트 추출 시 거의 오류가 없으며; 아티팩트, 제품 및 장면 인식이 기대치를 크게 뛰어넘음.
  3. 아직 안정적이지 않음 – 일부 사용자는 “이미지 인식 모드가 일시적으로 사용 불가능합니다. 나중에 다시 시도해 주세요.” 라고 보고함.

Source:

DeepSeek 멀티모달 이미지 인식 – 현재 상황 및 시사점

현재 테스트 단계

  • DeepSeek의 멀티모달 인식은 아직 그레이스케일 테스트 단계에 있습니다.
  • **“Fast Mode”**와 **“Expert Mode”**와 별도로 “Image Recognition Mode” 진입점을 통해 접근합니다.
  • 아직 “시스템 전반에 걸친 멀티모달”은 아니며, 일반 채팅에 이미지를 끌어다 놓아 자동 인식하게 할 수는 없습니다(예: ChatGPT와 같은 방식).

프론트‑엔드 개발자 및 AI 애플리케이션 구축자를 위한 의미

  • API 옵션 확대 – 곧 멀티모달 엔드포인트가 추가될 예정이니 DeepSeek의 비용 구조를 주시하세요.
  • RAG (Retrieval‑Augmented Generation) 업그레이드 – 텍스트 검색을 넘어, 향후 RAG는 이미지 내용 및 PDF 차트를 색인하고 해석할 수 있게 됩니다.
  • 강력한 에이전트 – OpenClaw 스타일 AI 에이전트가 DeepSeek 멀티모달과 결합되면 사용자의 화면을 “볼” 수 있어, 진정한 범용 어시스턴트에 한 걸음 다가갑니다.
  • 에이전트의 진화: 순수 대화 → 환경 인식 – 이제 텍스트만이 아니라 데스크톱 상태와 UI 요소를 시각적으로 인식할 수 있게 됩니다.

최근 산업 동향 (2026년 4월 말)

  • 제9차 디지털 차이나 서밋 – AI 추론 수요가 폭발적으로 증가하고 있음을 강조했습니다.
  • DeepSeek 멀티모달 출시 – 라인업에 이미지 인식 기능이 추가되었습니다.

이러한 사건들은 겉보기에 별개처럼 보여도 AI가 “연구실 제품”에서 “생산 도구”로 전환되고 있다는 더 큰 흐름을 보여줍니다.

  • 이제 스낵 포장조차 AI가 식별할 수 있습니다.
  • 유물 복원가들은 멀티모달 모델을 활용해 보조 연대를 추정하고 있습니다.

2025년이 “LLM이 주류에 진입한 해”라면, 2026년은 **“멀티모달이 주류에 진입하는 해”**가 될 조짐을 보이고 있습니다. DeepSeek의 시기는 일찍이 아니라 정확히 맞춰진 시점입니다.

일반 제공 전망

  • 그레이스케일 테스트 단계에서 정식 출시로 전환되는 구체적인 일정은 아직 발표되지 않았습니다.
  • 비유: “고래가 눈가리개를 벗을 때, 온 바다에 그 눈빛이 퍼진다.”

References

  • DeepSeek가 멀티모달 이미지 인식 그레이스케일 테스트 시작 – Sina Finance
  • DeepSeek 그레이스케일 테스트 “이미지 인식 모드” – NetEase
  • 제9차 디지털 차이나 서밋: AI 추론 데이터 양이 처음으로 학습 데이터를 초과 – Xinhua
  • 2026년 최고의 AI 뉴스 사이트 추천 – UniFuncs
  • DeepSeek “눈을 뜨다”: 멀티모달 기능 그레이스케일 테스트 – Zhihu
0 조회
Back to Blog

관련 글

더 보기 »