DeepSeek 终于‘睁开眼睛’：多模态图像识别上线，成为中文 LLM 的最后缺失环节

发布: 2天前 (2026年5月2日 GMT+8 13:12)

9 分钟阅读

原文: Dev.to

Source: Dev.to

对于过去一年一直依赖 DeepSeek 纯文本版的用户来说，这条消息就像盲人重新获得视力一样。

DeepSeek 现在在你上传照片时真的能够理解图像内容。它可以：

识别文物的艺术风格时期
解读复杂的图表
分析食物成分
从视觉特征推断历史背景

曾被戏称为“盲目”的那条鲸鱼终于睁开了眼睛。

为什么这不仅仅是“图像转文本”

一个常见的误解是，多模态能力仅仅意味着“把图像喂给 AI，让它描述”。如果真是这样，很多模型在六个月前就已经能够做到。DeepSeek 的新模式 更深入。

思考过程输出：
1. 分析用户的请求
2. “检查”图像
3. 生成解释
这是一种 基于推理链的视觉理解，而不是逐像素的描述。

迄今为止的真实测试结果

测试项目	DeepSeek 的表现
青铜文物照片	描述形状和纹理并且根据形式特征推断大致年代和文化类型
外国零食包装	识别品牌，读取配料表，提供饮食建议
概念手机渲染图	分析设计语言，推断产品定位

关键区别： DeepSeek 的多模态能力不是先把图像转换成文本再喂给语言模型，而是将视觉编码和语言理解 深度融合 在同一个模型内部。

根据技术泄露，灰度测试可能基于 DeepSeek‑OCR2 的 视觉因果流 机制——使模型能够 按重要性重排图像内容，就像人类一样，在处理辅助信息之前先聚焦关键区域。这解释了它在复杂图表和文档上的准确性优于同期发布的竞争产品。

Context & Timing

Rumors：多模态升级长期以来一直是“雷声大，雨点小”。
January 2026：DeepSeek‑OCR2 开源 → 外界期待快速的视觉集成。
Four months later：在 DeepSeek‑V4 成熟后，集成终于到来。

Industry Landscape (Late 2025 – Early 2026)

Domain	Leading Model(s)
Text reasoning	DeepSeek V4（长上下文、MoE、强中文理解）
Code generation	Kimi K2.5（代理任务、代码生成）
Multimodal	Alibaba Qwen3‑Max‑Thinking（看见并推理），Tongyi Qianwen（视觉迭代）

在一个 GPT‑5.5、Claude 4 和 Gemini 2.5 Pro 已经完全多模态的世界里，不能“看见”的模型就像没有触摸屏的手机——可用，但总觉得缺了点什么。

为什么多模态不再是奢侈品

场景	为何视觉重要
技术文档理解	架构图、流程图、数据图表主要是视觉信息
产品分析	截图、UI 原型、竞争材料需要视觉检查
日常生活辅助	菜单翻译、药品标签解读、家具组装图纸
开发与调试	错误截图、监控仪表盘、性能火焰图

没有多模态能力的大模型就像没有摄像头的智能手机——它可以完成大多数任务，但当用户需要“拍张照片并询问 AI”时，它只能“听”，而不能“看”。

当前中国多模态格局

提供商	模型	亮点
Alibaba Tongyi Qianwen (Qwen3)	Qwen3‑Max‑Thinking	早期多模态投资；在数学图表和科学图像方面表现出色
DeepSeek	Image Recognition Mode	后期进入者；基于 DeepSeek‑OCR2 视觉编码构建；在复杂文档和结构化图像理解方面表现强劲
Kimi	K2.5	专注于代码和代理场景多模态；在代码截图理解和开发环境再现方面表现良好

开发者不再需要切换平台，仅仅为了获得能够真正“看”图像的模型。

灰度测试者反馈（三字）

快速 – 响应时间类似 DeepSeek 的 Flash 模式（≈ 2–3 秒上传后）。
准确 – 对清晰图像的文字提取几乎零错误；对文物、产品和场景的识别远超预期。
尚不稳定 – 有用户报告 “Image Recognition Mode temporarily unavailable, please try again later.”

DeepSeek 多模态图像识别 – 当前状态与影响

当前测试阶段

DeepSeek 的多模态识别仍处于 灰度测试 阶段。
通过单独的 “图像识别模式” 入口访问， alongside “快速模式” 与 “专家模式”。
尚未实现 “无缝多模态”——不能像在 ChatGPT 中那样直接将图片拖入普通聊天窗口并自动识别。

对前端开发者与 AI 应用构建者的意义

更多 API 选项 – 预计将推出多模态端点；请关注 DeepSeek 的费用结构。
RAG（检索增强生成）升级 – 除了文本检索，未来的 RAG 能够索引图像内容并解读 PDF 图表。
更强大的代理 – 将 OpenClaw 风格的 AI 代理与 DeepSeek 的多模态结合后，能够 “看见” 用户的屏幕，向真正的通用助理迈进。
代理从纯对话进化到环境感知 – 它们将不再仅通过文字交互；对桌面状态和 UI 元素的视觉感知将成为可能。

最近的行业背景（2026 年 4 月下旬）

第九届数字中国峰会 – 强调 AI 推理需求的爆炸式增长。
DeepSeek 多模态发布 – 为其产品线新增图像识别能力。

这些看似不相关的事件共同凸显了一个更大的趋势：AI 正在从 “实验室产品” 向 “生产工具” 转变。

甚至零食包装现在也能被 AI 识别。
文物修复者正在使用多模态模型辅助年代测定。

如果 2025 年是 “大语言模型突破主流”的一年，2026 正在成为 **“多模态走向主流”的一年”。DeepSeek 的时机并非提前，而是恰到好处。

对正式发布的展望

仍未有官方时间表说明何时从灰度测试转为全面发布。
类比：“当一条鲸鱼摘下眼罩，整个海洋都能看到它的眼睛亮起。”

References

DeepSeek 开始对多模态图像识别进行灰度测试 – Sina Finance
DeepSeek 灰度测试“图像识别模式” – NetEase
第九届数字中国峰会：AI 推理数据量首次超过训练数据 – Xinhua
2026 年推荐的 AI 新闻网站榜单 – UniFuncs
DeepSeek “睁开眼睛”：多模态能力灰度测试 – Zhihu

DeepSeek 终于‘睁开眼睛’：多模态图像识别上线，成为中文 LLM 的最后缺失环节

为什么这不仅仅是“图像转文本”

迄今为止的真实测试结果

Context & Timing

Industry Landscape (Late 2025 – Early 2026)

为什么多模态不再是奢侈品

当前中国多模态格局

灰度测试者反馈（三字）

DeepSeek 多模态图像识别 – 当前状态与影响

当前测试阶段

对前端开发者与 AI 应用构建者的意义

最近的行业背景（2026 年 4 月下旬）

对正式发布的展望

References

相关文章

如何使用 Claude 和 MCP 构建 LLM 维基

第3天：AI中的提示技术（第一部分）

如何在 Python 中使用 Claude API

LLM Foundry：让 LLM 实际有用的乏味堆栈

为什么这不仅仅是“图像转文本”

迄今为止的真实测试结果

Context & Timing

Industry Landscape (Late 2025 – Early 2026)

为什么多模态不再是奢侈品

当前中国多模态格局

灰度测试者反馈（三字）

DeepSeek 多模态图像识别 – 当前状态与影响

当前测试阶段

对前端开发者与 AI 应用构建者的意义

最近的行业背景（2026 年 4 月下旬）

对正式发布的展望

References

相关文章

如何使用 Claude 和 MCP 构建 LLM 维基

第3天：AI中的提示技术（第一部分）

如何在 Python 中使用 Claude API

LLM Foundry：让 LLM 实际有用的乏味堆栈

Industry Landscape (Late 2025 – Early 2026)