DeepSeek 终于‘睁开眼睛’:多模态图像识别上线,成为中文 LLM 的最后缺失环节
Source: Dev.to
对于过去一年一直依赖 DeepSeek 纯文本版的用户来说,这条消息就像盲人重新获得视力一样。
DeepSeek 现在在你上传照片时真的能够理解图像内容。它可以:
- 识别文物的艺术风格时期
- 解读复杂的图表
- 分析食物成分
- 从视觉特征推断历史背景
曾被戏称为“盲目”的那条鲸鱼终于睁开了眼睛。
为什么这不仅仅是“图像转文本”
一个常见的误解是,多模态能力仅仅意味着“把图像喂给 AI,让它描述”。如果真是这样,很多模型在六个月前就已经能够做到。DeepSeek 的新模式 更深入。
-
思考过程输出:
- 分析用户的请求
- “检查”图像
- 生成解释
-
这是一种 基于推理链的视觉理解,而不是逐像素的描述。
迄今为止的真实测试结果
| 测试项目 | DeepSeek 的表现 |
|---|---|
| 青铜文物照片 | 描述形状和纹理 并且 根据形式特征推断大致年代和文化类型 |
| 外国零食包装 | 识别品牌,读取配料表,提供饮食建议 |
| 概念手机渲染图 | 分析设计语言,推断产品定位 |
关键区别: DeepSeek 的多模态能力 不 是先把图像转换成文本再喂给语言模型,而是将视觉编码和语言理解 深度融合 在同一个模型内部。
根据技术泄露,灰度测试可能基于 DeepSeek‑OCR2 的 视觉因果流 机制——使模型能够 按重要性重排图像内容,就像人类一样,在处理辅助信息之前先聚焦关键区域。这解释了它在复杂图表和文档上的准确性优于同期发布的竞争产品。
Context & Timing
- Rumors:多模态升级长期以来一直是“雷声大,雨点小”。
- January 2026:DeepSeek‑OCR2 开源 → 外界期待快速的视觉集成。
- Four months later:在 DeepSeek‑V4 成熟后,集成终于到来。
Industry Landscape (Late 2025 – Early 2026)
| Domain | Leading Model(s) |
|---|---|
| Text reasoning | DeepSeek V4(长上下文、MoE、强中文理解) |
| Code generation | Kimi K2.5(代理任务、代码生成) |
| Multimodal | Alibaba Qwen3‑Max‑Thinking(看见并推理),Tongyi Qianwen(视觉迭代) |
在一个 GPT‑5.5、Claude 4 和 Gemini 2.5 Pro 已经完全多模态的世界里,不能“看见”的模型就像没有触摸屏的手机——可用,但总觉得缺了点什么。
为什么多模态不再是奢侈品
| 场景 | 为何视觉重要 |
|---|---|
| 技术文档理解 | 架构图、流程图、数据图表主要是视觉信息 |
| 产品分析 | 截图、UI 原型、竞争材料需要视觉检查 |
| 日常生活辅助 | 菜单翻译、药品标签解读、家具组装图纸 |
| 开发与调试 | 错误截图、监控仪表盘、性能火焰图 |
没有多模态能力的大模型就像没有摄像头的智能手机——它可以完成大多数任务,但当用户需要“拍张照片并询问 AI”时,它只能“听”,而不能“看”。
当前中国多模态格局
| 提供商 | 模型 | 亮点 |
|---|---|---|
| Alibaba Tongyi Qianwen (Qwen3) | Qwen3‑Max‑Thinking | 早期多模态投资;在数学图表和科学图像方面表现出色 |
| DeepSeek | Image Recognition Mode | 后期进入者;基于 DeepSeek‑OCR2 视觉编码构建;在复杂文档和结构化图像理解方面表现强劲 |
| Kimi | K2.5 | 专注于代码和代理场景多模态;在代码截图理解和开发环境再现方面表现良好 |
开发者不再需要切换平台,仅仅为了获得能够真正“看”图像的模型。
灰度测试者反馈(三字)
- 快速 – 响应时间类似 DeepSeek 的 Flash 模式(≈ 2–3 秒上传后)。
- 准确 – 对清晰图像的文字提取几乎零错误;对文物、产品和场景的识别远超预期。
- 尚不稳定 – 有用户报告 “Image Recognition Mode temporarily unavailable, please try again later.”
DeepSeek 多模态图像识别 – 当前状态与影响
当前测试阶段
- DeepSeek 的多模态识别仍处于 灰度测试 阶段。
- 通过单独的 “图像识别模式” 入口访问, alongside “快速模式” 与 “专家模式”。
- 尚未实现 “无缝多模态”——不能像在 ChatGPT 中那样直接将图片拖入普通聊天窗口并自动识别。
对前端开发者与 AI 应用构建者的意义
- 更多 API 选项 – 预计将推出多模态端点;请关注 DeepSeek 的费用结构。
- RAG(检索增强生成)升级 – 除了文本检索,未来的 RAG 能够索引图像内容并解读 PDF 图表。
- 更强大的代理 – 将 OpenClaw 风格的 AI 代理与 DeepSeek 的多模态结合后,能够 “看见” 用户的屏幕,向真正的通用助理迈进。
- 代理从纯对话进化到环境感知 – 它们将不再仅通过文字交互;对桌面状态和 UI 元素的视觉感知将成为可能。
最近的行业背景(2026 年 4 月下旬)
- 第九届数字中国峰会 – 强调 AI 推理需求的爆炸式增长。
- DeepSeek 多模态发布 – 为其产品线新增图像识别能力。
这些看似不相关的事件共同凸显了一个更大的趋势:AI 正在从 “实验室产品” 向 “生产工具” 转变。
- 甚至零食包装现在也能被 AI 识别。
- 文物修复者正在使用多模态模型辅助年代测定。
如果 2025 年是 “大语言模型突破主流”的一年,2026 正在成为 **“多模态走向主流”的一年”。DeepSeek 的时机并非提前,而是恰到好处。
对正式发布的展望
- 仍未有官方时间表说明何时从灰度测试转为全面发布。
- 类比:“当一条鲸鱼摘下眼罩,整个海洋都能看到它的眼睛亮起。”
References
- DeepSeek 开始对多模态图像识别进行灰度测试 – Sina Finance
- DeepSeek 灰度测试“图像识别模式” – NetEase
- 第九届数字中国峰会:AI 推理数据量首次超过训练数据 – Xinhua
- 2026 年推荐的 AI 新闻网站榜单 – UniFuncs
- DeepSeek “睁开眼睛”:多模态能力灰度测试 – Zhihu