[Paper] Jina-VLM:小型多语言视觉语言模型
发布: (2025年12月4日 GMT+8 02:13)
7 min read
原文: arXiv
Source: arXiv - 2512.04032v1
概述
Jina‑VLM 是一个拥有 2.4 B 参数的视觉‑语言模型,在保持“小模型”规模的同时,推动了多语言视觉问答(VQA)技术的前沿。通过将高性能的 SigLIP2 视觉编码器与强大的 Qwen‑3 语言模型结合,并使用新颖的 attention‑pooling 连接器,系统能够在不导致 token 数量激增的情况下处理任意分辨率的图像,在多语言 VQA 基准上实现了业界领先的结果,并在纯文本任务上也表现稳健。
关键贡献
- 紧凑的多语言 VLM:首个参数量低于 3 B 的开源模型,能够同时在多语言 VQA 和仅文本任务上表现出色。
- Attention‑pooling 连接器:一种轻量级模块,可将可变大小的视觉特征图压缩为固定长度的 token 序列,实现对高分辨率图像的 token‑高效处理。
- SigLIP2 + Qwen‑3 融合:展示了将现代对比视觉编码器(SigLIP2)与大规模 LLM(Qwen‑3)结合,可在不大幅增加参数的情况下实现更优的跨模态推理。
- 最先进的多语言 VQA:在标准 VQA 数据集(如 VQAv2、GQA)及其多语言扩展(如 X‑VQA、MME‑Multi)上,超越所有开放的 2 B 规模 VLM。
- 开源发布:模型权重、训练脚本和评估流水线均公开,可鼓励社区采用并进一步研究。
方法论
-
视觉主干 – SigLIP2
- 使用对比图像‑文本目标在大规模、多样化的图像语料库上进行训练。
- 为任意输入分辨率生成密集特征图(高度 × 宽度 × 通道)。
-
注意力池化连接器
- 接收二维特征图并应用多头自注意力层,学习将空间标记“池化”成一个小的、固定大小的集合(例如 8‑12 个标记)。
- 这在保留显著视觉信息的同时,保持语言模型的标记预算低。
-
语言主干 – Qwen‑3
- 一个仅解码器的 Transformer,预训练于海量多语言文本数据(约 100 种语言)。
- 接收前置于文本提示的池化视觉标记,实现联合推理。
-
训练方案
- Stage 1: 冻结视觉编码器,在图像‑文本对(ITC)和指令跟随数据的混合上微调连接器 + 语言模型。
- Stage 2: 在多语言 VQA 数据集上进行端到端微调,使用答案标记的交叉熵损失。
- Curriculum: 从低分辨率图像开始,逐步提升分辨率,以教会连接器处理任意尺寸。
-
推理流程
- 输入图像 → SigLIP2 → 注意力池化 → 标记序列 → Qwen‑3 → 生成答案。
- 由于视觉标记数量固定,推理延迟主要随语言模型规模而变化,而非图像分辨率。
结果与发现
| 基准 | 模型 (2.4 B) | 先前开源 2 B‑规模 VLM | 仅文本 (例如 MMLU) |
|---|---|---|---|
| VQAv2 (英文) | 78.4 % | 73.1 % | 71.2 % |
| GQA (英文) | 71.9 % | 66.5 % | — |
| X‑VQA (10 种语言) | 65.3 % avg | 58.7 % avg | — |
| MME‑Multi (多语言) | 62.1 % | 55.4 % | — |
| MMLU (仅文本) | 71.8 % | 70.2 % | — |
- Token 效率:注意力池化连接器将视觉 token 数量从约 1,000(完整补丁网格)降低至 ≤12,削减跨模态注意力成本约 90 %,且不影响准确率。
- 分辨率鲁棒性:在 224 px 到 1,024 px 图像上的实验显示性能漂移 <2 %,验证了连接器在不同尺度上的泛化能力。
- 多语言迁移:即使是 VQA 数据有限的语言(如斯瓦希里语、乌尔都语),相较基线也实现了 >10 % 的绝对提升,表明跨语言视觉定位能力强大。
Practical Implications
- 企业 AI 助手:公司可以在需要理解截图、产品照片或 UI 原型的多语言聊天机器人中嵌入 Jina‑VLM,而无需承担 100 B‑plus 模型的推理成本。
- 边缘与移动部署:固定且极小的视觉 token 流使得在 GPU 内存受限的设备上运行模型成为可能(例如 NVIDIA Jetson、Apple M‑series),同时仍能处理高分辨率输入。
- 内容审核与可访问性:多语言视觉 QA 可以驱动自动字幕、基于图像的 FAQ 系统或帮助用户以母语回答视觉查询的可访问性工具。
- 快速原型:开源权重和简易 API 让开发者能够在全球用户群中尝试“视觉提示”(例如“此屏幕上的错误代码是什么?”)。
限制与未来工作
- 规模上限:虽然 2.4 B 参数在平衡性上表现良好,但在一些细分的视觉推理任务(例如详细的场景图生成)上,模型仍落后于最新的 10 B 以上的视觉语言模型。
- 语言覆盖:对于在 Qwen‑3 预训练语料中代表性不足的低资源语言,性能明显下降;需要进一步的多语言预训练。
- 连接器可解释性:注意力池化步骤是一个黑箱;如何可视化哪些图像块对每个池化 token 有贡献仍是一个未解的研究方向。
- 未来方向:作者提出的未来工作包括:将连接器扩展为多 token 的视觉“记忆”槽位,将检索增强生成整合到开放域视觉问答中,以及将训练扩展到视频问答场景。
作者
- Andreas Koukounas
- Georgios Mastrapas
- Florian Hönicke
- Sedigheh Eslami
- Guillaume Roncari
- Scott Martens
- Han Xiao
论文信息
- arXiv ID: 2512.04032v1
- 分类: cs.CL, cs.AI, cs.CV
- 发表时间: 2025年12月3日
- PDF: Download PDF