[Paper] Jina-VLM: 小型多语言视觉语言模型
发布: (2025年12月4日 GMT+8 02:13)
7 min read
原文: arXiv
Source: arXiv - 2512.04032v1
概览
Jina‑VLM 是一个拥有 2.4 B 参数的视觉语言模型,在保持“小模型”规模的同时,推动了多语言视觉问答(VQA)的前沿。通过将高性能的 SigLIP2 视觉编码器与强大的 Qwen‑3 语言模型通过新颖的注意力池化连接器相结合,系统能够在不增加 token 数量的情况下处理任意分辨率的图像,在多语言 VQA 基准上实现了业界领先的结果,并在纯文本任务上表现稳健。
关键贡献
- 紧凑的多语言 VLM:首个参数量低于 3 B、同时在多语言 VQA 与仅文本任务上表现出色的开源模型。
- 注意力池化连接器:一种轻量模块,将可变大小的视觉特征图压缩为固定长度的 token 序列,实现高分辨率图像的 token‑高效处理。
- SigLIP2 + Qwen‑3 融合:证明将现代对比视觉编码器(SigLIP2)与大规模 LLM(Qwen‑3)结合,可在不大幅增加参数的情况下提升跨模态推理能力。
- 业界领先的多语言 VQA:在标准 VQA 数据集(如 VQAv2、GQA)及其多语言扩展(如 X‑VQA、MME‑Multi)上超越所有开源 2 B 级 VLM。
- 开源发布:模型权重、训练脚本和评估流水线均公开,鼓励社区采用与进一步研究。
方法论
-
视觉骨干网络 – SigLIP2
- 在大规模、多样化的图像语料上使用对比图文目标进行训练。
- 为任意输入分辨率生成密集特征图(高度 × 宽度 × 通道)。
-
注意力池化连接器
- 接收二维特征图并应用多头自注意力层,学习将空间 token “池化” 成少量固定大小的集合(例如 8‑12 个 token)。
- 在保持关键视觉信息的同时,降低语言模型的 token 开销。
-
语言骨干网络 – Qwen‑3
- 一个仅解码器的 Transformer,预训练于海量多语言文本数据(约 100 种语言)。
- 将池化后的视觉 token 前置于文本提示之前,实现联合推理。
-
训练流程
- 阶段 1:冻结视觉编码器,对连接器 + 语言模型在图文对(ITC)和指令跟随数据的混合上进行微调。
- 阶段 2:在多语言 VQA 数据集上进行端到端微调,使用答案 token 的交叉熵损失。
- 课程学习:从低分辨率图像开始,逐步提升分辨率,使连接器学会处理任意尺寸。
-
推理流水线
- 输入图像 → SigLIP2 → 注意力池化 → token 序列 → Qwen‑3 → 生成答案。
- 由于视觉 token 数量保持不变,推理延迟主要随语言模型规模增长,而非图像分辨率。
结果与发现
| 基准 | 模型 (2.4 B) | 先前开源 2 B 级 VLM | 仅文本 (如 MMLU) |
|---|---|---|---|
| VQAv2(英文) | 78.4 % | 73.1 % | 71.2 % |
| GQA(英文) | 71.9 % | 66.5 % | — |
| X‑VQA(10 种语言) | 65.3 % avg | 58.7 % avg | — |
| MME‑Multi(多语言) | 62.1 % | 55.4 % | — |
| MMLU(仅文本) | 71.8 % | 70.2 % | — |
- Token 效率:注意力池化连接器将视觉 token 数量从约 1,000(完整补丁网格)压缩至 ≤12,跨模态注意力成本降低约 90 %,且精度未受影响。
- 分辨率鲁棒性:在 224 px 到 1,024 px 的图像上实验,性能漂移 <2 %,验证了连接器在不同尺度上的泛化能力。
- 多语言迁移:即使是 VQA 数据稀缺的语言(如斯瓦希里语、乌尔都语),相较基线也提升了 >10 % 的绝对准确率,显示出强大的跨语言视觉对齐能力。
实际意义
- 企业 AI 助手:企业可将 Jina‑VLM 嵌入需要理解截图、产品照片或 UI 原型的多语言聊天机器人,而无需承担 10 B 以上模型的推理成本。
- 边缘与移动部署:固定且极小的视觉 token 流使得在 GPU 内存受限的设备(如 NVIDIA Jetson、Apple M 系列)上运行成为可能,同时仍能处理高分辨率输入。
- 内容审核与可访问性:多语言视觉 QA 可驱动自动字幕、基于图像的 FAQ 系统或为用户提供母语视觉查询答案的辅助工具。
- 快速原型:开源权重和简易 API 让开发者能够在全球用户群体中实验“视觉提示”(例如“这屏幕上的错误码是什么?”)的交互方式。
局限性与未来工作
- 规模上限:虽然 2.4 B 参数在性能与成本之间取得了良好平衡,但在一些细粒度视觉推理任务(如详细场景图生成)上仍落后于最新的 10 B 以上 VLM。
- 语言覆盖:对低资源语言的表现明显下降,这些语言在 Qwen‑3 预训练语料中代表性不足;需要进一步的多语言预训练。
- 连接器可解释性:注意力池化步骤仍是黑箱,如何可视化每个池化 token 对应的图像补丁仍是开放的研究方向。
- 作者提出的未来方向包括:将连接器扩展为多 token 的视觉“记忆”槽、集成检索增强生成以实现开放域视觉 QA、以及将训练扩展到视频问答场景。
作者
- Andreas Koukounas
- Georgios Mastrapas
- Florian Hönicke
- Sedigheh Eslami
- Guillaume Roncari
- Scott Martens
- Han Xiao
论文信息
- arXiv ID: 2512.04032v1
- 分类: cs.CL, cs.AI, cs.CV
- 发表时间: 2025 年 12 月 3 日
- PDF: Download PDF