[Paper] Jina-VLM：小型多语言视觉语言模型

发布: 2个月前 (2025年12月4日 GMT+8 02:13)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.04032v1

概述

Jina‑VLM 是一个拥有 2.4 B 参数的视觉‑语言模型，在保持“小模型”规模的同时，推动了多语言视觉问答（VQA）技术的前沿。通过将高性能的 SigLIP2 视觉编码器与强大的 Qwen‑3 语言模型结合，并使用新颖的 attention‑pooling 连接器，系统能够在不导致 token 数量激增的情况下处理任意分辨率的图像，在多语言 VQA 基准上实现了业界领先的结果，并在纯文本任务上也表现稳健。

关键贡献

紧凑的多语言 VLM：首个参数量低于 3 B 的开源模型，能够同时在多语言 VQA 和仅文本任务上表现出色。
Attention‑pooling 连接器：一种轻量级模块，可将可变大小的视觉特征图压缩为固定长度的 token 序列，实现对高分辨率图像的 token‑高效处理。
SigLIP2 + Qwen‑3 融合：展示了将现代对比视觉编码器（SigLIP2）与大规模 LLM（Qwen‑3）结合，可在不大幅增加参数的情况下实现更优的跨模态推理。
最先进的多语言 VQA：在标准 VQA 数据集（如 VQAv2、GQA）及其多语言扩展（如 X‑VQA、MME‑Multi）上，超越所有开放的 2 B 规模 VLM。
开源发布：模型权重、训练脚本和评估流水线均公开，可鼓励社区采用并进一步研究。

方法论

视觉主干 – SigLIP2
- 使用对比图像‑文本目标在大规模、多样化的图像语料库上进行训练。
- 为任意输入分辨率生成密集特征图（高度 × 宽度 × 通道）。
注意力池化连接器
- 接收二维特征图并应用多头自注意力层，学习将空间标记“池化”成一个小的、固定大小的集合（例如 8‑12 个标记）。
- 这在保留显著视觉信息的同时，保持语言模型的标记预算低。
语言主干 – Qwen‑3
- 一个仅解码器的 Transformer，预训练于海量多语言文本数据（约 100 种语言）。
- 接收前置于文本提示的池化视觉标记，实现联合推理。
训练方案
- Stage 1: 冻结视觉编码器，在图像‑文本对（ITC）和指令跟随数据的混合上微调连接器 + 语言模型。
- Stage 2: 在多语言 VQA 数据集上进行端到端微调，使用答案标记的交叉熵损失。
- Curriculum: 从低分辨率图像开始，逐步提升分辨率，以教会连接器处理任意尺寸。
推理流程
- 输入图像 → SigLIP2 → 注意力池化 → 标记序列 → Qwen‑3 → 生成答案。
- 由于视觉标记数量固定，推理延迟主要随语言模型规模而变化，而非图像分辨率。

结果与发现

基准	模型 (2.4 B)	先前开源 2 B‑规模 VLM	仅文本 (例如 MMLU)
VQAv2 (英文)	78.4 %	73.1 %	71.2 %
GQA (英文)	71.9 %	66.5 %	—
X‑VQA (10 种语言)	65.3 % avg	58.7 % avg	—
MME‑Multi (多语言)	62.1 %	55.4 %	—
MMLU (仅文本)	71.8 %	70.2 %	—

Token 效率：注意力池化连接器将视觉 token 数量从约 1,000（完整补丁网格）降低至 ≤12，削减跨模态注意力成本约 90 %，且不影响准确率。
分辨率鲁棒性：在 224 px 到 1,024 px 图像上的实验显示性能漂移 <2 %，验证了连接器在不同尺度上的泛化能力。
多语言迁移：即使是 VQA 数据有限的语言（如斯瓦希里语、乌尔都语），相较基线也实现了 >10 % 的绝对提升，表明跨语言视觉定位能力强大。

Practical Implications

企业 AI 助手：公司可以在需要理解截图、产品照片或 UI 原型的多语言聊天机器人中嵌入 Jina‑VLM，而无需承担 100 B‑plus 模型的推理成本。
边缘与移动部署：固定且极小的视觉 token 流使得在 GPU 内存受限的设备上运行模型成为可能（例如 NVIDIA Jetson、Apple M‑series），同时仍能处理高分辨率输入。
内容审核与可访问性：多语言视觉 QA 可以驱动自动字幕、基于图像的 FAQ 系统或帮助用户以母语回答视觉查询的可访问性工具。
快速原型：开源权重和简易 API 让开发者能够在全球用户群中尝试“视觉提示”（例如“此屏幕上的错误代码是什么？”）。

限制与未来工作

规模上限：虽然 2.4 B 参数在平衡性上表现良好，但在一些细分的视觉推理任务（例如详细的场景图生成）上，模型仍落后于最新的 10 B 以上的视觉语言模型。
语言覆盖：对于在 Qwen‑3 预训练语料中代表性不足的低资源语言，性能明显下降；需要进一步的多语言预训练。
连接器可解释性：注意力池化步骤是一个黑箱；如何可视化哪些图像块对每个池化 token 有贡献仍是一个未解的研究方向。
未来方向：作者提出的未来工作包括：将连接器扩展为多 token 的视觉“记忆”槽位，将检索增强生成整合到开放域视觉问答中，以及将训练扩展到视频问答场景。

作者

Andreas Koukounas
Georgios Mastrapas
Florian Hönicke
Sedigheh Eslami
Guillaume Roncari
Scott Martens
Han Xiao

论文信息

arXiv ID: 2512.04032v1
分类: cs.CL, cs.AI, cs.CV
发表时间: 2025年12月3日
PDF: Download PDF

[Paper] Jina-VLM：小型多语言视觉语言模型

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

[Paper] 主动视频感知：迭代证据搜索用于 Agentic 长视频理解

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成