[Paper] Jina-VLM:小型多语言视觉语言模型

发布: (2025年12月4日 GMT+8 02:13)
7 min read
原文: arXiv

Source: arXiv - 2512.04032v1

概述

Jina‑VLM 是一个拥有 2.4 B 参数的视觉‑语言模型,在保持“小模型”规模的同时,推动了多语言视觉问答(VQA)技术的前沿。通过将高性能的 SigLIP2 视觉编码器与强大的 Qwen‑3 语言模型结合,并使用新颖的 attention‑pooling 连接器,系统能够在不导致 token 数量激增的情况下处理任意分辨率的图像,在多语言 VQA 基准上实现了业界领先的结果,并在纯文本任务上也表现稳健。

关键贡献

  • 紧凑的多语言 VLM:首个参数量低于 3 B 的开源模型,能够同时在多语言 VQA 和仅文本任务上表现出色。
  • Attention‑pooling 连接器:一种轻量级模块,可将可变大小的视觉特征图压缩为固定长度的 token 序列,实现对高分辨率图像的 token‑高效处理。
  • SigLIP2 + Qwen‑3 融合:展示了将现代对比视觉编码器(SigLIP2)与大规模 LLM(Qwen‑3)结合,可在不大幅增加参数的情况下实现更优的跨模态推理。
  • 最先进的多语言 VQA:在标准 VQA 数据集(如 VQAv2、GQA)及其多语言扩展(如 X‑VQA、MME‑Multi)上,超越所有开放的 2 B 规模 VLM。
  • 开源发布:模型权重、训练脚本和评估流水线均公开,可鼓励社区采用并进一步研究。

方法论

  1. 视觉主干 – SigLIP2

    • 使用对比图像‑文本目标在大规模、多样化的图像语料库上进行训练。
    • 为任意输入分辨率生成密集特征图(高度 × 宽度 × 通道)。
  2. 注意力池化连接器

    • 接收二维特征图并应用多头自注意力层,学习将空间标记“池化”成一个小的、固定大小的集合(例如 8‑12 个标记)。
    • 这在保留显著视觉信息的同时,保持语言模型的标记预算低。
  3. 语言主干 – Qwen‑3

    • 一个仅解码器的 Transformer,预训练于海量多语言文本数据(约 100 种语言)。
    • 接收前置于文本提示的池化视觉标记,实现联合推理。
  4. 训练方案

    • Stage 1: 冻结视觉编码器,在图像‑文本对(ITC)和指令跟随数据的混合上微调连接器 + 语言模型。
    • Stage 2: 在多语言 VQA 数据集上进行端到端微调,使用答案标记的交叉熵损失。
    • Curriculum: 从低分辨率图像开始,逐步提升分辨率,以教会连接器处理任意尺寸。
  5. 推理流程

    • 输入图像 → SigLIP2 → 注意力池化 → 标记序列 → Qwen‑3 → 生成答案。
    • 由于视觉标记数量固定,推理延迟主要随语言模型规模而变化,而非图像分辨率。

结果与发现

基准模型 (2.4 B)先前开源 2 B‑规模 VLM仅文本 (例如 MMLU)
VQAv2 (英文)78.4 %73.1 %71.2 %
GQA (英文)71.9 %66.5 %
X‑VQA (10 种语言)65.3 % avg58.7 % avg
MME‑Multi (多语言)62.1 %55.4 %
MMLU (仅文本)71.8 %70.2 %
  • Token 效率:注意力池化连接器将视觉 token 数量从约 1,000(完整补丁网格)降低至 ≤12,削减跨模态注意力成本约 90 %,且不影响准确率。
  • 分辨率鲁棒性:在 224 px 到 1,024 px 图像上的实验显示性能漂移 <2 %,验证了连接器在不同尺度上的泛化能力。
  • 多语言迁移:即使是 VQA 数据有限的语言(如斯瓦希里语、乌尔都语),相较基线也实现了 >10 % 的绝对提升,表明跨语言视觉定位能力强大。

Practical Implications

  • 企业 AI 助手:公司可以在需要理解截图、产品照片或 UI 原型的多语言聊天机器人中嵌入 Jina‑VLM,而无需承担 100 B‑plus 模型的推理成本。
  • 边缘与移动部署:固定且极小的视觉 token 流使得在 GPU 内存受限的设备上运行模型成为可能(例如 NVIDIA Jetson、Apple M‑series),同时仍能处理高分辨率输入。
  • 内容审核与可访问性:多语言视觉 QA 可以驱动自动字幕、基于图像的 FAQ 系统或帮助用户以母语回答视觉查询的可访问性工具。
  • 快速原型:开源权重和简易 API 让开发者能够在全球用户群中尝试“视觉提示”(例如“此屏幕上的错误代码是什么?”)。

限制与未来工作

  • 规模上限:虽然 2.4 B 参数在平衡性上表现良好,但在一些细分的视觉推理任务(例如详细的场景图生成)上,模型仍落后于最新的 10 B 以上的视觉语言模型。
  • 语言覆盖:对于在 Qwen‑3 预训练语料中代表性不足的低资源语言,性能明显下降;需要进一步的多语言预训练。
  • 连接器可解释性:注意力池化步骤是一个黑箱;如何可视化哪些图像块对每个池化 token 有贡献仍是一个未解的研究方向。
  • 未来方向:作者提出的未来工作包括:将连接器扩展为多 token 的视觉“记忆”槽位,将检索增强生成整合到开放域视觉问答中,以及将训练扩展到视频问答场景。

作者

  • Andreas Koukounas
  • Georgios Mastrapas
  • Florian Hönicke
  • Sedigheh Eslami
  • Guillaume Roncari
  • Scott Martens
  • Han Xiao

论文信息

  • arXiv ID: 2512.04032v1
  • 分类: cs.CL, cs.AI, cs.CV
  • 发表时间: 2025年12月3日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »