[Paper] Jina-VLM: 小型多语言视觉语言模型

发布: (2025年12月4日 GMT+8 02:13)
7 min read
原文: arXiv

Source: arXiv - 2512.04032v1

概览

Jina‑VLM 是一个拥有 2.4 B 参数的视觉语言模型,在保持“小模型”规模的同时,推动了多语言视觉问答(VQA)的前沿。通过将高性能的 SigLIP2 视觉编码器与强大的 Qwen‑3 语言模型通过新颖的注意力池化连接器相结合,系统能够在不增加 token 数量的情况下处理任意分辨率的图像,在多语言 VQA 基准上实现了业界领先的结果,并在纯文本任务上表现稳健。

关键贡献

  • 紧凑的多语言 VLM:首个参数量低于 3 B、同时在多语言 VQA 与仅文本任务上表现出色的开源模型。
  • 注意力池化连接器:一种轻量模块,将可变大小的视觉特征图压缩为固定长度的 token 序列,实现高分辨率图像的 token‑高效处理。
  • SigLIP2 + Qwen‑3 融合:证明将现代对比视觉编码器(SigLIP2)与大规模 LLM(Qwen‑3)结合,可在不大幅增加参数的情况下提升跨模态推理能力。
  • 业界领先的多语言 VQA:在标准 VQA 数据集(如 VQAv2、GQA)及其多语言扩展(如 X‑VQA、MME‑Multi)上超越所有开源 2 B 级 VLM。
  • 开源发布:模型权重、训练脚本和评估流水线均公开,鼓励社区采用与进一步研究。

方法论

  1. 视觉骨干网络 – SigLIP2

    • 在大规模、多样化的图像语料上使用对比图文目标进行训练。
    • 为任意输入分辨率生成密集特征图(高度 × 宽度 × 通道)。
  2. 注意力池化连接器

    • 接收二维特征图并应用多头自注意力层,学习将空间 token “池化” 成少量固定大小的集合(例如 8‑12 个 token)。
    • 在保持关键视觉信息的同时,降低语言模型的 token 开销。
  3. 语言骨干网络 – Qwen‑3

    • 一个仅解码器的 Transformer,预训练于海量多语言文本数据(约 100 种语言)。
    • 将池化后的视觉 token 前置于文本提示之前,实现联合推理。
  4. 训练流程

    • 阶段 1:冻结视觉编码器,对连接器 + 语言模型在图文对(ITC)和指令跟随数据的混合上进行微调。
    • 阶段 2:在多语言 VQA 数据集上进行端到端微调,使用答案 token 的交叉熵损失。
    • 课程学习:从低分辨率图像开始,逐步提升分辨率,使连接器学会处理任意尺寸。
  5. 推理流水线

    • 输入图像 → SigLIP2 → 注意力池化 → token 序列 → Qwen‑3 → 生成答案。
    • 由于视觉 token 数量保持不变,推理延迟主要随语言模型规模增长,而非图像分辨率。

结果与发现

基准模型 (2.4 B)先前开源 2 B 级 VLM仅文本 (如 MMLU)
VQAv2(英文)78.4 %73.1 %71.2 %
GQA(英文)71.9 %66.5 %
X‑VQA(10 种语言)65.3 % avg58.7 % avg
MME‑Multi(多语言)62.1 %55.4 %
MMLU(仅文本)71.8 %70.2 %
  • Token 效率:注意力池化连接器将视觉 token 数量从约 1,000(完整补丁网格)压缩至 ≤12,跨模态注意力成本降低约 90 %,且精度未受影响。
  • 分辨率鲁棒性:在 224 px 到 1,024 px 的图像上实验,性能漂移 <2 %,验证了连接器在不同尺度上的泛化能力。
  • 多语言迁移:即使是 VQA 数据稀缺的语言(如斯瓦希里语、乌尔都语),相较基线也提升了 >10 % 的绝对准确率,显示出强大的跨语言视觉对齐能力。

实际意义

  • 企业 AI 助手:企业可将 Jina‑VLM 嵌入需要理解截图、产品照片或 UI 原型的多语言聊天机器人,而无需承担 10 B 以上模型的推理成本。
  • 边缘与移动部署:固定且极小的视觉 token 流使得在 GPU 内存受限的设备(如 NVIDIA Jetson、Apple M 系列)上运行成为可能,同时仍能处理高分辨率输入。
  • 内容审核与可访问性:多语言视觉 QA 可驱动自动字幕、基于图像的 FAQ 系统或为用户提供母语视觉查询答案的辅助工具。
  • 快速原型:开源权重和简易 API 让开发者能够在全球用户群体中实验“视觉提示”(例如“这屏幕上的错误码是什么?”)的交互方式。

局限性与未来工作

  • 规模上限:虽然 2.4 B 参数在性能与成本之间取得了良好平衡,但在一些细粒度视觉推理任务(如详细场景图生成)上仍落后于最新的 10 B 以上 VLM。
  • 语言覆盖:对低资源语言的表现明显下降,这些语言在 Qwen‑3 预训练语料中代表性不足;需要进一步的多语言预训练。
  • 连接器可解释性:注意力池化步骤仍是黑箱,如何可视化每个池化 token 对应的图像补丁仍是开放的研究方向。
  • 作者提出的未来方向包括:将连接器扩展为多 token 的视觉“记忆”槽、集成检索增强生成以实现开放域视觉 QA、以及将训练扩展到视频问答场景。

作者

  • Andreas Koukounas
  • Georgios Mastrapas
  • Florian Hönicke
  • Sedigheh Eslami
  • Guillaume Roncari
  • Scott Martens
  • Han Xiao

论文信息

  • arXiv ID: 2512.04032v1
  • 分类: cs.CL, cs.AI, cs.CV
  • 发表时间: 2025 年 12 月 3 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »