[Paper] SwimBird: 在混合自回归 MLLMs 中引发可切换的推理模式

发布: 3天前 (2026年2月6日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.06040v1

Overview

SwimBird 是一个新的多模态大语言模型（MLLM），可以在运行时切换推理方式，为每个用户查询选择文本‑仅、视觉‑仅或文本‑视觉组合的最佳混合方式。通过这样做，它在纯语言任务上保持强大的逻辑能力，同时在需要大量视觉的任务（如详细图像分析和视觉问答）上显著提升性能。

Dynamic reasoning‑mode selection：引入三种可互换的模式（仅文本、仅视觉、交叉），模型根据输入自动激活。
Hybrid autoregressive formulation：在单一解码器中统一词元级预测（用于文字）和嵌入级预测（用于视觉“思考”），实现无缝模式切换。
SwimBird‑SFT‑92K dataset：精心策划了包含 92 K 条示例的监督微调集，刻意覆盖所有三种推理模式，为模型提供何时使用各模式的具体示例。
State‑of‑the‑art performance：在经典文本推理套件（如 MMLU、GSM‑8K）和视觉密集任务（如 VQA‑Hard、OK‑VQA、ScienceQA‑Vis）上设立了新基准。
Robustness to fixed‑pattern baselines：证明了灵活的方法避免了以牺牲文本逻辑为代价注入视觉思考的先前方法中出现的权衡。

Hybrid Autoregressive Decoder
- 解码器在模型以文本模式推理时预测下一个 token。
- 在视觉模式下，它预测下一个 visual embedding（表示“视觉思考”的连续隐藏状态）。
- 两种预测共享同一 transformer 堆栈，因此模型可以在 token 和 embedding 输出之间切换，而无需重新初始化参数。
Reasoning‑Mode Curation
- 作者构建了三种提示模板：一种要求模型仅使用语言回答，一种要求它“视觉思考”（生成 embedding），以及一种混合两者的模板。
- 人类标注者为 92 K 条训练样本标注了相应的模式，确保模型看到每种模式的平衡分布。
Mode‑Conditioned Inference
- 推理时，一个轻量级分类器（与主模型联合训练）会查看输入查询并预测最合适的模式。
- 模型随后遵循所选路径，生成文本 token、视觉 embedding，或两者交替的序列。

未来的研究方向包括使用强化学习改进模式选择器、压缩混合模型以实现设备端推理，以及探索超越视觉‑文本组合的多模态切换。