[Paper] Mull-Tokens: 模态无关 潜在思考
发布: (2025年12月12日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.10941v1
概览
Mull‑Tokens 引入了一种 模态无关的潜在推理层,能够容纳来自文本和图像的中间“思考”。通过将这些 token 训练为共享工作空间,模型可以在视觉和语言信息之间自由切换,而无需依赖重量级的专用工具或手工构建的推理管线。该方法提供了一种更稳健、可扩展的多模态推理方案,在空间密集型基准上提升了性能。
主要贡献
- 模态无关的潜在 token(Mull‑Tokens),作为文本和图像的通用推理缓冲区。
- 两阶段训练方案:① 在交错的文本‑图像推理轨迹上进行监督预训练;② 仅使用最终答案进行无监督微调。
- 实验提升:平均准确率提升 +3 %,在四个空间推理数据集的拼图求解子集上最高提升 +16 %,超越强大的仅文本和交错基线。
- 实用方案:将 Mull‑Tokens 集成到现有视觉‑语言架构中,仅需最小的结构改动。
方法论
- 潜在 Token 设计 – 在 transformer 的 token 流中追加一小组可学习向量(Mull‑Tokens)。这些向量不绑定特定模态;它们可以吸收视觉嵌入、文本嵌入或两者的混合。
- 监督预训练 – 向模型提供 推理轨迹:在文本提示和图像块之间交替的序列,并通过中间监督告诉 Mull‑Tokens 在每一步应捕获的“思考”。
- 自监督微调 – 移除轨迹级监督后,仅使用最终答案(例如多选标签)进行训练。Mull‑Tokens 学会在没有显式指导的情况下自行组织所需的中间推理。
- 集成 – 将 Mull‑Tokens 插入标准的视觉‑语言骨干网络(如 ViLT、基于 CLIP 的 transformer)。推理时,模型只需一次前向传播,token 自动调节跨模态信息流。
结果与发现
| 基准(空间推理) | 基线(仅文本) | 基线(交错) | Mull‑Tokens | 与最佳基线的 Δ |
|---|---|---|---|---|
| 拼图求解(重) | 62 % | 68 % | 84 % | +16 % |
| 3D‑视角转换 | 71 % | 73 % | 76 % | +3 % |
| 对象关系网格 | 68 % | 70 % | 73 % | +3 % |
| 多步导航 | 65 % | 66 % | 69 % | +3 % |
- 在所有四个数据集上均实现一致提升,证实共享潜在工作空间有助于模型综合视觉和文本线索。
- 消融研究 表明,去除监督轨迹阶段会导致性能下降约 5 %,凸显其在塑造有效 token 动态中的作用。
- Token 数量分析 显示,超过 8 个 Mull‑Tokens 后收益递减,暗示容量与计算开销之间存在最佳平衡点。
实际意义
- 简化管线 – 开发者可以用单个增添 Mull‑Tokens 的 transformer 替代复杂的工具链(如独立的 OCR、场景图生成器和推理模块)。
- 可扩展到新领域 – 由于 token 是模态无关的,同一架构可在机器人、AR/VR 或电商等需要空间或可供性推理的场景中进行微调。
- 降低推理成本 – 无需外部图像生成或符号推理引擎;额外的 token 嵌入仅增加适度的内存占用。
- 即插即用 – 现有视觉‑语言模型只需少量代码即可采用 Mull‑Tokens,适合在需要“视觉常识”(如理解布局指令的虚拟助理)的产品中快速原型化。
局限性与未来工作
- 领域特异性 – 当前的训练轨迹针对空间拼图进行策划;在抽象推理(如因果推断)上的表现尚未验证。
- Token 容量上限 – 虽然 8 个 token 已表现良好,但更复杂的多步任务可能需要层次化 token 结构或动态 token 分配。
- 可解释性 – 潜在思考并非直接可读的人类语言;未来工作可探索探针或可视化 token 激活以帮助调试。
- 跨模态预训练数据 – 该方法仍依赖高质量的交错文本‑图像数据集;构建更大、更丰富的轨迹语料库有望进一步提升泛化能力。
核心结论:Mull‑Tokens 提供了一种简洁、可扩展的方式,为多模态模型提供共享的“思考空间”,在具有挑战性的空间推理任务上实现可衡量的提升,同时保持足够简洁的工程栈,以便在真实世界中部署。
作者
- Arijit Ray
- Ahmed Abdelkader
- Chengzhi Mao
- Bryan A. Plummer
- Kate Saenko
- Ranjay Krishna
- Leonidas Guibas
- Wen‑Sheng Chu
论文信息
- arXiv ID: 2512.10941v1
- 分类: cs.CV, cs.AI
- 发布日期: 2025 年 12 月 11 日
- PDF: Download PDF