[Paper] Mull-Tokens: 模态无关 潜在思考

发布: (2025年12月12日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.10941v1

概览

Mull‑Tokens 引入了一种 模态无关的潜在推理层,能够容纳来自文本和图像的中间“思考”。通过将这些 token 训练为共享工作空间,模型可以在视觉和语言信息之间自由切换,而无需依赖重量级的专用工具或手工构建的推理管线。该方法提供了一种更稳健、可扩展的多模态推理方案,在空间密集型基准上提升了性能。

主要贡献

  • 模态无关的潜在 token(Mull‑Tokens),作为文本和图像的通用推理缓冲区。
  • 两阶段训练方案:① 在交错的文本‑图像推理轨迹上进行监督预训练;② 仅使用最终答案进行无监督微调。
  • 实验提升:平均准确率提升 +3 %,在四个空间推理数据集的拼图求解子集上最高提升 +16 %,超越强大的仅文本和交错基线。
  • 实用方案:将 Mull‑Tokens 集成到现有视觉‑语言架构中,仅需最小的结构改动。

方法论

  1. 潜在 Token 设计 – 在 transformer 的 token 流中追加一小组可学习向量(Mull‑Tokens)。这些向量不绑定特定模态;它们可以吸收视觉嵌入、文本嵌入或两者的混合。
  2. 监督预训练 – 向模型提供 推理轨迹:在文本提示和图像块之间交替的序列,并通过中间监督告诉 Mull‑Tokens 在每一步应捕获的“思考”。
  3. 自监督微调 – 移除轨迹级监督后,仅使用最终答案(例如多选标签)进行训练。Mull‑Tokens 学会在没有显式指导的情况下自行组织所需的中间推理。
  4. 集成 – 将 Mull‑Tokens 插入标准的视觉‑语言骨干网络(如 ViLT、基于 CLIP 的 transformer)。推理时,模型只需一次前向传播,token 自动调节跨模态信息流。

结果与发现

基准(空间推理)基线(仅文本)基线(交错)Mull‑Tokens与最佳基线的 Δ
拼图求解(重)62 %68 %84 %+16 %
3D‑视角转换71 %73 %76 %+3 %
对象关系网格68 %70 %73 %+3 %
多步导航65 %66 %69 %+3 %
  • 在所有四个数据集上均实现一致提升,证实共享潜在工作空间有助于模型综合视觉和文本线索。
  • 消融研究 表明,去除监督轨迹阶段会导致性能下降约 5 %,凸显其在塑造有效 token 动态中的作用。
  • Token 数量分析 显示,超过 8 个 Mull‑Tokens 后收益递减,暗示容量与计算开销之间存在最佳平衡点。

实际意义

  • 简化管线 – 开发者可以用单个增添 Mull‑Tokens 的 transformer 替代复杂的工具链(如独立的 OCR、场景图生成器和推理模块)。
  • 可扩展到新领域 – 由于 token 是模态无关的,同一架构可在机器人、AR/VR 或电商等需要空间或可供性推理的场景中进行微调。
  • 降低推理成本 – 无需外部图像生成或符号推理引擎;额外的 token 嵌入仅增加适度的内存占用。
  • 即插即用 – 现有视觉‑语言模型只需少量代码即可采用 Mull‑Tokens,适合在需要“视觉常识”(如理解布局指令的虚拟助理)的产品中快速原型化。

局限性与未来工作

  • 领域特异性 – 当前的训练轨迹针对空间拼图进行策划;在抽象推理(如因果推断)上的表现尚未验证。
  • Token 容量上限 – 虽然 8 个 token 已表现良好,但更复杂的多步任务可能需要层次化 token 结构或动态 token 分配。
  • 可解释性 – 潜在思考并非直接可读的人类语言;未来工作可探索探针或可视化 token 激活以帮助调试。
  • 跨模态预训练数据 – 该方法仍依赖高质量的交错文本‑图像数据集;构建更大、更丰富的轨迹语料库有望进一步提升泛化能力。

核心结论:Mull‑Tokens 提供了一种简洁、可扩展的方式,为多模态模型提供共享的“思考空间”,在具有挑战性的空间推理任务上实现可衡量的提升,同时保持足够简洁的工程栈,以便在真实世界中部署。

作者

  • Arijit Ray
  • Ahmed Abdelkader
  • Chengzhi Mao
  • Bryan A. Plummer
  • Kate Saenko
  • Ranjay Krishna
  • Leonidas Guibas
  • Wen‑Sheng Chu

论文信息

  • arXiv ID: 2512.10941v1
  • 分类: cs.CV, cs.AI
  • 发布日期: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »