[Paper] Mull-Tokens: 模态无关潜在思考

发布: 1个月前 (2025年12月12日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.10941v1

概览

Mull‑Tokens 引入了一种 模态无关的潜在推理层，能够容纳来自文本和图像的中间“思考”。通过将这些 token 训练为共享工作空间，模型可以在视觉和语言信息之间自由切换，而无需依赖重量级的专用工具或手工构建的推理管线。该方法提供了一种更稳健、可扩展的多模态推理方案，在空间密集型基准上提升了性能。

主要贡献

模态无关的潜在 token（Mull‑Tokens），作为文本和图像的通用推理缓冲区。
两阶段训练方案：① 在交错的文本‑图像推理轨迹上进行监督预训练；② 仅使用最终答案进行无监督微调。
实验提升：平均准确率提升 +3 %，在四个空间推理数据集的拼图求解子集上最高提升 +16 %，超越强大的仅文本和交错基线。
实用方案：将 Mull‑Tokens 集成到现有视觉‑语言架构中，仅需最小的结构改动。

方法论

潜在 Token 设计 – 在 transformer 的 token 流中追加一小组可学习向量（Mull‑Tokens）。这些向量不绑定特定模态；它们可以吸收视觉嵌入、文本嵌入或两者的混合。
监督预训练 – 向模型提供 推理轨迹：在文本提示和图像块之间交替的序列，并通过中间监督告诉 Mull‑Tokens 在每一步应捕获的“思考”。
自监督微调 – 移除轨迹级监督后，仅使用最终答案（例如多选标签）进行训练。Mull‑Tokens 学会在没有显式指导的情况下自行组织所需的中间推理。
集成 – 将 Mull‑Tokens 插入标准的视觉‑语言骨干网络（如 ViLT、基于 CLIP 的 transformer）。推理时，模型只需一次前向传播，token 自动调节跨模态信息流。

结果与发现

基准（空间推理）	基线（仅文本）	基线（交错）	Mull‑Tokens	与最佳基线的 Δ
拼图求解（重）	62 %	68 %	84 %	+16 %
3D‑视角转换	71 %	73 %	76 %	+3 %
对象关系网格	68 %	70 %	73 %	+3 %
多步导航	65 %	66 %	69 %	+3 %

在所有四个数据集上均实现一致提升，证实共享潜在工作空间有助于模型综合视觉和文本线索。
消融研究 表明，去除监督轨迹阶段会导致性能下降约 5 %，凸显其在塑造有效 token 动态中的作用。
Token 数量分析 显示，超过 8 个 Mull‑Tokens 后收益递减，暗示容量与计算开销之间存在最佳平衡点。

实际意义

简化管线 – 开发者可以用单个增添 Mull‑Tokens 的 transformer 替代复杂的工具链（如独立的 OCR、场景图生成器和推理模块）。
可扩展到新领域 – 由于 token 是模态无关的，同一架构可在机器人、AR/VR 或电商等需要空间或可供性推理的场景中进行微调。
降低推理成本 – 无需外部图像生成或符号推理引擎；额外的 token 嵌入仅增加适度的内存占用。
即插即用 – 现有视觉‑语言模型只需少量代码即可采用 Mull‑Tokens，适合在需要“视觉常识”（如理解布局指令的虚拟助理）的产品中快速原型化。

局限性与未来工作

领域特异性 – 当前的训练轨迹针对空间拼图进行策划；在抽象推理（如因果推断）上的表现尚未验证。
Token 容量上限 – 虽然 8 个 token 已表现良好，但更复杂的多步任务可能需要层次化 token 结构或动态 token 分配。
可解释性 – 潜在思考并非直接可读的人类语言；未来工作可探索探针或可视化 token 激活以帮助调试。
跨模态预训练数据 – 该方法仍依赖高质量的交错文本‑图像数据集；构建更大、更丰富的轨迹语料库有望进一步提升泛化能力。

核心结论：Mull‑Tokens 提供了一种简洁、可扩展的方式，为多模态模型提供共享的“思考空间”，在具有挑战性的空间推理任务上实现可衡量的提升，同时保持足够简洁的工程栈，以便在真实世界中部署。

作者

Arijit Ray
Ahmed Abdelkader
Chengzhi Mao
Bryan A. Plummer
Kate Saenko
Ranjay Krishna
Leonidas Guibas
Wen‑Sheng Chu

论文信息

arXiv ID: 2512.10941v1
分类: cs.CV, cs.AI
发布日期: 2025 年 12 月 11 日
PDF: Download PDF

[Paper] Mull-Tokens: 模态无关潜在思考

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 模糊指纹：对 AI 图像指纹 鲁棒性的系统评估

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估