[Paper] UniT：统一多模态链式思考测试时扩展

发布: 3天前 (2026年2月13日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.12279v1

（请提供您希望翻译的正文内容，我将为您翻译成简体中文并保留原始的格式和代码块。）

概述

本文介绍了 UniT，一个框架，使单一多模态模型（能够同时理解图像并生成文本或图像）在推理时能够进行迭代推理。通过“测试时扩展”，模型可以将复杂的视觉语言任务拆解为一系列思考链，验证自己的中间步骤，并完善答案——这类似于人类解决多步骤问题的方式。

关键贡献

统一的多模态链式思考（CoT）推理：将测试时的扩展从纯语言模型扩展到同时处理视觉和语言的模型。
代理式数据合成：生成的训练数据不仅包含最终答案，还包括中间推理和编辑步骤。
可扩展的推理策略：表明顺序的 CoT 推理（一步接一步）比运行大量并行样本更计算高效。
对更长推理链的泛化：在短推理轨迹上训练的模型能够在测试时成功执行更长的链条，而无需额外微调。
改进的分布外视觉推理：在生成 + 编辑轨迹上进行训练提升了对未见视觉任务的鲁棒性。

方法论

数据生成 – 作者使用一种“self‑play” 风格的流水线，先让基础多模态模型创建合成任务，然后产生 reason‑then‑edit 轨迹：一段简短的推理步骤链，随后给出最终输出。
统一模型训练 – 单一的编码器‑解码器架构（视觉编码器 + 语言解码器）在三类数据上进行训练：
- 理解（问答、分类）
- 生成（图像字幕、视觉故事讲述）
- 编辑（对先前生成的字幕或图像进行细化）
  损失函数鼓励模型预测链中的下一步，而不仅仅是最终答案。
测试时扩展 (TTS) – 推理时，模型被提示生成 chain‑of‑thought：
- 分解指令为子目标。
- 执行每个子目标，可选地验证结果（例如，“生成的区域是否包含猫？”）。
- 编辑/细化 基于验证反馈。
  该过程循环，直至满足停止准则（最大步数或置信阈值）。
顺序 vs 并行 – 与并行采样多个完整答案不同，UniT 运行单一的顺序链，复用隐藏状态和中间视觉上下文，从而节省 GPU 内存和 FLOPs。

结果与发现

指标	基线（单次）	UniT（顺序 CoT）
VQA 准确率（硬组合集合）	68.2 %	73.9 % (+5.7 %)
图像描述 BLEU‑4（分布外）	31.1	35.4 (+4.3)
推理计算（FLOPs）在可比性能下	1.0×（单次）	1.3×（3 步链）– 比 5 样本并行更高效
对 10 步链的泛化（在 ≤4 步上训练）	0 % 成功	≈78 % 成功推理

关键要点

短轨迹训练足够 – 模型学习到可重复使用的推理“技能集”，可以任意长地串联。
顺序 CoT 优于并行采样 – 在约 30 % 更少计算量的情况下实现相似或更好的准确率。
编辑轨迹很重要 – 看到“生成后编辑”示例的模型在处理新颖视觉组合时优于仅生成模型。

实际意义

面向开发者的 API – UniT 可以封装为单一端点，接受图像 + 指令并返回逐步解释以及最终输出，便于集成到助手、设计工具或 QA 机器人中。
成本效益的扩展 – 开发者无需为更难的任务配备更大的模型，只需分配少量额外推理时间（例如，几次额外的前向传播），即可获得更高的准确率。
稳健的视觉助手 – 照片编辑器、AR 助手或机器人等应用可以受益于即时验证（“我是否正确分离了目标？”），无需重新训练。
改进的调试 – 明确的思考链充当自然的审计轨迹，帮助工程师定位模型出错的环节。
跨模态编辑工具 – UniT 的编辑感知训练使得可以使用生成原始内容的同一模型实现诸如“细化此字幕以提及背景”或“将红色汽车替换为蓝色汽车”等功能。

局限性与未来工作

推理延迟 – 虽然比并行采样更计算高效，但多步推理仍会增加延迟，可能不适用于实时 UI 场景。
依赖合成数据 – 代理式数据合成流水线可能引入偏差；在真正自然、人工撰写的多步任务上的表现仍需充分验证。
长视觉历史的内存 – 在多个步骤中保持视觉上下文会消耗 GPU 内存；未来工作可以探索层次化记忆或检索增强的设计。
对其他模态的泛化 – 将 UniT 扩展到音频、视频或 3‑D 数据是一个未解之路。

UniT 表明，一个统一的多模态模型，只需配合简单的链式思考提示策略，就能在不显著增大模型规模的前提下实现更高的准确性和鲁棒性——为开发者构建更智能、更可解释的 AI 系统提供了实用的路径。

作者

Leon Liangyu Chen
Haoyu Ma
Zhipeng Fan
Ziqi Huang
Animesh Sinha
Xiaoliang Dai
Jialiang Wang
Zecheng He
Jianwei Yang
Chunyuan Li
Junzhe Sun
Chu Wang
Serena Yeung-Levy
Felix Juefei-Xu

论文信息

arXiv ID: 2602.12279v1
分类: cs.CV, cs.AI, cs.LG
发表时间: 2026年2月12日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] MonarchRT：高效注意力用于实时视频生成

使用 Diffusion Transformers 进行实时视频生成时，受到 3D self-attention 二次成本的瓶颈限制，尤其在实时模式下……

[Paper] 面向 On-Policy SFT：分布判别理论及其在 LLM 训练中的应用

监督微调（SFT）在计算上高效，但相比强化学习（RL）通常会导致较差的泛化能力。这一差距主要是…

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

通用机器人长期以来的愿景依赖于它们理解并执行自然语言指令的能力。Vision‑Language‑Action（VLA）……

[Paper] 惊喜之笔：渐进式语义幻觉在 Vector Sketching 中

视觉错觉传统上依赖于空间操作，例如多视图一致性。在本工作中，我们引入了 Progressive Semantic Illusions，这是一种新颖的……