[Paper] UniT:统一多模态链式思考测试时扩展

发布: (2026年2月13日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.12279v1

(请提供您希望翻译的正文内容,我将为您翻译成简体中文并保留原始的格式和代码块。)

概述

本文介绍了 UniT,一个框架,使单一多模态模型(能够同时理解图像并生成文本或图像)在推理时能够进行迭代推理。通过“测试时扩展”,模型可以将复杂的视觉语言任务拆解为一系列思考链,验证自己的中间步骤,并完善答案——这类似于人类解决多步骤问题的方式。

关键贡献

  • 统一的多模态链式思考(CoT)推理:将测试时的扩展从纯语言模型扩展到同时处理视觉和语言的模型。
  • 代理式数据合成:生成的训练数据不仅包含最终答案,还包括中间推理和编辑步骤。
  • 可扩展的推理策略:表明顺序的 CoT 推理(一步接一步)比运行大量并行样本更计算高效。
  • 对更长推理链的泛化:在短推理轨迹上训练的模型能够在测试时成功执行更长的链条,而无需额外微调。
  • 改进的分布外视觉推理:在生成 + 编辑轨迹上进行训练提升了对未见视觉任务的鲁棒性。

方法论

  1. 数据生成 – 作者使用一种“self‑play” 风格的流水线,先让基础多模态模型创建合成任务,然后产生 reason‑then‑edit 轨迹:一段简短的推理步骤链,随后给出最终输出。
  2. 统一模型训练 – 单一的编码器‑解码器架构(视觉编码器 + 语言解码器)在三类数据上进行训练:
    • 理解(问答、分类)
    • 生成(图像字幕、视觉故事讲述)
    • 编辑(对先前生成的字幕或图像进行细化)
      损失函数鼓励模型预测链中的下一步,而不仅仅是最终答案。
  3. 测试时扩展 (TTS) – 推理时,模型被提示生成 chain‑of‑thought
    • 分解 指令为子目标。
    • 执行 每个子目标,可选地 验证 结果(例如,“生成的区域是否包含猫?”)。
    • 编辑/细化 基于验证反馈。
      该过程循环,直至满足停止准则(最大步数或置信阈值)。
  4. 顺序 vs 并行 – 与并行采样多个完整答案不同,UniT 运行单一的顺序链,复用隐藏状态和中间视觉上下文,从而节省 GPU 内存和 FLOPs。

结果与发现

指标基线(单次)UniT(顺序 CoT)
VQA 准确率(硬组合集合)68.2 %73.9 % (+5.7 %)
图像描述 BLEU‑4(分布外)31.135.4 (+4.3)
推理计算(FLOPs)在可比性能下1.0×(单次)1.3×(3 步链)– 比 5 样本并行更高效
对 10 步链的泛化(在 ≤4 步上训练)0 % 成功≈78 % 成功推理

关键要点

  • 短轨迹训练足够 – 模型学习到可重复使用的推理“技能集”,可以任意长地串联。
  • 顺序 CoT 优于并行采样 – 在约 30 % 更少计算量的情况下实现相似或更好的准确率。
  • 编辑轨迹很重要 – 看到“生成后编辑”示例的模型在处理新颖视觉组合时优于仅生成模型。

实际意义

  • 面向开发者的 API – UniT 可以封装为单一端点,接受图像 + 指令并返回逐步解释以及最终输出,便于集成到助手、设计工具或 QA 机器人中。
  • 成本效益的扩展 – 开发者无需为更难的任务配备更大的模型,只需分配少量额外推理时间(例如,几次额外的前向传播),即可获得更高的准确率。
  • 稳健的视觉助手 – 照片编辑器、AR 助手或机器人等应用可以受益于即时验证(“我是否正确分离了目标?”),无需重新训练。
  • 改进的调试 – 明确的思考链充当自然的审计轨迹,帮助工程师定位模型出错的环节。
  • 跨模态编辑工具 – UniT 的编辑感知训练使得可以使用生成原始内容的同一模型实现诸如“细化此字幕以提及背景”或“将红色汽车替换为蓝色汽车”等功能。

局限性与未来工作

  • 推理延迟 – 虽然比并行采样更计算高效,但多步推理仍会增加延迟,可能不适用于实时 UI 场景。
  • 依赖合成数据 – 代理式数据合成流水线可能引入偏差;在真正自然、人工撰写的多步任务上的表现仍需充分验证。
  • 长视觉历史的内存 – 在多个步骤中保持视觉上下文会消耗 GPU 内存;未来工作可以探索层次化记忆或检索增强的设计。
  • 对其他模态的泛化 – 将 UniT 扩展到音频、视频或 3‑D 数据是一个未解之路。

UniT 表明,一个统一的多模态模型,只需配合简单的链式思考提示策略,就能在不显著增大模型规模的前提下实现更高的准确性和鲁棒性——为开发者构建更智能、更可解释的 AI 系统提供了实用的路径。

作者

  • Leon Liangyu Chen
  • Haoyu Ma
  • Zhipeng Fan
  • Ziqi Huang
  • Animesh Sinha
  • Xiaoliang Dai
  • Jialiang Wang
  • Zecheng He
  • Jianwei Yang
  • Chunyuan Li
  • Junzhe Sun
  • Chu Wang
  • Serena Yeung-Levy
  • Felix Juefei-Xu

论文信息

  • arXiv ID: 2602.12279v1
  • 分类: cs.CV, cs.AI, cs.LG
  • 发表时间: 2026年2月12日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »