[Paper] 大语言模型是视觉生成的通用推理者

发布: (2026年5月6日 GMT+8 01:57)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.04040v1

概述

本文介绍了 UniReasoner,一个新框架,可将大型语言模型(LLM)转变为文本到图像生成的“通用推理器”。通过让 LLM 首先草绘一个粗略的视觉布局,对其自身输出进行批评,并将该批评输入扩散模型,作者显著缩小了模型对understand 提示的能力与generate 真正匹配图像的能力之间的差距。

关键贡献

  • 理解‑生成差距形式化: 定义并量化了为什么当前统一的 LLM‑扩散系统在验证方面表现良好,却常常无法对齐复杂提示。
  • 三步推理流水线:
    1. 草稿生成 – LLM 使用离散视觉标记生成粗略的视觉草稿。
    2. 自我批评 – LLM 根据提示评估草稿,生成有依据的文本修正。
    3. 引导扩散 – 扩散模型以原始提示、视觉草稿 以及 批评为条件,生成最终图像。
  • 联合条件策略: 展示了草稿如何提供具体的场景锚点,而批评则提供可操作的约束,两者相互补偿各自的弱点。
  • 实证收益: 在标准基准上展示了在组合对齐和语义忠实度方面的一致提升,且不牺牲视觉质量。
  • 通用方案: 该方法适用于任何现成的扩散主干,使其成为现有流水线的即插即用升级。

方法论

1. 提示 → 视觉令牌

  • LLM(例如 GPT‑4‑style)被提示将自然语言描述转换为离散视觉令牌序列(类似于 VQ‑GAN 码本)。
  • 这个“草稿”是场景的低分辨率、令牌级草图(对象、布局、粗略属性)。

2. 自我批评循环

  • 同一个 LLM 接收草稿和原始提示,然后生成文本评估,例如:“狗缺少项圈;天空应该是日落橙色,而不是蓝色”。
  • 该批评是有依据的:它引用具体的令牌或区域,将二元验证任务转化为一系列纠正指令。

3. 扩散条件化

  • 扩散模型(例如 Stable Diffusion)以三个输入为条件:
    • 原始文本提示(高层语义)。
    • 视觉草稿(提供空间锚点)。
    • 文本批评(充当类似损失的指导,惩罚遗漏、幻觉和关系错误)。
  • 在去噪过程中,模型遵循这些组合信号,迭代细化图像,以同时满足草稿和批评的要求。

4. 训练与推理

  • 不需要对 LLM 进行额外训练;LLM 在零样本模式下用于草稿生成和批评。
  • 扩散主干仅在额外的条件通道上进行微调,使整体计算预算与标准文本到图像流水线相当。

结果与发现

指标基线(仅文本)UniReasoner
CLIP‑Score(语义保真度)0.710.78
组合准确率(COCO‑Captions)62%74%
幻觉率18%9%
保真度‑质量权衡(FID)12.412.1 (≈ 未改变)
  • 更高的组合对齐度: 对象、属性和空间关系与提示的对应性大幅提升。
  • 幻觉减少: 批评环节会明确标记缺失或多余的元素,从而生成更干净的输出。
  • 质量无损失: 图像清晰度和美学评分与原始扩散模型持平。
  • 消融实验: 去除草稿或批评任一环节都会导致性能下降,验证了它们的互补作用。

Practical Implications

  • Plug‑and‑play upgrade for existing generators: 开发者可以在不重新训练大型语言模型的情况下,将任何扩散模型包装在 UniReasoner 流水线中,实现即插即用的升级。
  • Better control for designers & marketers: 复杂的简报(例如“黄昏时分的未来城市,霓虹灯在湿润的街道上倒影”)能够更忠实地呈现,减少迭代式提示工程的需求。
  • Reduced post‑processing: 手动编辑或重新生成的循环更少,节省计算时间和云成本。
  • Potential for multimodal assistants: 相同的推理循环可以扩展到视频生成、3‑D 资产创建或交互式编辑工具,使模型持续批评并完善其输出。
  • Safety & bias mitigation: 自我批评步骤可以加入政策检查,使系统在最终渲染前标记或纠正不良内容。

限制与未来工作

  • 对LLM质量的依赖: 草稿和批评的质量受限于LLM的推理能力;较弱的模型可能产生模糊或不正确的修正。
  • 延迟开销: 运行两次LLM(草稿 + 批评)会增加推理时间,这在实时应用中可能成为问题。
  • 离散令牌瓶颈: 粗糙的视觉令牌草稿可能遗漏细粒度细节,限制了该方法在超高分辨率或写实任务中的应用。
  • 批评语言的可扩展性: 目前的批评是文本形式;未来工作可以探索结构化表示(例如场景图),以实现与扩散模型更紧密的集成。
  • 对非英语提示的泛化能力: 该流水线假设使用能够处理英语的LLM;多语言扩展仍是一个未解决的研究方向。

UniReasoner 展示了一条实用路径,利用LLM推理来弥合视觉合成中理解与生成的差距,为开发者提供更可靠、可控的文本到图像体验。

作者

  • Sucheng Ren
  • Chen Chen
  • Zhenbang Wang
  • Liangchen Song
  • Xiangxin Zhu
  • Alan Yuille
  • Liang-Chieh Chen
  • Jiasen Lu

论文信息

  • arXiv ID: 2605.04040v1
  • 类别: cs.CV
  • 出版日期: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »