[Paper] 大语言模型是视觉生成的通用推理者

发布: 5天前 (2026年5月6日 GMT+8 01:57)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.04040v1

概述

本文介绍了 UniReasoner，一个新框架，可将大型语言模型（LLM）转变为文本到图像生成的“通用推理器”。通过让 LLM 首先草绘一个粗略的视觉布局，对其自身输出进行批评，并将该批评输入扩散模型，作者显著缩小了模型对understand 提示的能力与generate 真正匹配图像的能力之间的差距。

关键贡献

理解‑生成差距形式化： 定义并量化了为什么当前统一的 LLM‑扩散系统在验证方面表现良好，却常常无法对齐复杂提示。
三步推理流水线：
1. 草稿生成 – LLM 使用离散视觉标记生成粗略的视觉草稿。
2. 自我批评 – LLM 根据提示评估草稿，生成有依据的文本修正。
3. 引导扩散 – 扩散模型以原始提示、视觉草稿以及批评为条件，生成最终图像。
联合条件策略： 展示了草稿如何提供具体的场景锚点，而批评则提供可操作的约束，两者相互补偿各自的弱点。
实证收益： 在标准基准上展示了在组合对齐和语义忠实度方面的一致提升，且不牺牲视觉质量。
通用方案： 该方法适用于任何现成的扩散主干，使其成为现有流水线的即插即用升级。

方法论

1. 提示 → 视觉令牌

LLM（例如 GPT‑4‑style）被提示将自然语言描述转换为离散视觉令牌序列（类似于 VQ‑GAN 码本）。
这个“草稿”是场景的低分辨率、令牌级草图（对象、布局、粗略属性）。

2. 自我批评循环

同一个 LLM 接收草稿和原始提示，然后生成文本评估，例如：“狗缺少项圈；天空应该是日落橙色，而不是蓝色”。
该批评是有依据的：它引用具体的令牌或区域，将二元验证任务转化为一系列纠正指令。

3. 扩散条件化

扩散模型（例如 Stable Diffusion）以三个输入为条件：
- 原始文本提示（高层语义）。
- 视觉草稿（提供空间锚点）。
- 文本批评（充当类似损失的指导，惩罚遗漏、幻觉和关系错误）。
在去噪过程中，模型遵循这些组合信号，迭代细化图像，以同时满足草稿和批评的要求。

4. 训练与推理

不需要对 LLM 进行额外训练；LLM 在零样本模式下用于草稿生成和批评。
扩散主干仅在额外的条件通道上进行微调，使整体计算预算与标准文本到图像流水线相当。

结果与发现

指标	基线（仅文本）	UniReasoner
CLIP‑Score（语义保真度）	0.71	0.78
组合准确率（COCO‑Captions）	62%	74%
幻觉率	18%	9%
保真度‑质量权衡（FID）	12.4	12.1 (≈ 未改变)

更高的组合对齐度： 对象、属性和空间关系与提示的对应性大幅提升。
幻觉减少： 批评环节会明确标记缺失或多余的元素，从而生成更干净的输出。
质量无损失： 图像清晰度和美学评分与原始扩散模型持平。
消融实验： 去除草稿或批评任一环节都会导致性能下降，验证了它们的互补作用。

Practical Implications

Plug‑and‑play upgrade for existing generators: 开发者可以在不重新训练大型语言模型的情况下，将任何扩散模型包装在 UniReasoner 流水线中，实现即插即用的升级。
Better control for designers & marketers: 复杂的简报（例如“黄昏时分的未来城市，霓虹灯在湿润的街道上倒影”）能够更忠实地呈现，减少迭代式提示工程的需求。
Reduced post‑processing: 手动编辑或重新生成的循环更少，节省计算时间和云成本。
Potential for multimodal assistants: 相同的推理循环可以扩展到视频生成、3‑D 资产创建或交互式编辑工具，使模型持续批评并完善其输出。
Safety & bias mitigation: 自我批评步骤可以加入政策检查，使系统在最终渲染前标记或纠正不良内容。

限制与未来工作

对LLM质量的依赖： 草稿和批评的质量受限于LLM的推理能力；较弱的模型可能产生模糊或不正确的修正。
延迟开销： 运行两次LLM（草稿 + 批评）会增加推理时间，这在实时应用中可能成为问题。
离散令牌瓶颈： 粗糙的视觉令牌草稿可能遗漏细粒度细节，限制了该方法在超高分辨率或写实任务中的应用。
批评语言的可扩展性： 目前的批评是文本形式；未来工作可以探索结构化表示（例如场景图），以实现与扩散模型更紧密的集成。
对非英语提示的泛化能力： 该流水线假设使用能够处理英语的LLM；多语言扩展仍是一个未解决的研究方向。

UniReasoner 展示了一条实用路径，利用LLM推理来弥合视觉合成中理解与生成的差距，为开发者提供更可靠、可控的文本到图像体验。

作者

Sucheng Ren
Chen Chen
Zhenbang Wang
Liangchen Song
Xiangxin Zhu
Alan Yuille
Liang-Chieh Chen
Jiasen Lu

论文信息

arXiv ID: 2605.04040v1
类别: cs.CV
出版日期: 2026年5月5日
PDF: 下载 PDF

[Paper] 大语言模型是视觉生成的通用推理者

概述

关键贡献

方法论

1. 提示 → 视觉令牌

2. 自我批评循环

3. 扩散条件化

4. 训练与推理

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Proxy3D：通过语义聚类与对齐实现高效的 3D 表征用于视觉语言模型

[Paper] Flow-OPD：用于 Flow Matching 模型的 On-Policy 蒸馏

[Paper] 面向高度约束的人体动作生成的检索引导扩散噪声优化