[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

发布: 2个月前 (2025年12月5日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.05112v1

概览

本文提出了 DraCo（Draft-as‑CoT），一种让多模态大语言模型从文本生成图像的新方法。不同于仅依赖文本“思维链”（chain‑of‑thought）规划，DraCo 首先生成低分辨率草图作为视觉草稿，然后利用模型的推理能力发现并修正不匹配，最终生成高分辨率图像。这种交叉的文本与图像推理显著提升了生成图片的保真度，尤其在稀有或复杂概念上表现更佳。

主要贡献

Draft‑as‑CoT 范式：将低分辨率草稿图像视为思维链中的显式步骤，实现具体的视觉规划与验证。
DraCo‑240K 数据集：精心挑选了 240 K 条训练样例，涵盖三种原子技能——通用纠错、实例操作和布局重组——用于教会模型如何细化草稿。
DraCo‑CFG：一种专门的 classifier‑free guidance 技术，在生成过程中协同文本与视觉推理。
显著的性能提升：在 GenEval 上提升 +8 %，Imagine‑Bench 上提升 +0.91，GenEval++ 上提升 +3 %，相较于仅文本 CoT 或直接生成方案。
稀有概念处理：展示了对常规模型容易失败的罕见属性组合的稳健生成能力。

方法论

Prompt → Draft
- 模型接收自然语言提示，首先生成 低分辨率草稿图像（例如 64×64）。
- 该草稿充当视觉“思考”，捕捉粗略布局、对象存在以及大致属性。
验证与错误检测
- 通过内部的多模态理解，模型将草稿与原始提示进行比较。
- 识别语义缺口（如缺少对象、颜色错误、布局错位）。
选择性细化
- 模型决定哪些部分需要纠正，并执行 有针对性的编辑（实例增删、属性调整、布局移动）。
- 一个 超分辨率模块 将纠正后的草稿上采样至最终分辨率（例如 512×512）。
使用 DraCo‑240K 进行训练
- 数据集提供提示、草稿和校正后高分辨率图像的配对示例，并标注三种原子能力。
- 损失函数结合标准扩散目标与纠正决策的辅助监督。
DraCo‑CFG 引导
- 将 classifier‑free guidance 扩展至同时作用于文本和视觉分支，确保草稿与最终图像在整个扩散过程中始终与提示保持一致。

结果与发现

基准测试	相较基线的提升
GenEval	+8 %
Imagine‑Bench	+0.91 绝对值
GenEval++	+3 %

定性提升：视觉示例展示了更清晰的对象边界、正确的稀有属性配对（如 “青绿色条纹斑马”），以及更忠实的空间布局。
消融实验：去除草稿步骤会导致 GenEval 性能下降约 5 %，验证了草稿作为关键规划支架的作用。
错误分析：剩余的失败大多源于提示极度模糊，而非模型能力不足。

实际意义

设计师快速原型：开发者可获得即时的低分辨率预览，迭代提示后让模型自动细化，缩短试错周期。
内容创作流水线：可集成到资产生成工具（游戏、AR/VR、广告）中，特别适用于稀有或定制概念。
提升安全性与可控性：验证步骤可扩展为在放大前强制执行策略约束（例如禁止出现不允许的对象）。
降低计算浪费：在低分辨率阶段捕获主要不匹配，避免在显然错误的草稿上进行昂贵的高分辨率扩散。

局限性与未来工作

草稿质量上限：极低分辨率的草稿有时会遗漏细粒度细节，限制模型纠正细微错误的能力。
向超高分辨率的可扩展性：超分辨率仍依赖标准扩散上采样器；引入专用上采网络可能提升保真度。
提示歧义处理：当前验证假设提示明确；未来工作可加入与用户的交互式澄清循环。
数据集偏差：虽然 DraCo‑240K 多样化，但在某些领域（如医学影像）可能代表性不足，需进行领域特定的微调。

DraCo 为视觉草稿成为模型推理链的组成部分开辟了新路径，弥合了抽象文本规划与具体图像合成之间的鸿沟。对于构建下一代生成工具的开发者而言，这一方法有望带来更可靠、可控且富有创意的输出。

作者

江东志
张仁瑞
李浩东
宗卓凡
郭子宇
何俊
郭克莱尔
叶俊彦
方荣耀
李伟嘉
刘锐
李宏晟

论文信息

arXiv ID: 2512.05112v1
分类: cs.CV, cs.AI, cs.CL, cs.LG
发表时间: 2025 年 12 月 4 日
PDF: Download PDF

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] M4-RAG：大规模多语言多文化多模态 RAG

[Paper] 放大，点击退出：解锁并评估 Zooming 在 GUI Grounding 中的潜力

[Paper] 主动视频感知：迭代证据搜索用于 Agentic 长视频理解

[Paper] Jina-VLM：小型多语言视觉语言模型