[Paper] CoCo:Code as CoT 用于文本到图像预览和稀有概念生成
发布: (2026年3月10日 GMT+8 01:31)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.08652v1
概述
本文介绍了 CoCo(Code-as-CoT),这是一种新颖的框架,将文本到图像(T2I)生成中的推理步骤视为 可执行代码,而不是自由形式的自然语言计划。CoCo 首先从生成的代码中产生一个确定性的“草稿”图像,然后对其进行细化,从而显著提升了对复杂场景、结构化布局以及长文本描述的保真度——这些都是现有思维链(CoT)方法难以应对的领域。
关键贡献
- 代码驱动推理:将 CoT 规划阶段转化为可在沙箱中运行的程序,生成具体的视觉草稿。
- 两阶段生成流水线:(1)从代码创建草稿,(2) 细粒度图像编辑以达到高质量的最终输出。
- CoCo‑10K 数据集:策划了 10 K 对结构化草稿图像及其精炼对应图,支持草稿和校正的监督学习。
- 显著的实证提升:在 StructT2IBench 上提升 +68.8 %,在 OneIG‑Bench 上提升 +54.8 %,在 LongText‑Bench 上提升 +41.2 %,相较直接生成,并优于其他 CoT 增强方法。
- 开源发布:代码、模型检查点和数据集均公开,可促进可复现性和下游扩展。
方法论
-
Prompt → Code Generation
- 一个大型多模态模型接收自然语言提示,并输出一段简短脚本(例如,用描述对象位置、大小、颜色和关系的领域特定语言)。
- 该脚本刻意保持 确定性:运行时总会得到相同的布局,消除了纯文本计划中固有的歧义。
-
Sandbox Execution → Draft Image
- 生成的脚本在隔离环境中执行,渲染出低分辨率、结构上准确的草图。
- 由于代码是可执行的,开发者可以在渲染前检查、调试,甚至手动编辑该计划。
-
Draft → Refined Image
- 第二个模型(或基于扩散的编辑器)接收草图和原始提示,进行细粒度编辑:添加纹理、光照、细节,并纠正任何不匹配。
- 该阶段使用 CoCo‑10K 对进行训练,使系统学会将粗糙布局转化为写实结果。
-
Training Regime
- 整个流水线端到端训练,对代码生成(从真实脚本进行教师强制)和图像细化(像素级和感知损失)均使用监督损失。
- 采用课程学习:早期 epoch 侧重于简单场景,后期 epoch 侧重于复杂、长文本提示。
结果与发现
| Benchmark | Metric (higher = better) | Direct Generation | CoCo (this work) | Relative Gain |
|---|---|---|---|---|
| StructT2IBench | Layout‑F1 | 0.42 | 0.71 | +68.8 % |
| OneIG‑Bench | Image‑Quality (FID ↓) | 45.3 | 20.5 | +54.8 % |
| LongText‑Bench | Text‑Image Alignment (CLIP‑Score ↑) | 0.31 | 0.44 | +41.2 % |
- Precision: 草稿阶段已经能够以 >90 % 的准确率捕获对象计数和空间关系。
- Robustness: 当提示中包含罕见或新颖概念时,基于代码的计划能够防止纯扩散模型常见的“幻觉”。
- Speed: 生成草稿的开销很小(≈0.2 秒,单 GPU),而细化过程相较于一次性扩散运行仅增加了适度的负担。
实际影响
- 设计工具: UI/UX 或游戏关卡设计师可以用自然语言编写高级布局脚本,立即获得草稿,然后迭代细化——速度远快于手工绘制或微调扩散参数。
- 营销内容生成: 需要精确放置标志、产品照片或文字叠加的品牌可以依赖确定性的草稿,以确保合规后再进行润色。
- 辅助编码: 构建多模态助手的开发者可以向用户展示中间代码,实现“示例调试”,用户通过编辑生成的脚本来纠正放错的对象。
- 稀有概念合成: 研究人员和艺术家处理晦涩实体(例如已灭绝物种、定制发明)时,可获得尊重提示精确语义的可靠流水线。
- 合规与审计: 由于推理以可执行代码形式呈现,组织可以审计生成过程中的偏见或政策违规,这对负责任的 AI 部署是一步前进。
限制与未来工作
- 领域特定语言(DSL)开销:当前的代码格式针对训练数据进行定制;将其扩展到新的视觉原语(例如 3‑D 深度线索)需要额外的 DSL 设计。
- 对超高分辨率的可扩展性:细化阶段仍依赖扩散模型,在 >1024 px 分辨率下成本高昂。
- 对未见风格的泛化能力:虽然 CoCo 对布局处理良好,但风格细节(例如印象派笔触)较少受代码控制,更多依赖编辑模型。
- 未来方向:作者建议将符号推理(例如场景图)集成到代码中,探索层次化草图(粗 → 细),并将流水线与交互式 GUI 结合,实现实时用户编辑。
作者
- Haodong Li
- Chunmei Qing
- Huanyu Zhang
- Dongzhi Jiang
- Yihang Zou
- Hongbo Peng
- Dingming Li
- Yuhong Dai
- ZePeng Lin
- Juanxi Tian
- Yi Zhou
- Siqi Dai
- Jingwei Wu
论文信息
- arXiv ID: 2603.08652v1
- 分类: cs.AI
- 发布时间: 2026年3月9日
- PDF: 下载 PDF