[Paper] CoCo：Code as CoT 用于文本到图像预览和稀有概念生成

发布: 16小时前 (2026年3月10日 GMT+8 01:31)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.08652v1

概述

本文介绍了 CoCo（Code-as-CoT），这是一种新颖的框架，将文本到图像（T2I）生成中的推理步骤视为 可执行代码，而不是自由形式的自然语言计划。CoCo 首先从生成的代码中产生一个确定性的“草稿”图像，然后对其进行细化，从而显著提升了对复杂场景、结构化布局以及长文本描述的保真度——这些都是现有思维链（CoT）方法难以应对的领域。

关键贡献

代码驱动推理：将 CoT 规划阶段转化为可在沙箱中运行的程序，生成具体的视觉草稿。
两阶段生成流水线：（1）从代码创建草稿，(2) 细粒度图像编辑以达到高质量的最终输出。
CoCo‑10K 数据集：策划了 10 K 对结构化草稿图像及其精炼对应图，支持草稿和校正的监督学习。
显著的实证提升：在 StructT2IBench 上提升 +68.8 %，在 OneIG‑Bench 上提升 +54.8 %，在 LongText‑Bench 上提升 +41.2 %，相较直接生成，并优于其他 CoT 增强方法。
开源发布：代码、模型检查点和数据集均公开，可促进可复现性和下游扩展。

方法论

Prompt → Code Generation
- 一个大型多模态模型接收自然语言提示，并输出一段简短脚本（例如，用描述对象位置、大小、颜色和关系的领域特定语言）。
- 该脚本刻意保持 确定性：运行时总会得到相同的布局，消除了纯文本计划中固有的歧义。
Sandbox Execution → Draft Image
- 生成的脚本在隔离环境中执行，渲染出低分辨率、结构上准确的草图。
- 由于代码是可执行的，开发者可以在渲染前检查、调试，甚至手动编辑该计划。
Draft → Refined Image
- 第二个模型（或基于扩散的编辑器）接收草图和原始提示，进行细粒度编辑：添加纹理、光照、细节，并纠正任何不匹配。
- 该阶段使用 CoCo‑10K 对进行训练，使系统学会将粗糙布局转化为写实结果。
Training Regime
- 整个流水线端到端训练，对代码生成（从真实脚本进行教师强制）和图像细化（像素级和感知损失）均使用监督损失。
- 采用课程学习：早期 epoch 侧重于简单场景，后期 epoch 侧重于复杂、长文本提示。

结果与发现

Benchmark	Metric (higher = better)	Direct Generation	CoCo (this work)	Relative Gain
StructT2IBench	Layout‑F1	0.42	0.71	+68.8 %
OneIG‑Bench	Image‑Quality (FID ↓)	45.3	20.5	+54.8 %
LongText‑Bench	Text‑Image Alignment (CLIP‑Score ↑)	0.31	0.44	+41.2 %

Precision: 草稿阶段已经能够以 >90 % 的准确率捕获对象计数和空间关系。
Robustness: 当提示中包含罕见或新颖概念时，基于代码的计划能够防止纯扩散模型常见的“幻觉”。
Speed: 生成草稿的开销很小（≈0.2 秒，单 GPU），而细化过程相较于一次性扩散运行仅增加了适度的负担。

实际影响

设计工具: UI/UX 或游戏关卡设计师可以用自然语言编写高级布局脚本，立即获得草稿，然后迭代细化——速度远快于手工绘制或微调扩散参数。
营销内容生成: 需要精确放置标志、产品照片或文字叠加的品牌可以依赖确定性的草稿，以确保合规后再进行润色。
辅助编码: 构建多模态助手的开发者可以向用户展示中间代码，实现“示例调试”，用户通过编辑生成的脚本来纠正放错的对象。
稀有概念合成: 研究人员和艺术家处理晦涩实体（例如已灭绝物种、定制发明）时，可获得尊重提示精确语义的可靠流水线。
合规与审计: 由于推理以可执行代码形式呈现，组织可以审计生成过程中的偏见或政策违规，这对负责任的 AI 部署是一步前进。

限制与未来工作

领域特定语言（DSL）开销：当前的代码格式针对训练数据进行定制；将其扩展到新的视觉原语（例如 3‑D 深度线索）需要额外的 DSL 设计。
对超高分辨率的可扩展性：细化阶段仍依赖扩散模型，在 >1024 px 分辨率下成本高昂。
对未见风格的泛化能力：虽然 CoCo 对布局处理良好，但风格细节（例如印象派笔触）较少受代码控制，更多依赖编辑模型。
未来方向：作者建议将符号推理（例如场景图）集成到代码中，探索层次化草图（粗 → 细），并将流水线与交互式 GUI 结合，实现实时用户编辑。

作者

Haodong Li
Chunmei Qing
Huanyu Zhang
Dongzhi Jiang
Yihang Zou
Hongbo Peng
Dingming Li
Yuhong Dai
ZePeng Lin
Juanxi Tian
Yi Zhou
Siqi Dai
Jingwei Wu

论文信息

arXiv ID: 2603.08652v1
分类: cs.AI
发布时间: 2026年3月9日
PDF: 下载 PDF

[Paper] CoCo：Code as CoT 用于文本到图像预览和稀有概念生成

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 尺度空间扩散

[Paper] Impermanent：实时基准用于时间序列预测中的时间泛化

[Paper] Split Federated Learning 架构用于高精度与低延迟模型训练

[论文] 结构因果瓶颈模型