[Paper] CoCo:Code as CoT 用于文本到图像预览和稀有概念生成

发布: (2026年3月10日 GMT+8 01:31)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.08652v1

概述

本文介绍了 CoCo(Code-as-CoT),这是一种新颖的框架,将文本到图像(T2I)生成中的推理步骤视为 可执行代码,而不是自由形式的自然语言计划。CoCo 首先从生成的代码中产生一个确定性的“草稿”图像,然后对其进行细化,从而显著提升了对复杂场景、结构化布局以及长文本描述的保真度——这些都是现有思维链(CoT)方法难以应对的领域。

关键贡献

  • 代码驱动推理:将 CoT 规划阶段转化为可在沙箱中运行的程序,生成具体的视觉草稿。
  • 两阶段生成流水线:(1)从代码创建草稿,(2) 细粒度图像编辑以达到高质量的最终输出。
  • CoCo‑10K 数据集:策划了 10 K 对结构化草稿图像及其精炼对应图,支持草稿和校正的监督学习。
  • 显著的实证提升:在 StructT2IBench 上提升 +68.8 %,在 OneIG‑Bench 上提升 +54.8 %,在 LongText‑Bench 上提升 +41.2 %,相较直接生成,并优于其他 CoT 增强方法。
  • 开源发布:代码、模型检查点和数据集均公开,可促进可复现性和下游扩展。

方法论

  1. Prompt → Code Generation

    • 一个大型多模态模型接收自然语言提示,并输出一段简短脚本(例如,用描述对象位置、大小、颜色和关系的领域特定语言)。
    • 该脚本刻意保持 确定性:运行时总会得到相同的布局,消除了纯文本计划中固有的歧义。
  2. Sandbox Execution → Draft Image

    • 生成的脚本在隔离环境中执行,渲染出低分辨率、结构上准确的草图。
    • 由于代码是可执行的,开发者可以在渲染前检查、调试,甚至手动编辑该计划。
  3. Draft → Refined Image

    • 第二个模型(或基于扩散的编辑器)接收草图和原始提示,进行细粒度编辑:添加纹理、光照、细节,并纠正任何不匹配。
    • 该阶段使用 CoCo‑10K 对进行训练,使系统学会将粗糙布局转化为写实结果。
  4. Training Regime

    • 整个流水线端到端训练,对代码生成(从真实脚本进行教师强制)和图像细化(像素级和感知损失)均使用监督损失。
    • 采用课程学习:早期 epoch 侧重于简单场景,后期 epoch 侧重于复杂、长文本提示。

结果与发现

BenchmarkMetric (higher = better)Direct GenerationCoCo (this work)Relative Gain
StructT2IBenchLayout‑F10.420.71+68.8 %
OneIG‑BenchImage‑Quality (FID ↓)45.320.5+54.8 %
LongText‑BenchText‑Image Alignment (CLIP‑Score ↑)0.310.44+41.2 %
  • Precision: 草稿阶段已经能够以 >90 % 的准确率捕获对象计数和空间关系。
  • Robustness: 当提示中包含罕见或新颖概念时,基于代码的计划能够防止纯扩散模型常见的“幻觉”。
  • Speed: 生成草稿的开销很小(≈0.2 秒,单 GPU),而细化过程相较于一次性扩散运行仅增加了适度的负担。

实际影响

  • 设计工具: UI/UX 或游戏关卡设计师可以用自然语言编写高级布局脚本,立即获得草稿,然后迭代细化——速度远快于手工绘制或微调扩散参数。
  • 营销内容生成: 需要精确放置标志、产品照片或文字叠加的品牌可以依赖确定性的草稿,以确保合规后再进行润色。
  • 辅助编码: 构建多模态助手的开发者可以向用户展示中间代码,实现“示例调试”,用户通过编辑生成的脚本来纠正放错的对象。
  • 稀有概念合成: 研究人员和艺术家处理晦涩实体(例如已灭绝物种、定制发明)时,可获得尊重提示精确语义的可靠流水线。
  • 合规与审计: 由于推理以可执行代码形式呈现,组织可以审计生成过程中的偏见或政策违规,这对负责任的 AI 部署是一步前进。

限制与未来工作

  • 领域特定语言(DSL)开销:当前的代码格式针对训练数据进行定制;将其扩展到新的视觉原语(例如 3‑D 深度线索)需要额外的 DSL 设计。
  • 对超高分辨率的可扩展性:细化阶段仍依赖扩散模型,在 >1024 px 分辨率下成本高昂。
  • 对未见风格的泛化能力:虽然 CoCo 对布局处理良好,但风格细节(例如印象派笔触)较少受代码控制,更多依赖编辑模型。
  • 未来方向:作者建议将符号推理(例如场景图)集成到代码中,探索层次化草图(粗 → 细),并将流水线与交互式 GUI 结合,实现实时用户编辑。

作者

  • Haodong Li
  • Chunmei Qing
  • Huanyu Zhang
  • Dongzhi Jiang
  • Yihang Zou
  • Hongbo Peng
  • Dingming Li
  • Yuhong Dai
  • ZePeng Lin
  • Juanxi Tian
  • Yi Zhou
  • Siqi Dai
  • Jingwei Wu

论文信息

  • arXiv ID: 2603.08652v1
  • 分类: cs.AI
  • 发布时间: 2026年3月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »

[Paper] 尺度空间扩散

Diffusion models 通过噪声降解图像,逆转该过程揭示了跨时间步的信息层次结构。Scale-space theory 展示了类似……