[Paper] SCOPE：结构化分解与条件技能编排用于复杂图像生成

发布: 3天前 (2026年5月9日 GMT+8 01:32)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.08043v1

概述

本文介绍了 SCOPE，一个新框架，使文本到图像模型能够在整个生成过程中跟踪用户视觉意图的每一个组成部分——对象、属性、空间约束等。通过将这些意图片段视为 语义承诺，并在承诺面临风险时调度专门的“技能”（检索、推理、修复），SCOPE 大幅提升了复杂图像合成的保真度。

以承诺为中心的表述 – 定义语义承诺以及在生成过程中意图碎片丢失的“概念裂隙”问题。
SCOPE 架构 – 一个基于规范的编排循环，维护结构化、演进的规范，并有条件触发检索、推理和修复模块。
Gen‑Arena 基准 – 一个人工标注的数据集，包含细粒度的实体和约束规范，以及用于严格实体优先评估的 Entity‑Gated Intent Pass (EGIP) 指标。
最先进的结果 – SCOPE 在 Gen‑Arena 上实现 0.60 EGIP，超越所有基线，并在现有套件上表现出色（WISE‑V: 0.907，MindBench: 0.61）。
开源组件 – 作者发布了编排代码和 Gen‑Arena 基准，促进可复现性和后续研究。

结构化规范 – 输入提示被解析为类似树状的规范，包含实体（例如“红色跑车”）、属性和关系约束（例如“在棕榈树后面”）。
承诺追踪器 – 规范中的每个节点都成为一个承诺，在生成步骤中持续存在。追踪器标记未解决（尚未可视化）或违规（检测到不匹配）的承诺。
条件技能编排
- 检索技能 – 从大型视觉数据库中提取参考图像或图块，为承诺提供具体的视觉先验。
- 推理技能 – 使用语言‑视觉模型推断缺失细节（例如“复古路灯长什么样？”）并解决模糊约束。
- 修复技能 – 在初始扩散过程后，轻量级的修补或精炼网络编辑画布，以满足任何违规的承诺。
迭代循环 – 系统在扩散生成和技能调用之间交替进行，直至所有承诺被标记为已解决或达到最大迭代预算。
评估 – Gen‑Arena 的 EGIP 指标检查每个实体是否在考虑其他约束之前正确出现，确保严格的实体优先成功标准。

Benchmark	Metric	SCOPE	Best Baseline
Gen‑Arena	EGIP（实体优先通过）	0.60	0.38
WISE‑V	类FID质量	0.907	0.842
MindBench	概念准确性	0.61	0.53

企业内容创作 – 市场团队可以提供高度详细的简报（多个产品、品牌颜色、布局约束），并获得尊重每个要素的图像，无需手动后期编辑。
游戏资产流水线 – 设计师可以指定复杂的场景构图（例如，“一个中世纪集市，铁匠在喷泉旁”），并收到可直接使用的纹理，遵循空间逻辑，缩短迭代时间。
电子商务 – 自动生成产品情境拍摄（多个商品、特定光照、背景约束）变得可行，减少昂贵的摄影需求。
开发者 API – 编排循环可以作为插件暴露给现有的扩散服务（例如 Stable Diffusion、DALL·E），添加“承诺跟踪”作为服务层，实现更高级别的控制，而无需重新训练基础模型。

规范解析器的可扩展性 – 当前基于规则的解析在高度模糊或口语化的提示上表现不佳；学习型解析器可能提升鲁棒性。
技能延迟 – 检索和推理步骤会增加开销（≈每次迭代 2–3 秒），这可能对实时应用构成限制。优化这些模块或缓存常用资产是一个待探索的方向。
对未见领域的泛化 – 检索数据库针对常见物体进行策划；稀有或特定领域的实体（如医疗设备）仍然表现出低保真度。扩展数据库并引入领域适配的推理模型是未来目标。

总体而言，SCOPE 证明，将视觉意图视为一组持久的承诺——并围绕这些承诺动态编排专门的技能——能够弥合人类水平规范与机器生成图像之间的差距。