[Paper] UniLayDiff：一种用于内容感知布局生成的统一扩散Transformer

发布: 2个月前 (2025年12月10日 GMT+8 02:38)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.08897v1

概览

UniLayDiff 引入了一种单一的、端到端的基于扩散的 Transformer，能够在尊重背景图像以及各种用户指定约束（元素类型、尺寸、关系等）的前提下生成图形布局。通过将布局约束视为独立模态，模型将许多此前分散的布局生成任务统一到同一可训练架构中，推动了质量和灵活性方面的最新水平。

问题表述 – 将布局生成视为一个扩散过程，迭代去噪一组边界框 token。每个 token 编码元素的类别、位置和尺寸。
多模态输入 – 三条信息流输入 Transformer：
- 背景图像嵌入（来自冻结的 CNN 编码器）。
- 元素嵌入（为每个布局项学习的向量）。
- 约束嵌入（类型、尺寸或关系提示，以 token 序列形式表达）。
扩散 Transformer – 在标准 Vision‑Transformer 主干上加入跨注意力层，使模型在去噪时能够关注约束。扩散调度遵循流行的 DDPM 公式，噪声预测器即为该 Transformer。
通过 LoRA 处理关系 – 在对无条件和简单约束任务进行预训练后，将一个小型 LoRA 模块附加到注意力矩阵上。微调该低秩适配器即可注入关系知识（例如 “图标必须位于文字左侧”），而不会扰动基础权重。
训练 – 端到端训练模型，使用重构损失（匹配真实布局）和 classifier‑free guidance 的组合，以平衡无条件和条件生成。

任务	指标（数值越高越好）	UniLayDiff	先前最佳
无条件布局生成	FID ↓	3.2	4.7
类型条件（元素类别）	mAP ↑	78.5%	71.3%
尺寸条件（面积约束）	IoU ↑	84.1%	77.6%
关系条件（空间规则）	Relation‑Acc ↑	91.2%	83.4%

质量提升：在所有任务上，UniLayDiff 将 Fréchet Inception Distance（FID）降低约 30 %，相较于最强基线有显著改进。
泛化能力：单一检查点通过更换约束 token 即可切换任务，免除为每个任务训练专用模型的需求。
效率：LoRA 微调仅增加 < 2 M 参数，收敛所需 epoch 只有全模型重新训练的一半。

设计自动化工具：UI/UX 平台可嵌入 UniLayDiff，让设计师指定高层约束（如 “保持 logo 在左侧，按钮尺寸为 120×40”），即可即时获得符合背景的精致布局。
广告投放引擎：营销系统能够生成适配任意主图的广告创意，同时遵守品牌特定的尺寸和位置规则，减少手工布局工作。
快速原型：前端开发者通过提供视口特定约束即可快速得到视觉上连贯的布局建议，加速响应式页面的原型设计。
低资源适配：由于关系约束通过 LoRA 添加，企业可在不需要大规模 GPU 预算的情况下，快速为细分领域（如医疗仪表盘）微调模型。
API‑first 服务：发布的推理 API 接收背景图像和 JSON 编码的约束列表，返回 JSON 格式的边界框列表——便于集成到 CI 流程或设计系统后端。

总体而言，UniLayDiff 在真正统一、内容感知的布局生成方面迈出了重要一步，为下一代设计自动化工具提供了实用的基础。