[Paper] 渐进式棋盘用于自回归多尺度图像生成

发布: 5天前 (2026年2月4日 GMT+8 02:15)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.03811v1

概述

本文介绍了 Progressive Checkerboards，这是一种在多尺度自回归 (AR) 模型中对像素生成顺序进行重新排列的新方法。通过在每个分辨率层级上从均匀间隔的 “checkerboard” 区域中抽样，该方法在保持 AR 模型经典的串行条件化的同时，允许大量像素并行生成。这样既能加快采样速度，又不会牺牲 AR 模型一贯的图像质量。

关键贡献

平衡棋盘排序，在各尺度保持完整的四叉树对称性，使得每一步能够并行生成多个像素。
跨尺度及内部统一条件化，提升多尺度金字塔中的信息流动。
经验发现：只要总的串行步骤数保持不变，宽范围的上采样因子（尺度放大比例）都能产生相近的结果。
最先进的结果：在类条件 ImageNet 上取得领先表现，采样步数少于规模相似的竞争性自回归方法。

方法论

多尺度金字塔

图像被表示为分辨率层次结构（例如，8×8 → 16×16 → 32×32 …）。

渐进式棋盘顺序

在每个层级，图像被划分为四叉树。模型不是逐行处理像素，而是并行采样属于同一“棋盘”子网格的所有像素（例如，所有偶行/偶列位置）。下一步采样互补的子网格，依此交替，直到完整分辨率被填满。

条件化

跨尺度：粗尺度潜在变量（已生成）通过学习的上采样层对细尺度进行条件化。
同尺度内部：由于棋盘模式是平衡的，每个像素看到的大致相同数量的已生成邻居，既保留了自回归依赖，又仍然允许大规模并行。

训练

对有序像素序列进行标准最大似然训练的自回归模型。无需额外的损失项。

关键洞见在于棋盘模式在每一步都保持依赖图平衡，从而简化了在 GPU/TPU 上的并行执行。

结果与发现

指标（类条件 ImageNet）	渐进式棋盘格	近期 AR 基线（相似容量）
FID（越低越好）	≈ 13.2	13.5 – 14.3
采样步数（每张图像）	8–12	16–32
参数数量	~ 300 M	~ 300 M

该方法在匹配或略微超越已发布的最佳 AR 模型的同时，将串行采样步数削减最多 50 %。
对上采样因子（例如 2×、4×）进行的实验表明，只要总的串行步数保持不变，图像质量就能保持稳定——这表明在部署场景中具有灵活性。

实际意义

更快的 AR 图像合成推理 – 开发者现在可以将高保真 AR 生成器集成到交互式工具中（例如设计助理、内容创作流水线），而无需通常的数秒延迟。
更好的 GPU/TPU 利用率 – 平衡的并行性能够干净地映射到现代加速器硬件上，从而实现更高的吞吐量和更低的每张生成图像的成本。
混合流水线 – 渐进式棋盘格可以与扩散模型或 GAN 组件结合，提供一种“取长补短”的方案：AR 保证多样性和精确似然，而其他模型则为早期草稿提供加速。
可扩展到更高分辨率 – 由于该方法适用于任意四叉树深度，扩展到 512×512 或更高分辨率只会增加少量串行步骤，保持采样时间在可接受范围内。

限制与未来工作

Memory footprint – 为每个尺度维护全分辨率的条件映射可能会占用大量内存，尤其是对超高分辨率图像。
Fixed ordering – 虽然棋盘格模式是平衡的，但它仍然是确定性的顺序；探索学习或自适应的顺序可能会带来进一步的提升。
Generalization beyond ImageNet – 本文聚焦于类别条件的 ImageNet；在多样化领域（医学影像、卫星数据）上的测试留待未来研究。
Integration with conditional controls（例如文本提示）尚未探索，可能是多模态生成的有前景方向。

作者

David Eigen

论文信息

arXiv ID: 2602.03811v1
分类: cs.CV
发布日期: 2026年2月3日
PDF: 下载 PDF

[Paper] 渐进式棋盘用于自回归多尺度图像生成

概述

关键贡献

方法论

多尺度金字塔

渐进式棋盘顺序

条件化

训练

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 伪可逆神经网络

[Paper] 共享 LoRA 子空间用于几乎严格的持续学习

[Paper] 从透视描述预测相机姿态用于空间推理

[Paper] SwimBird: 在混合自回归 MLLMs 中引发可切换的推理模式