[Paper] 渐进式棋盘用于自回归多尺度图像生成

发布: (2026年2月4日 GMT+8 02:15)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.03811v1

概述

本文介绍了 Progressive Checkerboards,这是一种在多尺度自回归 (AR) 模型中对像素生成顺序进行重新排列的新方法。通过在每个分辨率层级上从均匀间隔的 “checkerboard” 区域中抽样,该方法在保持 AR 模型经典的串行条件化的同时,允许大量像素并行生成。这样既能加快采样速度,又不会牺牲 AR 模型一贯的图像质量。

关键贡献

  • 平衡棋盘排序,在各尺度保持完整的四叉树对称性,使得每一步能够并行生成多个像素。
  • 跨尺度及内部统一条件化,提升多尺度金字塔中的信息流动。
  • 经验发现:只要总的串行步骤数保持不变,宽范围的上采样因子(尺度放大比例)都能产生相近的结果。
  • 最先进的结果:在类条件 ImageNet 上取得领先表现,采样步数少于规模相似的竞争性自回归方法。

方法论

多尺度金字塔

图像被表示为分辨率层次结构(例如,8×8 → 16×16 → 32×32 …)。

渐进式棋盘顺序

在每个层级,图像被划分为四叉树。模型不是逐行处理像素,而是并行采样属于同一“棋盘”子网格的所有像素(例如,所有偶行/偶列位置)。下一步采样互补的子网格,依此交替,直到完整分辨率被填满。

条件化

  • 跨尺度:粗尺度潜在变量(已生成)通过学习的上采样层对细尺度进行条件化。
  • 同尺度内部:由于棋盘模式是平衡的,每个像素看到的大致相同数量的已生成邻居,既保留了自回归依赖,又仍然允许大规模并行。

训练

对有序像素序列进行标准最大似然训练的自回归模型。无需额外的损失项。

关键洞见在于棋盘模式在每一步都保持依赖图平衡,从而简化了在 GPU/TPU 上的并行执行。

结果与发现

指标(类条件 ImageNet)渐进式棋盘格近期 AR 基线(相似容量)
FID(越低越好)≈ 13.213.5 – 14.3
采样步数(每张图像)8–1216–32
参数数量~ 300 M~ 300 M
  • 该方法在匹配或略微超越已发布的最佳 AR 模型的同时,将串行采样步数削减最多 50 %
  • 对上采样因子(例如 2×、4×)进行的实验表明,只要总的串行步数保持不变,图像质量就能保持稳定——这表明在部署场景中具有灵活性。

实际意义

  • 更快的 AR 图像合成推理 – 开发者现在可以将高保真 AR 生成器集成到交互式工具中(例如设计助理、内容创作流水线),而无需通常的数秒延迟。
  • 更好的 GPU/TPU 利用率 – 平衡的并行性能够干净地映射到现代加速器硬件上,从而实现更高的吞吐量和更低的每张生成图像的成本。
  • 混合流水线 – 渐进式棋盘格可以与扩散模型或 GAN 组件结合,提供一种“取长补短”的方案:AR 保证多样性和精确似然,而其他模型则为早期草稿提供加速。
  • 可扩展到更高分辨率 – 由于该方法适用于任意四叉树深度,扩展到 512×512 或更高分辨率只会增加少量串行步骤,保持采样时间在可接受范围内。

限制与未来工作

  • Memory footprint – 为每个尺度维护全分辨率的条件映射可能会占用大量内存,尤其是对超高分辨率图像。
  • Fixed ordering – 虽然棋盘格模式是平衡的,但它仍然是确定性的顺序;探索学习或自适应的顺序可能会带来进一步的提升。
  • Generalization beyond ImageNet – 本文聚焦于类别条件的 ImageNet;在多样化领域(医学影像、卫星数据)上的测试留待未来研究。
  • Integration with conditional controls(例如文本提示)尚未探索,可能是多模态生成的有前景方向。

作者

  • David Eigen

论文信息

  • arXiv ID: 2602.03811v1
  • 分类: cs.CV
  • 发布日期: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 伪可逆神经网络

Moore‑Penrose 伪逆 (PInv) 是线性系统的基本解。在本文中,我们提出了一种对 PInv 的自然推广……