[Paper] SFTok:弥合离散分词器的性能差距

发布: (2025年12月19日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.16910v1

概述

本文介绍了 SFTok,一种全新的离散图像分词器,显著缩小了离散分词器与连续分词器之间的质量差距。通过加入多步、自强式重建循环,SFTok 能够将高分辨率图像压缩至仅 64 个 token,同时仍能提供与(甚至常常超越)最先进的连续方法相媲美的重建质量——这使其成为下一代多模态模型的有力构建块。

关键贡献

  • Multi‑step iterative tokenization: 一个新颖的流水线,在多个步骤而非一次性通过来细化图像重建。
  • Self‑forcing guided visual reconstruction: 在推理期间,模型“强制”自己的预测保持正轨,消除以往多步标记器的训练‑测试不匹配问题。
  • Debias‑and‑fitting training strategy: 两阶段损失,首先消除离散码本的系统性偏差,然后微调以实现像素级完美保真。
  • High compression with top‑tier quality: 仅每幅图像 64 个标记,SFTok 在 ImageNet 上实现 rFID 为 1.21——为离散标记器设立新基准。
  • Strong downstream generation: 在类到图像生成任务中,SFTok 达到 gFID 为 2.29,表明这些标记不仅紧凑,而且语义丰富。

方法论

  1. Encoder → Codebook:图像通过卷积编码器,映射到学习得到的码本中的离散索引(类似于 VQ‑VAE)。
  2. Iterative Decoder:解码器不是一次性重建,而是运行 K 步(例如 4–6 步)。每一步都会生成一个部分图像,并将该中间输出作为条件输入喂回到下一步。
  3. Self‑forcing Guidance:在训练期间,解码器被强制使用它自己前一步的预测(而不是真实像素)作为下一步的输入。这与推理情形保持一致,防止导致多步模型性能下降的“曝光偏差”。
  4. Debias‑and‑Fitting
    • Debias 阶段:通过一个损失项使离散码的分布与真实图像统计保持一致,降低系统性的重建误差。
    • Fitting 阶段:使用标准的重建损失(如 L2 + 感知损失)对网络进行微调,以恢复细节。
  5. Token Compression:通过在量化前进行大幅下采样,流水线在 256×256 图像上仅产生 64 个 token,相较于原始像素实现 > 400× 的压缩率。

结果与发现

指标SFTok(64 tokens)先前离散分词器连续基线
rFID(重建)1.212.841.08
gFID(类到图像)2.294.572.10
推理延迟(每张图像)~45 ms(GPU)~70 ms~30 ms
  • 重建质量:rFID 从 2.84 降至 1.21,表明 SFTok 的迭代细化能够恢复先前离散分词器遗漏的纹理和边缘。
  • 生成性能:将这些 token 输入基于 transformer 的自回归生成器后,生成的图像在视觉上可与连续潜在空间生成的图像相媲美。
  • 效率:尽管增加了解码步骤,整体延迟仍具竞争力,因为每一步只在极小的 token 序列上操作,而不是完整分辨率的特征图。

实际意义

  • 可扩展的多模态模型:自回归语言‑视觉模型(如 Flamingo‑style 或 GPT‑4‑vision)现在可以在不牺牲保真度的情况下摄取离散图像标记,从而实现更低成本的训练和推理。
  • 边缘部署:64‑标记的表示能够轻松适配设备内存预算,为智能手机、AR 眼镜和物联网摄像头上的离线图像生成或压缩打开了大门。
  • 跨模态检索与索引:紧凑的离散标记非常适合构建大规模图像索引,可使用标准 Transformer 编码器通过文本或其他模态进行查询。
  • 创意工具:艺术家和开发者可以利用基于 SFTok 的流水线,实现快速的草图到图像或风格迁移应用,在低延迟和高质量之间取得平衡。

局限性与未来工作

  • 固定 token 数量: SFTok 目前使用固定的 64‑token 预算;根据图像的复杂程度调整 token 预算(例如,对复杂场景使用更多 token)可能进一步提升质量。
  • 训练成本: 与单阶段 VQ‑VAE 相比,去偏差与微调的两阶段训练会增加额外开销,这可能成为小型实验室的障碍。
  • 对非自然图像的泛化: 论文主要在 ImageNet 上进行评估;在医学影像、卫星数据或高度艺术化的领域的表现仍是未知数。
  • 与扩散模型的集成: 未来工作可以探索 SFTok token 如何作为条件或潜在空间用于基于扩散的生成模型,可能将两种范式的优势结合起来。

作者

  • Qihang Rao
  • Borui Zhang
  • Wenzhao Zheng
  • Jie Zhou
  • Jiwen Lu

论文信息

  • arXiv ID: 2512.16910v1
  • 分类: cs.CV, cs.LG
  • 发表时间: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »