[Paper] SFTok:弥合离散分词器的性能差距
发布: (2025年12月19日 GMT+8 02:59)
6 min read
原文: arXiv
Source: arXiv - 2512.16910v1
概述
本文介绍了 SFTok,一种全新的离散图像分词器,显著缩小了离散分词器与连续分词器之间的质量差距。通过加入多步、自强式重建循环,SFTok 能够将高分辨率图像压缩至仅 64 个 token,同时仍能提供与(甚至常常超越)最先进的连续方法相媲美的重建质量——这使其成为下一代多模态模型的有力构建块。
关键贡献
- Multi‑step iterative tokenization: 一个新颖的流水线,在多个步骤而非一次性通过来细化图像重建。
- Self‑forcing guided visual reconstruction: 在推理期间,模型“强制”自己的预测保持正轨,消除以往多步标记器的训练‑测试不匹配问题。
- Debias‑and‑fitting training strategy: 两阶段损失,首先消除离散码本的系统性偏差,然后微调以实现像素级完美保真。
- High compression with top‑tier quality: 仅每幅图像 64 个标记,SFTok 在 ImageNet 上实现 rFID 为 1.21——为离散标记器设立新基准。
- Strong downstream generation: 在类到图像生成任务中,SFTok 达到 gFID 为 2.29,表明这些标记不仅紧凑,而且语义丰富。
方法论
- Encoder → Codebook:图像通过卷积编码器,映射到学习得到的码本中的离散索引(类似于 VQ‑VAE)。
- Iterative Decoder:解码器不是一次性重建,而是运行 K 步(例如 4–6 步)。每一步都会生成一个部分图像,并将该中间输出作为条件输入喂回到下一步。
- Self‑forcing Guidance:在训练期间,解码器被强制使用它自己前一步的预测(而不是真实像素)作为下一步的输入。这与推理情形保持一致,防止导致多步模型性能下降的“曝光偏差”。
- Debias‑and‑Fitting:
- Debias 阶段:通过一个损失项使离散码的分布与真实图像统计保持一致,降低系统性的重建误差。
- Fitting 阶段:使用标准的重建损失(如 L2 + 感知损失)对网络进行微调,以恢复细节。
- Token Compression:通过在量化前进行大幅下采样,流水线在 256×256 图像上仅产生 64 个 token,相较于原始像素实现 > 400× 的压缩率。
结果与发现
| 指标 | SFTok(64 tokens) | 先前离散分词器 | 连续基线 |
|---|---|---|---|
| rFID(重建) | 1.21 | 2.84 | 1.08 |
| gFID(类到图像) | 2.29 | 4.57 | 2.10 |
| 推理延迟(每张图像) | ~45 ms(GPU) | ~70 ms | ~30 ms |
- 重建质量:rFID 从 2.84 降至 1.21,表明 SFTok 的迭代细化能够恢复先前离散分词器遗漏的纹理和边缘。
- 生成性能:将这些 token 输入基于 transformer 的自回归生成器后,生成的图像在视觉上可与连续潜在空间生成的图像相媲美。
- 效率:尽管增加了解码步骤,整体延迟仍具竞争力,因为每一步只在极小的 token 序列上操作,而不是完整分辨率的特征图。
实际意义
- 可扩展的多模态模型:自回归语言‑视觉模型(如 Flamingo‑style 或 GPT‑4‑vision)现在可以在不牺牲保真度的情况下摄取离散图像标记,从而实现更低成本的训练和推理。
- 边缘部署:64‑标记的表示能够轻松适配设备内存预算,为智能手机、AR 眼镜和物联网摄像头上的离线图像生成或压缩打开了大门。
- 跨模态检索与索引:紧凑的离散标记非常适合构建大规模图像索引,可使用标准 Transformer 编码器通过文本或其他模态进行查询。
- 创意工具:艺术家和开发者可以利用基于 SFTok 的流水线,实现快速的草图到图像或风格迁移应用,在低延迟和高质量之间取得平衡。
局限性与未来工作
- 固定 token 数量: SFTok 目前使用固定的 64‑token 预算;根据图像的复杂程度调整 token 预算(例如,对复杂场景使用更多 token)可能进一步提升质量。
- 训练成本: 与单阶段 VQ‑VAE 相比,去偏差与微调的两阶段训练会增加额外开销,这可能成为小型实验室的障碍。
- 对非自然图像的泛化: 论文主要在 ImageNet 上进行评估;在医学影像、卫星数据或高度艺术化的领域的表现仍是未知数。
- 与扩散模型的集成: 未来工作可以探索 SFTok token 如何作为条件或潜在空间用于基于扩散的生成模型,可能将两种范式的优势结合起来。
作者
- Qihang Rao
- Borui Zhang
- Wenzhao Zheng
- Jie Zhou
- Jiwen Lu
论文信息
- arXiv ID: 2512.16910v1
- 分类: cs.CV, cs.LG
- 发表时间: 2025年12月18日
- PDF: 下载 PDF