[Paper] SFTok：弥合离散分词器的性能差距

发布: 1个月前 (2025年12月19日 GMT+8 02:59)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.16910v1

概述

本文介绍了 SFTok，一种全新的离散图像分词器，显著缩小了离散分词器与连续分词器之间的质量差距。通过加入多步、自强式重建循环，SFTok 能够将高分辨率图像压缩至仅 64 个 token，同时仍能提供与（甚至常常超越）最先进的连续方法相媲美的重建质量——这使其成为下一代多模态模型的有力构建块。

关键贡献

Multi‑step iterative tokenization: 一个新颖的流水线，在多个步骤而非一次性通过来细化图像重建。
Self‑forcing guided visual reconstruction: 在推理期间，模型“强制”自己的预测保持正轨，消除以往多步标记器的训练‑测试不匹配问题。
Debias‑and‑fitting training strategy: 两阶段损失，首先消除离散码本的系统性偏差，然后微调以实现像素级完美保真。
High compression with top‑tier quality: 仅每幅图像 64 个标记，SFTok 在 ImageNet 上实现 rFID 为 1.21——为离散标记器设立新基准。
Strong downstream generation: 在类到图像生成任务中，SFTok 达到 gFID 为 2.29，表明这些标记不仅紧凑，而且语义丰富。

方法论

Encoder → Codebook：图像通过卷积编码器，映射到学习得到的码本中的离散索引（类似于 VQ‑VAE）。
Iterative Decoder：解码器不是一次性重建，而是运行 K 步（例如 4–6 步）。每一步都会生成一个部分图像，并将该中间输出作为条件输入喂回到下一步。
Self‑forcing Guidance：在训练期间，解码器被强制使用它自己前一步的预测（而不是真实像素）作为下一步的输入。这与推理情形保持一致，防止导致多步模型性能下降的“曝光偏差”。
Debias‑and‑Fitting：
- Debias 阶段：通过一个损失项使离散码的分布与真实图像统计保持一致，降低系统性的重建误差。
- Fitting 阶段：使用标准的重建损失（如 L2 + 感知损失）对网络进行微调，以恢复细节。
Token Compression：通过在量化前进行大幅下采样，流水线在 256×256 图像上仅产生 64 个 token，相较于原始像素实现 > 400× 的压缩率。

结果与发现

指标	SFTok（64 tokens）	先前离散分词器	连续基线
rFID（重建）	1.21	2.84	1.08
gFID（类到图像）	2.29	4.57	2.10
推理延迟（每张图像）	~45 ms（GPU）	~70 ms	~30 ms

重建质量：rFID 从 2.84 降至 1.21，表明 SFTok 的迭代细化能够恢复先前离散分词器遗漏的纹理和边缘。
生成性能：将这些 token 输入基于 transformer 的自回归生成器后，生成的图像在视觉上可与连续潜在空间生成的图像相媲美。
效率：尽管增加了解码步骤，整体延迟仍具竞争力，因为每一步只在极小的 token 序列上操作，而不是完整分辨率的特征图。

实际意义

可扩展的多模态模型：自回归语言‑视觉模型（如 Flamingo‑style 或 GPT‑4‑vision）现在可以在不牺牲保真度的情况下摄取离散图像标记，从而实现更低成本的训练和推理。
边缘部署：64‑标记的表示能够轻松适配设备内存预算，为智能手机、AR 眼镜和物联网摄像头上的离线图像生成或压缩打开了大门。
跨模态检索与索引：紧凑的离散标记非常适合构建大规模图像索引，可使用标准 Transformer 编码器通过文本或其他模态进行查询。
创意工具：艺术家和开发者可以利用基于 SFTok 的流水线，实现快速的草图到图像或风格迁移应用，在低延迟和高质量之间取得平衡。

局限性与未来工作

固定 token 数量: SFTok 目前使用固定的 64‑token 预算；根据图像的复杂程度调整 token 预算（例如，对复杂场景使用更多 token）可能进一步提升质量。
训练成本: 与单阶段 VQ‑VAE 相比，去偏差与微调的两阶段训练会增加额外开销，这可能成为小型实验室的障碍。
对非自然图像的泛化: 论文主要在 ImageNet 上进行评估；在医学影像、卫星数据或高度艺术化的领域的表现仍是未知数。
与扩散模型的集成: 未来工作可以探索 SFTok token 如何作为条件或潜在空间用于基于扩散的生成模型，可能将两种范式的优势结合起来。

作者

Qihang Rao
Borui Zhang
Wenzhao Zheng
Jie Zhou
Jiwen Lu

论文信息

arXiv ID: 2512.16910v1
分类: cs.CV, cs.LG
发表时间: 2025年12月18日
PDF: 下载 PDF

[Paper] SFTok：弥合离散分词器的性能差距

概述

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

[Paper] 开放基础模型中视觉的对抗鲁棒性

[Paper] RadarGen：从摄像头生成汽车雷达点云

[Paper] 视觉提示基准出乎意料地脆弱