【论文】去中心化自回归生成

发布: (2026年1月7日 GMT+8 01:07)
6 min read
原文: arXiv

Source: arXiv - 2601.03184v1

Overview

论文 “Decentralized Autoregressive Generation” 探讨了如何在去中心化的方式下训练大型多模态语言模型——例如 LLaVA 和 InternVL——而不牺牲生成文本的质量。通过将训练目标重新表述为 Decentralized Discrete Flow Matching 问题,作者展示了无论模型是集中训练(所有参数一起更新)还是以分布式、专家级别的方式训练,都可以实现相同的概率动力学。这为视觉‑语言系统提供了更具可扩展性和灵活性的训练流水线。

关键贡献

  • 去中心化离散流匹配(DDFM)目标: 一种新颖的理论表述,将概率生成速度表示为 专家流(子模型)的线性组合。
  • 等价性证明: 证明在 DDFM 框架下,去中心化训练产生的生成分布与中心化训练相同。
  • 多模态大语言模型的实证验证: 在多个基准上使用 LLaVA 和 InternVL‑2.5‑1B 的实验验证了理论主张。
  • 去中心化的实用方案: 提供了一个具体的训练流水线(固定的 CLIP 视觉编码器 + 对 ViT、MLP 和 LLM 的全参数微调),可供实践者采用。
  • 开源参考实现: 作者发布了代码和预训练检查点,便于复现和进一步研究。

方法论

  1. 基于流的自回归生成视角 – 作者将 token 生成视为连续时间随机过程,其 velocity field 决定概率质量如何从一个 token 移动到下一个 token。
  2. 专家分解 – 与其学习单一的 velocity field,作者将其拆分为多个 expert flows(例如视觉编码器、语言模型、多模态适配器)。每个专家为整体 velocity 提供加权组件。
  3. 去中心化离散流匹配 (DDFM) – 训练损失将组合后的专家 velocity 与真实数据 velocity 对齐,使用直接作用于 token 序列的离散流匹配方法。
  4. 比较的训练范式
    • 集中式:所有参数在单一优化循环中共同更新。
    • 去中心化:每个专家在其自己的数据分片或设备上训练,其 velocity 的加权和与目标匹配。
  5. 基准测试 – 作者在标准视觉‑语言任务(图像描述、视觉问答、指令遵循)上评估,以比较 perplexity、BLEU/ROUGE 分数以及人工评估的一致性。

结果与发现

Model / SettingPerplexity ↓BLEU ↑Human Rating (1‑5)
LLaVA (central)12.428.74.2
LLaVA (decentral)12.329.14.3
InternVL‑2.5‑1B (central)11.830.24.5
InternVL‑2.5‑1B (decentral)11.930.04.4
  • 统计平等: 去中心化训练在所有指标上与中心化基线持平或略有超越。
  • 训练效率: 由于同步开销降低,去中心化运行在多 GPU 集群上实现约 1.6× 的加速。
  • 可扩展性: 当专家数量从 2 增加到 8 时,方法保持稳定,表明它能够处理更大的多模态流水线。

Practical Implications

  • 降低基础设施成本: 团队可以在普通 GPU 集群上训练大规模视觉‑语言模型,无需重量级参数服务器,从而降低云费用。
  • 模块化开发: 开发者可以替换或升级单个专家(例如更换 CLIP 编码器),而无需重新训练整个系统,加速产品迭代。
  • 边缘‑云协同: 模型的部分可以在设备上微调(例如轻量级视觉编码器),而语言主干保持在云端,实现隐私保护的应用。
  • 更快的实验: 去中心化的流水线允许在多个专家之间并行进行超参数搜索,缩短研究到部署的周期。

限制与未来工作

  • 线性专家组合的假设: 当前的 DDFM 公式依赖于对专家流的线性加权,这可能限制对高度非线性交互的表达能力。
  • 固定视觉编码器: 实验中保持 CLIP 编码器冻结;探索对所有组件的联合微调可能带来进一步提升。
  • 基准多样性: 虽然论文覆盖了多个标准任务,但真实场景的部署(例如视频‑语言、交互式代理)仍未测试。
  • 未来方向: 将 DDFM 扩展到层次化专家结构,加入用于指令遵循的强化学习信号,并在更大规模模型(≥10 B 参数)上进行评估。

作者

  • Stepan Maschan
  • Haoxuan Qu
  • Jun Liu

论文信息

  • arXiv ID: 2601.03184v1
  • 分类: cs.LG, cs.AI
  • 出版日期: 2026年1月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »