【论文】去中心化自回归生成

发布: 1个月前 (2026年1月7日 GMT+8 01:07)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.03184v1

Overview

论文 “Decentralized Autoregressive Generation” 探讨了如何在去中心化的方式下训练大型多模态语言模型——例如 LLaVA 和 InternVL——而不牺牲生成文本的质量。通过将训练目标重新表述为 Decentralized Discrete Flow Matching 问题，作者展示了无论模型是集中训练（所有参数一起更新）还是以分布式、专家级别的方式训练，都可以实现相同的概率动力学。这为视觉‑语言系统提供了更具可扩展性和灵活性的训练流水线。

关键贡献

去中心化离散流匹配（DDFM）目标： 一种新颖的理论表述，将概率生成速度表示为 专家流（子模型）的线性组合。
等价性证明： 证明在 DDFM 框架下，去中心化训练产生的生成分布与中心化训练相同。
多模态大语言模型的实证验证： 在多个基准上使用 LLaVA 和 InternVL‑2.5‑1B 的实验验证了理论主张。
去中心化的实用方案： 提供了一个具体的训练流水线（固定的 CLIP 视觉编码器 + 对 ViT、MLP 和 LLM 的全参数微调），可供实践者采用。
开源参考实现： 作者发布了代码和预训练检查点，便于复现和进一步研究。

方法论

基于流的自回归生成视角 – 作者将 token 生成视为连续时间随机过程，其 velocity field 决定概率质量如何从一个 token 移动到下一个 token。
专家分解 – 与其学习单一的 velocity field，作者将其拆分为多个 expert flows（例如视觉编码器、语言模型、多模态适配器）。每个专家为整体 velocity 提供加权组件。
去中心化离散流匹配 (DDFM) – 训练损失将组合后的专家 velocity 与真实数据 velocity 对齐，使用直接作用于 token 序列的离散流匹配方法。
比较的训练范式
- 集中式：所有参数在单一优化循环中共同更新。
- 去中心化：每个专家在其自己的数据分片或设备上训练，其 velocity 的加权和与目标匹配。
基准测试 – 作者在标准视觉‑语言任务（图像描述、视觉问答、指令遵循）上评估，以比较 perplexity、BLEU/ROUGE 分数以及人工评估的一致性。

结果与发现

Model / Setting	Perplexity ↓	BLEU ↑	Human Rating (1‑5)
LLaVA (central)	12.4	28.7	4.2
LLaVA (decentral)	12.3	29.1	4.3
InternVL‑2.5‑1B (central)	11.8	30.2	4.5
InternVL‑2.5‑1B (decentral)	11.9	30.0	4.4

统计平等: 去中心化训练在所有指标上与中心化基线持平或略有超越。
训练效率: 由于同步开销降低，去中心化运行在多 GPU 集群上实现约 1.6× 的加速。
可扩展性: 当专家数量从 2 增加到 8 时，方法保持稳定，表明它能够处理更大的多模态流水线。

Practical Implications

降低基础设施成本： 团队可以在普通 GPU 集群上训练大规模视觉‑语言模型，无需重量级参数服务器，从而降低云费用。
模块化开发： 开发者可以替换或升级单个专家（例如更换 CLIP 编码器），而无需重新训练整个系统，加速产品迭代。
边缘‑云协同： 模型的部分可以在设备上微调（例如轻量级视觉编码器），而语言主干保持在云端，实现隐私保护的应用。
更快的实验： 去中心化的流水线允许在多个专家之间并行进行超参数搜索，缩短研究到部署的周期。

限制与未来工作

线性专家组合的假设： 当前的 DDFM 公式依赖于对专家流的线性加权，这可能限制对高度非线性交互的表达能力。
固定视觉编码器： 实验中保持 CLIP 编码器冻结；探索对所有组件的联合微调可能带来进一步提升。
基准多样性： 虽然论文覆盖了多个标准任务，但真实场景的部署（例如视频‑语言、交互式代理）仍未测试。
未来方向： 将 DDFM 扩展到层次化专家结构，加入用于指令遵循的强化学习信号，并在更大规模模型（≥10 B 参数）上进行评估。

作者

Stepan Maschan
Haoxuan Qu
Jun Liu

论文信息

arXiv ID: 2601.03184v1
分类: cs.LG, cs.AI
出版日期: 2026年1月6日
PDF: 下载 PDF

【论文】去中心化自回归生成

Overview

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 浅层图卷积神经网络训练的流形极限

[Paper] AdaFuse：自适应集成解码与测试时缩放用于LLMs

[Paper] LookAroundNet：使用 Transformers 扩展时间上下文以实现临床可行的 EEG 癫痫发作检测

[Paper] 通过非参数偏离定理检测离散信号中的随机性