[Paper] Horizon‑LM:一种以RAM为中心的LLM训练架构
发布: (2026年2月5日 GMT+8 02:04)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.04816v1
概览
本文介绍了 Horizon‑LM,一种全新的训练系统,它颠覆了传统以 GPU 为中心的大语言模型(LLM)训练观念。通过将主机的 RAM 作为主要参数存储,并仅将 GPU 用作短期计算工作者,Horizon‑LM 能够在单节点上训练此前无法实现的模型,显著降低对多 GPU 集群的依赖。
关键贡献
- 以内存为中心的架构:主机内存成为权威的参数存储库;GPU 充当瞬时计算引擎。
- CPU‑主导 / GPU‑模板执行模型:消除持久化的 GPU‑驻留模型副本和 autograd 图,降低 GPU 内存压力。
- 显式重算与手动梯度传播:用轻量、程序员可控的流水线取代自动微分,使内存使用限制在模型参数大小范围内。
- 双缓冲流水线引擎:重叠数据搬移、前向和反向传播,即使在频繁的主机‑GPU 传输下也能保持 GPU 高效运行。
- 可扩展的单节点训练:展示在配备 1.5 TB 主机内存的单块 NVIDIA H200 GPU 上训练最高 120 B 参数模型的能力。
- 性能提升:在标准的基于 A100 的工作站上,相比 DeepSpeed ZeRO‑3 的 CPU 卸载方案,实现最高 12.2 倍 的吞吐量提升,同时保持数值正确性。
方法论
- Parameter Store Relocation – 所有模型权重驻留在主机 RAM 中。系统维护单一且一致的副本,避免每个 GPU 必须持有自己的分片。
- Transient GPU Execution – 对于每个训练步骤,模型的模板被流式传输到 GPU 上执行,然后被丢弃。设备上不存在持久的 autograd 图。
- Manual Gradient Flow – 不再依赖深度学习框架的自动微分,Horizon‑LM 在反向传播时显式重新计算激活,并在主机内存中手动累积梯度。
- Double‑Buffering – 每个 GPU 阶段使用两个缓冲区,使得在当前微批仍在处理时即可加载下一个微批,从而隐藏 PCIe/NVLink 传输延迟。
- Pipeline Scheduling – 系统在缓冲区之间调度前向、后向和权重更新阶段,使 GPU 始终保持忙碌,即使大部分数据位于 CPU 端。
整体设计刻意保持简洁:CPU 负责数据移动和梯度聚合,而 GPU 专注于原始矩阵乘法。
结果与发现
| 平台 | 主机内存 | GPU | 最大训练模型规模 | 与 DeepSpeed ZeRO‑3 的吞吐量对比 |
|---|---|---|---|---|
| NVIDIA H200 (1.5 TB RAM) | 1.5 TB | H200 | 120 B 参数 | — |
| NVIDIA A100(标准工作站) | 256 GB | A100 | 30 B 参数 | 提升 12.2 倍 |
| NVIDIA A100(256 GB RAM) | 256 GB | A100 | 45 B 参数 | 提升 8.5 倍 |
- 内存可预测性:峰值 GPU 内存永不超过单个微批次所需的理论最小值,且与模型规模无关。
- 设备利用率:在所有测试配置中,GPU 占用率保持在 85 % 以上,证明双缓冲流水线能够有效隐藏数据传输开销。
- 数值保真度:在所有实验中,训练损失曲线与 ZeRO‑3 的误差在 0.1 % 以内,表明手动重新计算不会降低模型质量。
实际意义
- 节点级微调:研究人员和工程师现在可以在 100 B 规模的模型上进行指令微调、对齐或领域适配,而无需部署多节点集群。
- 成本降低:通过使用廉价的主机内存(如 DDR4/DDR5)而非昂贵的 GPU 显存,组织可以重新利用现有的大内存服务器进行大语言模型工作。
- 简化堆栈:消除复杂的分布式运行时(如基于 NCCL 的 all‑reduce),可降低运维开销和调试复杂度。
- 硬件灵活性:该方法适用于任何具备足够 PCIe/NVLink 带宽的 GPU;即使是消费级 GPU,只要配备充足的内存,也能用于大模型实验。
- 未来硬件设计:预示着向“内存优先”加速器的转变,其中加速器仅负责纯计算,而系统内存层次结构负责容量。
限制与未来工作
- CPU‑GPU 带宽受限:该方法依赖高吞吐量的互连;在 PCIe 链路较慢的系统上,双缓冲流水线可能成为瓶颈。
- 手动梯度处理:虽然论文提供了框架,但开发者必须将训练循环改写为显式重计算模型,这可能增加代码复杂度。
- 单节点之外的可扩展性:Horizon‑LM 侧重于单节点训练;将以内存为中心的模型扩展到多节点集群(例如跨多台服务器)仍是一个未解决的挑战。
- 对异构算子的支持:自定义内核或非张量操作可能需要额外的工程工作才能适配瞬时 GPU 执行模型。
作者建议探索自适应缓冲策略、与现有深度学习框架更紧密的集成以及混合多节点扩展作为后续工作。
作者
- Zhengqing Yuan
- Lichao Sun
- Yanfang
- Ye
论文信息
- arXiv ID: 2602.04816v1
- 分类: cs.OS, cs.CL, cs.DC
- 出版时间: 2026年2月4日
- PDF: 下载 PDF