[Paper] Horizon‑LM：一种以RAM为中心的LLM训练架构

发布: 4天前 (2026年2月5日 GMT+8 02:04)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.04816v1

概览

本文介绍了 Horizon‑LM，一种全新的训练系统，它颠覆了传统以 GPU 为中心的大语言模型（LLM）训练观念。通过将主机的 RAM 作为主要参数存储，并仅将 GPU 用作短期计算工作者，Horizon‑LM 能够在单节点上训练此前无法实现的模型，显著降低对多 GPU 集群的依赖。

以内存为中心的架构：主机内存成为权威的参数存储库；GPU 充当瞬时计算引擎。
CPU‑主导 / GPU‑模板执行模型：消除持久化的 GPU‑驻留模型副本和 autograd 图，降低 GPU 内存压力。
显式重算与手动梯度传播：用轻量、程序员可控的流水线取代自动微分，使内存使用限制在模型参数大小范围内。
双缓冲流水线引擎：重叠数据搬移、前向和反向传播，即使在频繁的主机‑GPU 传输下也能保持 GPU 高效运行。
可扩展的单节点训练：展示在配备 1.5 TB 主机内存的单块 NVIDIA H200 GPU 上训练最高 120 B 参数模型的能力。
性能提升：在标准的基于 A100 的工作站上，相比 DeepSpeed ZeRO‑3 的 CPU 卸载方案，实现最高 12.2 倍 的吞吐量提升，同时保持数值正确性。

Parameter Store Relocation – 所有模型权重驻留在主机 RAM 中。系统维护单一且一致的副本，避免每个 GPU 必须持有自己的分片。
Transient GPU Execution – 对于每个训练步骤，模型的模板被流式传输到 GPU 上执行，然后被丢弃。设备上不存在持久的 autograd 图。
Manual Gradient Flow – 不再依赖深度学习框架的自动微分，Horizon‑LM 在反向传播时显式重新计算激活，并在主机内存中手动累积梯度。
Double‑Buffering – 每个 GPU 阶段使用两个缓冲区，使得在当前微批仍在处理时即可加载下一个微批，从而隐藏 PCIe/NVLink 传输延迟。
Pipeline Scheduling – 系统在缓冲区之间调度前向、后向和权重更新阶段，使 GPU 始终保持忙碌，即使大部分数据位于 CPU 端。

整体设计刻意保持简洁：CPU 负责数据移动和梯度聚合，而 GPU 专注于原始矩阵乘法。

平台	主机内存	GPU	最大训练模型规模	与 DeepSpeed ZeRO‑3 的吞吐量对比
NVIDIA H200 (1.5 TB RAM)	1.5 TB	H200	120 B 参数	—
NVIDIA A100（标准工作站）	256 GB	A100	30 B 参数	提升 12.2 倍
NVIDIA A100（256 GB RAM）	256 GB	A100	45 B 参数	提升 8.5 倍

作者建议探索自适应缓冲策略、与现有深度学习框架更紧密的集成以及混合多节点扩展作为后续工作。