运行 AI 模型正变成记忆游戏
Source: TechCrunch
当我们谈论 AI 基础设施的成本时,焦点通常是 Nvidia 和 GPU——但内存正变得日益重要。随着超大规模云服务商准备投入数十亿美元建设新数据中心,DRAM 芯片的价格在过去一年里 大约上涨了 7 倍 (source)。
内存编排
与此同时,一个围绕如何编排内存以确保正确的数据在正确的时间到达正确的代理的新兴学科正在形成。掌握这项技术的公司可以用更少的 token 完成相同的查询,这可能决定企业是倒闭还是继续经营。
半导体分析师 Dan O’Laughlin 在他的 Substack 上讨论了内存芯片的重要性,并与 Val Bercovici(Weka 首席 AI 官)对话。他们的讨论聚焦于芯片本身,而非更广泛的架构,但对 AI 软件的影响却十分显著。
Anthropic 提示缓存
以下段落突显了 Anthropic 提示缓存文档日益复杂的现象:
“线索在于我们查看 Anthropic 的提示缓存定价页面。六七个月前,它还是一个非常简单的页面,尤其是在 Claude Code 推出时——只写着‘使用缓存,更便宜’。现在它已经变成了一部关于到底要预先购买多少缓存写入的百科全书。你会看到 5 分钟层级,这在业界非常常见,或者 1 小时层级——没有更长的选项。这是一个非常重要的线索。随后当然还有各种基于你预先购买的缓存写入数量而产生的缓存读取定价套利机会。”
— Val Bercovici, interview with Dan O’Laughlin
关键问题在于 Claude 在缓存中保留提示的时长。用户可以为 5 分钟窗口或更长的 1 小时窗口付费。利用仍然保留在缓存中的数据成本更低,但每新增一条查询数据都可能把缓存窗口中的其他内容驱逐出去。
要点: 在 AI 模型中管理内存将成为 AI 未来的重要组成部分。擅长这项工作的公司将脱颖而出。
缓存优化的进展
去年十月,一家名为 TensorMesh 的初创公司因致力于堆栈中称为缓存优化的层而受到关注 (TechCrunch article)。
跨层次的机会
- 底层硬件: 何时使用 DRAM 与 HBM 的决策是深层硬件考量,直接影响整体效率。
- 高层编排: 最终用户正在尝试构建模型群,以利用共享缓存。
随着公司改进内存编排,它们将使用更少的 token,从而降低推理成本。同时,模型在处理每个 token 时变得更高效 (Ramp analysis),进一步压低费用。随着服务器开支下降,当前边际盈利的应用有望转为盈利。