对独立 AI Grid 的需求
Source: Hacker News
(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)
Overview
苦涩的教训告诉我们,要通过扩大计算规模来解锁前沿 AI 进展。经验记录证实了这一点。
近年来,专注且独立的团队在每单位计算上的产出表现非凡。Anthropic/Claude 在代码方面,Black Forest Labs/Flux 在图像生成方面,Luma 在视频生成方面,ElevenLabs 和 Sesame 在语音和对话方面,都是在相对短时间内相较于非“苦涩教训”路线产生了最先进成果的团队。
实现前沿进展的最佳单位是拥有庞大计算资源的专注、人才密集型团队。
这一动态正在加速。AI 工具使专注的团队能力大幅提升。2022 年需要大型团队完成的工作,现在一个五人实验室在 2026 年就能完成。代码生成、数据管道自动化以及开源模型都在复合提升人才密度的回报——同时也放大了组织臃肿的惩罚。这也意味着能够进行前沿工作的团队数量正在爆炸式增长。
问题在于,独立性伴随巨大的结构性成本——低计算利用率和不确定的访问权限。
前沿工作负载往往难以预测——大规模训练运行后会出现周期性的推理阶段,期间伴随空闲容量,以及介于两者之间的各种情况。单个团队很难高效地为此进行资源配置。他们常常必须为峰值过度配置,在低谷期间浪费资源。缺乏专用的多租户和规模化的作业编排能力。
结果是,领域中最具生产力的团队往往也是其最昂贵输入——计算资源——的最低效使用者。根据经验数据,独立团队中常常有 30‑40 % 的 FLOPs 处于闲置状态,而这些团队却始终感到计算资源不足。
这导致了一个残酷的选择。为了大规模获取计算并高效使用,独立团队往往必须接受其最关键资源的相当一部分被浪费,或者不得不勉强加入那些已在规模上确保计算访问的、与其目标不一致的大组织。
在这种时间线下,人类的处境更糟,因为能够在前沿进行研发的团队数量减少。一个健康的、独立的前沿技术生态系统对创新是有益的。
网格
前沿创新却在不断消耗稀缺的物理资源——能源、土地、稀土——且规模日益扩大。这些资源需要流向能够有效将瓦特、英亩和美元转化为突破的组织。最大化每单位稀缺物理资源的前沿产出是一个人类层面的难题。
一个独立的 AI 网格——一个在独立团队之间汇聚计算资源的系统——可以解决这个问题。
这通过将两个扩展难题解耦来实现。创新通过独立性扩展。计算通过共享基础设施扩展。
利用率经济学可能非常强大。当网格成员在任意时刻处于不同阶段——一个团队处于研究模式,而另一个团队处于部署模式——整体需求曲线仍然平滑,即使每个单独的工作负载是波动的。
当独立团队汇聚它们的计算需求时,它们创建了一个基础设施层,其唯一功能是为彼此最大化利用率,而不牺牲各自的自由。每个成员保持独立,完全控制自己的基准负载,并获得自动化基础设施的访问,这种规模的资源本来只能通过成为那种每单位计算产生更少突破的组织才能获得。
前沿工作负载带来了硬性的基础设施问题——静默数据损坏、拓扑感知调度、功率管理、快速检查点——这些是通用云服务提供商无法解决的。如今,每个实验室都要组建自己的团队来解决这些问题,导致全领域的重复劳动。网格只需一次性解决这些问题,作为共享的自动化,供每个成员使用。
一种反对意见可能是,AI 网格不过是多了几层的云。区别在于,网格以一种让计算访问对各个团队尽可能灵活的方式,在多个提供商之间汇聚计算资源。
第二种反对意见可能是,网格成员会毕业——当单个网格成员规模扩大时,它可以在内部复制网格的价值,从而不再需要网格。这在一定程度上是对的:单个成员可以复制的东西——调度器、运维团队、采购杠杆、代币折扣——在规模化时价值会下降。但只有网格整体才能提供的东西价值会提升:所有成员的平滑需求曲线、整个生态系统的集体智慧,以及在危机时刻对每个成员都能提供的规模化安全性。
苦涩的教训告诉我们要扩展计算。现实则表明,在不牺牲规模化独立性的情况下,这很困难。一个 AI 网格是一个如果运作得当,就能解决这一问题的系统。
AMP PBC
AMP 是一家公共福利公司。我们的愿景是健康、独立的前沿技术生态系统。我们的使命是最大化世界的前沿产出。
我们的全职创始团队包括来自 A16Z 的 AI 基础设施基金、Google 全球 AI 基础设施工程团队的校友,以及来自 Orrick 和 Edelman 的合作伙伴。
我们的创始网格合作伙伴包括世界上一些领先的研究实验室。
我们的直接目标是确保通过 AMP 消耗的相同算力为我们的成员——以及全人类——带来更多的训练运行、更多的实验和更多的前沿研究产出。
我们现在邀请使命相符的组织加入网格,成为早期成员。如需了解更多信息,请通过 grid@amppbc.com 与我们联系。