AWS re:Invent 2025 -全新 AI 架构,能够像人类一样适应和思考 (STP108)

发布: (2025年12月5日 GMT+8 20:46)
5 min read
原文: Dev.to

Source: Dev.to

概览

AWS re:Invent 2025 – 如同人类般适应与思考的全新 AI 架构(STP108)

在本场会议中,Pathway 的 Jan Chorowski 与 Victor Szczerba 介绍了 Baby Dragon Hatchling,一种受大脑稀疏神经网络启发的后 Transformer AI 架构。他们认为 Transformer 缺乏持续学习能力,效率低下,且不适用于长期企业任务。Baby Dragon 采用稀疏激活和稀疏连接,实现了:

  • 从薄数据集进行持续学习
  • 超过两小时的扩展注意力跨度
  • 改善能源效率
  • 为受监管环境提供模型可观测性

该架构被定位为通过“粘性推理”(sticky inference)结合企业数据的解决方案,计划在年中与 AWS 合作推出。

本文为原始演示的自动生成稿,可能存在少量错别字或不准确之处。

Transformer 的局限性与受大脑启发的 Baby Dragon Hatchling 架构

Thumbnail 0

“Transformer 正走向终结。它的日子不多了。” – Jan Chorowski

为什么 Transformer 在长期任务上表现不佳

  • 长期记忆受限 – 模型只在训练阶段更新一次,部署后即成为静态快照,无法适应新情况。
  • 低效 – 为获得增量基准提升,需要模型规模和数据量提升十倍,导致成本和数据收集工作激增。
  • 缺乏可解释性 – 错误难以诊断;修复往往意味着扩大数据规模或更换模型,这只是在不同的失败之间切换。

这些限制使得密集、“一刀切”的 Transformer 不适合需要持续改进、定制数据和合规性的企业工作负载。

大脑作为持续学习模型的启示

人类大脑能够持续学习,实时整合新信息。其关键特性与密集 Transformer 形成鲜明对比:

大脑Transformer
稀疏激活 – 仅相关神经元被触发密集激活 – 每一层处理所有输入
动态连接 – 通路会随经验强化或削弱静态连接 – 权重在训练后固定
能效高 – 低功耗即可完成复杂任务能耗大 – 扩大模型会显著提升计算成本

Baby Dragon Hatchling:核心理念

  1. 稀疏激活与连接 – 模仿大脑的选择性放电,降低计算和能源消耗。
  2. 持续学习 – 模型在运行期间更新参数,能够从薄且领域特定的数据集中不断提升。
  3. 扩展注意力窗口 – 支持对持续数小时的任务进行连贯推理,而非仅限于几句话。
  4. 可观测性与可审计性 – 内置工具用于监控模型行为,满足受监管行业的需求。

对企业的意义

  • 粘性推理 – 模型能够安全地保留企业知识,减少重复上传大规模数据集的需求。
  • 与 AWS 的年中发布 – 与 AWS 服务(如 SageMaker、Bedrock)集成,实现无缝部署与弹性扩展。
  • 能源与成本节约 – 稀疏性转化为更低的推理成本,使大规模、长期运行的 AI 应用在财务上更具可行性。

观看完整演示

Thumbnail 30

Thumbnail 60

Thumbnail 120

Thumbnail 260

Back to Blog

相关文章

阅读更多 »

调制解调器的复仇

第一次连接 1994年冬天,在香港的一间小公寓里,一个十四岁的男孩把一台 US Robotics Sportster 14,400 Fax Modem 插入……