AWS re:Invent 2025 -全新 AI 架构,能够像人类一样适应和思考 (STP108)
Source: Dev.to
概览
AWS re:Invent 2025 – 如同人类般适应与思考的全新 AI 架构(STP108)
在本场会议中,Pathway 的 Jan Chorowski 与 Victor Szczerba 介绍了 Baby Dragon Hatchling,一种受大脑稀疏神经网络启发的后 Transformer AI 架构。他们认为 Transformer 缺乏持续学习能力,效率低下,且不适用于长期企业任务。Baby Dragon 采用稀疏激活和稀疏连接,实现了:
- 从薄数据集进行持续学习
- 超过两小时的扩展注意力跨度
- 改善能源效率
- 为受监管环境提供模型可观测性
该架构被定位为通过“粘性推理”(sticky inference)结合企业数据的解决方案,计划在年中与 AWS 合作推出。
本文为原始演示的自动生成稿,可能存在少量错别字或不准确之处。
Transformer 的局限性与受大脑启发的 Baby Dragon Hatchling 架构
“Transformer 正走向终结。它的日子不多了。” – Jan Chorowski
为什么 Transformer 在长期任务上表现不佳
- 长期记忆受限 – 模型只在训练阶段更新一次,部署后即成为静态快照,无法适应新情况。
- 低效 – 为获得增量基准提升,需要模型规模和数据量提升十倍,导致成本和数据收集工作激增。
- 缺乏可解释性 – 错误难以诊断;修复往往意味着扩大数据规模或更换模型,这只是在不同的失败之间切换。
这些限制使得密集、“一刀切”的 Transformer 不适合需要持续改进、定制数据和合规性的企业工作负载。
大脑作为持续学习模型的启示
人类大脑能够持续学习,实时整合新信息。其关键特性与密集 Transformer 形成鲜明对比:
| 大脑 | Transformer |
|---|---|
| 稀疏激活 – 仅相关神经元被触发 | 密集激活 – 每一层处理所有输入 |
| 动态连接 – 通路会随经验强化或削弱 | 静态连接 – 权重在训练后固定 |
| 能效高 – 低功耗即可完成复杂任务 | 能耗大 – 扩大模型会显著提升计算成本 |
Baby Dragon Hatchling:核心理念
- 稀疏激活与连接 – 模仿大脑的选择性放电,降低计算和能源消耗。
- 持续学习 – 模型在运行期间更新参数,能够从薄且领域特定的数据集中不断提升。
- 扩展注意力窗口 – 支持对持续数小时的任务进行连贯推理,而非仅限于几句话。
- 可观测性与可审计性 – 内置工具用于监控模型行为,满足受监管行业的需求。
对企业的意义
- 粘性推理 – 模型能够安全地保留企业知识,减少重复上传大规模数据集的需求。
- 与 AWS 的年中发布 – 与 AWS 服务(如 SageMaker、Bedrock)集成,实现无缝部署与弹性扩展。
- 能源与成本节约 – 稀疏性转化为更低的推理成本,使大规模、长期运行的 AI 应用在财务上更具可行性。




