AWS re:Invent 2025 -全新 AI 架构，能够像人类一样适应和思考 (STP108)

发布: 2小时前 (2025年12月5日 GMT+8 20:46)

5 min read

Source: Dev.to

概览

AWS re:Invent 2025 – 如同人类般适应与思考的全新 AI 架构（STP108）

在本场会议中，Pathway 的 Jan Chorowski 与 Victor Szczerba 介绍了 Baby Dragon Hatchling，一种受大脑稀疏神经网络启发的后 Transformer AI 架构。他们认为 Transformer 缺乏持续学习能力，效率低下，且不适用于长期企业任务。Baby Dragon 采用稀疏激活和稀疏连接，实现了：

从薄数据集进行持续学习
超过两小时的扩展注意力跨度
改善能源效率
为受监管环境提供模型可观测性

该架构被定位为通过“粘性推理”（sticky inference）结合企业数据的解决方案，计划在年中与 AWS 合作推出。

本文为原始演示的自动生成稿，可能存在少量错别字或不准确之处。

Transformer 的局限性与受大脑启发的 Baby Dragon Hatchling 架构

“Transformer 正走向终结。它的日子不多了。” – Jan Chorowski

为什么 Transformer 在长期任务上表现不佳

长期记忆受限 – 模型只在训练阶段更新一次，部署后即成为静态快照，无法适应新情况。
低效 – 为获得增量基准提升，需要模型规模和数据量提升十倍，导致成本和数据收集工作激增。
缺乏可解释性 – 错误难以诊断；修复往往意味着扩大数据规模或更换模型，这只是在不同的失败之间切换。

这些限制使得密集、“一刀切”的 Transformer 不适合需要持续改进、定制数据和合规性的企业工作负载。

大脑作为持续学习模型的启示

人类大脑能够持续学习，实时整合新信息。其关键特性与密集 Transformer 形成鲜明对比：

大脑	Transformer
稀疏激活 – 仅相关神经元被触发	密集激活 – 每一层处理所有输入
动态连接 – 通路会随经验强化或削弱	静态连接 – 权重在训练后固定
能效高 – 低功耗即可完成复杂任务	能耗大 – 扩大模型会显著提升计算成本

Baby Dragon Hatchling：核心理念

稀疏激活与连接 – 模仿大脑的选择性放电，降低计算和能源消耗。
持续学习 – 模型在运行期间更新参数，能够从薄且领域特定的数据集中不断提升。
扩展注意力窗口 – 支持对持续数小时的任务进行连贯推理，而非仅限于几句话。
可观测性与可审计性 – 内置工具用于监控模型行为，满足受监管行业的需求。

对企业的意义

粘性推理 – 模型能够安全地保留企业知识，减少重复上传大规模数据集的需求。
与 AWS 的年中发布 – 与 AWS 服务（如 SageMaker、Bedrock）集成，实现无缝部署与弹性扩展。
能源与成本节约 – 稀疏性转化为更低的推理成本，使大规模、长期运行的 AI 应用在财务上更具可行性。

AWS re:Invent 2025 -全新 AI 架构，能够像人类一样适应和思考 (STP108)

概览

Transformer 的局限性与受大脑启发的 Baby Dragon Hatchling 架构

为什么 Transformer 在长期任务上表现不佳

大脑作为持续学习模型的启示

Baby Dragon Hatchling：核心理念

对企业的意义

观看完整演示

相关文章

我如何使用 Langflow 的拖放工作流构建多平台 AI 机器人

调制解调器的复仇

生成式 AI 革命承诺提升生产力，但它是让我们更聪明，还是仅仅把思考外包了？

使用 Kiro 构建我的第一个项目：学生的体验

概览

Transformer 的局限性与受大脑启发的 Baby Dragon Hatchling 架构

为什么 Transformer 在长期任务上表现不佳

大脑作为持续学习模型的启示

Baby Dragon Hatchling：核心理念

对企业的意义

观看完整演示

相关文章

我如何使用 Langflow 的拖放工作流构建多平台 AI 机器人

调制解调器的复仇

生成式 AI 革命承诺提升生产力，但它是让我们更聪明，还是仅仅把思考外包了？

使用 Kiro 构建我的第一个项目：学生的体验

Transformer 的局限性与受大脑启发的 Baby Dragon Hatchling 架构

Baby Dragon Hatchling：核心理念