第一代 — 独立模型 (2018–2022)

发布: 1天前 (2026年5月10日 GMT+8 07:14)

10 分钟阅读

原文: Dev.to

Source: Dev.to

现代 AI 系统的基础

当人们想到像 ChatGPT 这样的工具时，他们常常认为智能来自于一个单一的强大系统，它“记忆”、 “推理” 并且“理解上下文”。

这种直觉是误导性的。要真正了解现代 AI 系统是如何演变的，我们需要回到 Generation 1——Standalone Models 时代，一切的起点。

Generation 1（2018 – 2022） 指的是由以下特征定义的时期：

大型预训练模型，如 GPT、GPT‑2 和 GPT‑3
围绕它们的系统设计极其简陋，缺乏真正的外部记忆或工具集成

这些模型虽然强大，却本质上是孤立的。它们能够生成文本，但无法访问信息、检索知识，或执行超出训练数据所编码内容的操作。

核心理念：AI 作为无状态引擎

在 Generation 1 的核心是一个关键概念：模型是无状态的。每次发送提示时，模型都会独立处理。它不会：

记住先前的交互
实时学习

这对 GPT‑3、Claude、Gemini、Grok 以及其他厂商模型都适用——名称不同，架构真相相同。

三层架构（简化思维模型）

3‑layer architecture

➡️ 第1层 — UI层（交互界面）

这是一切用户直接接触的内容：聊天窗口、输入框、流式响应区、会话侧边栏、“重新生成”按钮、复制到剪贴板图标等。
在 ChatGPT、Claude.ai、Perplexity、Gemini 等工具以及 Cursor、Slack 等应用内的聊天面板中都能看到这一层。

核心职责

捕获用户意图 — 文本输入、文件上传、语音、图像、工具切换、模型选择
渲染模型输出 — 逐标记流式、Markdown、代码块、数学公式、引用
创建连续性 — 让 AI 看似“记住”对话的幻觉
管理会话状态 — 活跃聊天、历史导航、草稿、错误恢复
呈现控制项 — 停止、重新生成、编辑消息、分支对话、分享、导出

不显而易见的洞见
优秀的 UI 层是让 ChatGPT 产生魔幻感的关键。底层使用的仍是同一个可以通过简单 API 请求调用的模型，但体验却截然不同。

➡️ 第2层 — 编排层（隐藏的中间件）

这是大多数初学者从未注意到的层——也是许多“ChatGPT 克隆版”感觉破碎或低质量的原因。它位于 UI 与模型之间，悄悄完成大量用户看不见却能感受到的工作。当你向 ChatGPT 发送消息时，实际到达模型的文本并不是你原始输入的内容；编排层会先对其进行转换。

该层的功能

系统提示注入 – 添加一段精心编写的长指令集，定义助手的性格、语气、能力和安全规则。
会话历史管理 – 决定在上下文窗口填满时包含哪些过去的消息、哪些进行摘要、哪些舍弃。
上下文窗口预算 – 跟踪系统提示 + 历史 + 用户消息 + 预期输出的 token 使用情况。
安全与政策过滤 – 在消息到达模型前进行检查，同时在模型输出到达用户前进行审查。
速率限制与配额 – 强制使用限制，表现为“您已达到上限”。
路由逻辑 – 将简单查询发送至成本更低的模型，复杂查询发送至更强大的模型。
遥测与评估 – 日志记录、A/B 测试、质量检查和反馈循环。

不显而易见的部分
这正是 AI 产品真正区分开来的地方。两家公司可以使用相同的基础模型，却一个感觉魔幻，一个显得笨拙。为什么？因为大部分感知到的质量来源于编排层，而非模型本身。

为什么“无状态模型 + 有状态产品”很重要

ChatGPT 背后的模型是无状态的。每一次请求都是全新的开始。
它不会记得你的名字、上一条消息，或你之前说的“使用 Python”。
记忆和连续性的幻觉由编排层创造，它每次都会重放对话中相关的部分。

给初学者的关键要点
连续性是由 UI + 编排层创建的，而非模型本身。即使在今天，“记忆”功能也是建立在模型之上的——模型本身仍然在每次调用之间忘记所有内容。

➡️ 第3层 — 模型层（生成输出的引擎）

这就是大家认为自己在交互的部分——实际的 AI 模型。实际上，它只是系统中的一个组成部分，但却承担核心工作：将文本输入 → 生成文本输出。

在这一层，情况出奇地简单。

模型实际执行的操作

接收编排层生成的最终提示。
预测下一个 token，

Source: …

then the next, and so on, until it forms a complete response.

No memory.
No awareness.
No understanding of past conversations unless they’re replayed to it.

模型不做的事情

记住之前的聊天记录。
存储关于你的事实。
知道你所在的“会话”。
知道它 10 分钟前说了什么。
知道产品具有什么工具（所有这些都在 Layer 2 中）。

为什么这一层仍然重要

即使模型“仅仅”是一个预测引擎，它也决定了整个系统的 能力上限。模型架构、规模和训练数据的改进会直接转化为更高质量的输出，而编排层可以更有效地呈现这些输出。

系统的原始能力

语言流利度
推理能力
训练期间编码的知识
创造力和风格

泛化

更强大的模型为编排层提供了更多可用资源——但模型本身永远不是完整的产品。

关键初学者洞察

模型是 无状态 的。每个请求都是一张白纸；它只知道当前收到的提示内容。
这就是编排层如此重要的原因：它构建了记忆、个性和连续性的幻象。模型只是对给定的文本作出反应。

综合全部

层	角色
第 1 层（UI）	让体验感觉流畅
第 2 层（编排）	让体验感觉智能
第 3 层（模型）	生成实际的文字

大多数人认为他们在与第 3 层对话，但实际上他们正在体验三层协同工作的结果。

基础： UI + Orchestration + Model

开发者关键要点

LLM 不会记忆——它们通过提示构造来模拟记忆。

在以下情况下，这一洞察至关重要：

设计 AI 应用
调试响应
优化提示
构建可扩展系统

接下来是什么？

第1代

已解决文本生成 但仍无法：

获取实时数据
将回答基于事实

第2代 – 检索增强生成（RAG）

模型不再是孤立的——它们连接到外部知识源。

最终思考

第一代并不是在构建“智能助理”。
它展示了一个无状态概率模型在规模化后能够模拟智能。
随后出现的一切——RAG、代理、多代理系统——都是建立在这个简单而强大的理念之上。

第一代 — 独立模型 (2018–2022)

现代 AI 系统的基础

核心理念：AI 作为无状态引擎

三层架构（简化思维模型）

➡️ 第1层 — UI层（交互界面）

➡️ 第2层 — 编排层（隐藏的中间件）

为什么“无状态模型 + 有状态产品”很重要

➡️ 第3层 — 模型层（生成输出的引擎）

为什么这一层仍然重要

系统的原始能力

泛化

关键初学者洞察

综合全部

开发者关键要点

接下来是什么？

第1代

第2代 – 检索增强生成（RAG）

最终思考

相关文章

我们不教 AI 思考

LLMs 在委托时会损坏你的文档

隐藏的43%——团队如何浪费近一半的LLM API预算

使用 Gemini Embedding 2：Agentic 多模态 RAG 与更广阔的前景

现代 AI 系统的基础

核心理念：AI 作为无状态引擎

三层架构（简化思维模型）

➡️ 第1层 — UI层（交互界面）

➡️ 第2层 — 编排层（隐藏的中间件）

为什么“无状态模型 + 有状态产品”很重要

➡️ 第3层 — 模型层（生成输出的引擎）

为什么这一层仍然重要

系统的原始能力

泛化

关键初学者洞察

综合全部

开发者关键要点

接下来是什么？

第1代

第2代 – 检索增强生成（RAG）

最终思考

相关文章

我们不教 AI 思考

LLMs 在委托时会损坏你的文档

隐藏的43%——团队如何浪费近一半的LLM API预算

使用 Gemini Embedding 2：Agentic 多模态 RAG 与更广阔的前景

为什么“无状态模型 + 有状态产品”很重要