第一代 — 独立模型 (2018–2022)

发布: (2026年5月10日 GMT+8 07:14)
10 分钟阅读
原文: Dev.to

Source: Dev.to

现代 AI 系统的基础

当人们想到像 ChatGPT 这样的工具时,他们常常认为智能来自于一个单一的强大系统,它“记忆”、 “推理” 并且“理解上下文”。

这种直觉是误导性的。要真正了解现代 AI 系统是如何演变的,我们需要回到 Generation 1——Standalone Models 时代,一切的起点。

Generation 1(2018 – 2022) 指的是由以下特征定义的时期:

  • 大型预训练模型,如 GPT、GPT‑2 和 GPT‑3
  • 围绕它们的系统设计极其简陋,缺乏真正的外部记忆或工具集成

这些模型虽然强大,却本质上是孤立的。它们能够生成文本,但无法访问信息、检索知识,或执行超出训练数据所编码内容的操作。

核心理念:AI 作为无状态引擎

在 Generation 1 的核心是一个关键概念:模型是无状态的。每次发送提示时,模型都会独立处理。它不会

  • 记住先前的交互
  • 实时学习

这对 GPT‑3、Claude、Gemini、Grok 以及其他厂商模型都适用——名称不同,架构真相相同。

三层架构(简化思维模型)

3‑layer architecture

➡️ 第1层 — UI层(交互界面)

这是一切用户直接接触的内容:聊天窗口、输入框、流式响应区、会话侧边栏、“重新生成”按钮、复制到剪贴板图标等。
在 ChatGPT、Claude.ai、Perplexity、Gemini 等工具以及 Cursor、Slack 等应用内的聊天面板中都能看到这一层。

核心职责

  • 捕获用户意图 — 文本输入、文件上传、语音、图像、工具切换、模型选择
  • 渲染模型输出 — 逐标记流式、Markdown、代码块、数学公式、引用
  • 创建连续性 — 让 AI 看似“记住”对话的幻觉
  • 管理会话状态 — 活跃聊天、历史导航、草稿、错误恢复
  • 呈现控制项 — 停止、重新生成、编辑消息、分支对话、分享、导出

不显而易见的洞见
优秀的 UI 层是让 ChatGPT 产生魔幻感的关键。底层使用的仍是同一个可以通过简单 API 请求调用的模型,但体验却截然不同。

➡️ 第2层 — 编排层(隐藏的中间件)

这是大多数初学者从未注意到的层——也是许多“ChatGPT 克隆版”感觉破碎或低质量的原因。它位于 UI 与模型之间,悄悄完成大量用户看不见却能感受到的工作。当你向 ChatGPT 发送消息时,实际到达模型的文本并不是你原始输入的内容;编排层会先对其进行转换。

该层的功能

  • 系统提示注入 – 添加一段精心编写的长指令集,定义助手的性格、语气、能力和安全规则。
  • 会话历史管理 – 决定在上下文窗口填满时包含哪些过去的消息、哪些进行摘要、哪些舍弃。
  • 上下文窗口预算 – 跟踪系统提示 + 历史 + 用户消息 + 预期输出的 token 使用情况。
  • 安全与政策过滤 – 在消息到达模型前进行检查,同时在模型输出到达用户前进行审查。
  • 速率限制与配额 – 强制使用限制,表现为“您已达到上限”。
  • 路由逻辑 – 将简单查询发送至成本更低的模型,复杂查询发送至更强大的模型。
  • 遥测与评估 – 日志记录、A/B 测试、质量检查和反馈循环。

不显而易见的部分
这正是 AI 产品真正区分开来的地方。两家公司可以使用相同的基础模型,却一个感觉魔幻,一个显得笨拙。为什么?因为大部分感知到的质量来源于编排层,而非模型本身。

为什么“无状态模型 + 有状态产品”很重要

  • ChatGPT 背后的模型是无状态的。每一次请求都是全新的开始。
  • 它不会记得你的名字、上一条消息,或你之前说的“使用 Python”。
  • 记忆和连续性的幻觉由编排层创造,它每次都会重放对话中相关的部分。

给初学者的关键要点
连续性是由 UI + 编排层创建的,而非模型本身。即使在今天,“记忆”功能也是建立在模型之上的——模型本身仍然在每次调用之间忘记所有内容。

➡️ 第3层 — 模型层(生成输出的引擎)

这就是大家认为自己在交互的部分——实际的 AI 模型。实际上,它只是系统中的一个组成部分,但却承担核心工作:将文本 输入 → 生成文本 输出

在这一层,情况出奇地简单。

模型实际执行的操作

  1. 接收编排层生成的最终提示。
  2. 预测下一个 token,

Source:

then the next, and so on, until it forms a complete response.

  • No memory.
  • No awareness.
  • No understanding of past conversations unless they’re replayed to it.

模型不做的事情

  • 记住之前的聊天记录。
  • 存储关于你的事实。
  • 知道你所在的“会话”。
  • 知道它 10 分钟前说了什么。
  • 知道产品具有什么工具(所有这些都在 Layer 2 中)。

为什么这一层仍然重要

即使模型“仅仅”是一个预测引擎,它也决定了整个系统的 能力上限。模型架构、规模和训练数据的改进会直接转化为更高质量的输出,而编排层可以更有效地呈现这些输出。

系统的原始能力

  • 语言流利度
  • 推理能力
  • 训练期间编码的知识
  • 创造力和风格

泛化

更强大的模型为编排层提供了更多可用资源——但模型本身永远不是完整的产品。

关键初学者洞察

模型是 无状态 的。每个请求都是一张白纸;它只知道当前收到的提示内容。
这就是编排层如此重要的原因:它构建了记忆、个性和连续性的幻象。模型只是对给定的文本作出反应。

综合全部

角色
第 1 层(UI)让体验感觉流畅
第 2 层(编排)让体验感觉智能
第 3 层(模型)生成实际的文字

大多数人认为他们在与第 3 层对话,但实际上他们正在体验三层协同工作的结果。

基础: UI + Orchestration + Model

开发者关键要点

LLM 不会记忆——它们通过提示构造来模拟记忆。

在以下情况下,这一洞察至关重要:

  • 设计 AI 应用
  • 调试响应
  • 优化提示
  • 构建可扩展系统

接下来是什么?

第1代

已解决文本生成 但仍无法:

  • 获取实时数据
  • 将回答基于事实

第2代 – 检索增强生成(RAG)

模型不再是孤立的——它们连接到外部知识源。

最终思考

第一代并不是在构建“智能助理”。
它展示了一个无状态概率模型在规模化后能够模拟智能。
随后出现的一切——RAG、代理、多代理系统——都是建立在这个简单而强大的理念之上。

0 浏览
Back to Blog

相关文章

阅读更多 »

我们不教 AI 思考

大多数人都是通过引导 AI 的思考来学习提示的: - “逐步思考。” - “下面是一个解决此问题的示例。” - “首先检查 A,然后比较 B,……”