什么是LLM?ChatGPT、GPT 与 AI 语言模型的真实工作原理(初学者指南)
Source: Dev.to
学习大型语言模型(LLM),如 ChatGPT 的工作原理。了解 token、GPT、transformer,以及 AI 如何以简单的方式生成类似人类的文本。
如果你使用过 ChatGPT、Gemini 或 Claude,你已经与 大型语言模型(LLM) 互动过了。它的感觉像是和人聊天,但背后全是 数学、数据、token 和概率。
在本文中,你将学习:
- 什么是 LLM
- LLM 如何训练
- 什么是 token 以及它们的工作方式
- GPT 的含义
- LLM 如何一步一步生成答案
1. 什么是 LLM?
LLM = Large Language Model
LLM 是一种经过训练的 AI 系统,能够:
- 理解人类语言
- 生成类似人类的回复
示例
“像我10岁一样解释递归。”
LLM 让人们可以使用自然语言而不是代码与计算机对话,使得即使没有编程知识也能使用 AI。
2. 大型语言模型是如何训练的?
大型语言模型在包含以下内容的大规模数据集上进行训练:
- 书籍
- 博客
- 文章
- 代码仓库
- 网络内容
与数据库不同,LLM 不会逐字存储事实。它学习语言中的 模式、关系和概率——这与人类通过阅读不断提升的方式非常相似。
3. 标记:AI 如何理解文本
计算机并不理解单词——它们理解 数字。
当你输入:
Hello world
它可能会被转换成类似下面的形式:
[15496, 995]
这个过程称为 标记化(tokenization),是大型语言模型(LLM)将文本转化为可处理格式的方式。
AI 文本生成工作流
文本 → 标记 → 模型 → 标记 → 文本
- 标记化 – 将文本转换为数字(标记)。
- 模型处理 – 根据输入和学习到的模式预测下一个标记。
- 去标记化 – 将输出的标记转换回人类可读的文本。
4. 输入令牌 vs. 输出令牌
- 输入令牌 – 您发送给 AI 的消息或问题。
- 输出令牌 – AI 生成的响应。
模型一次预测 一个令牌,持续进行,直至形成完整的响应——类似于高级 自动完成 系统。
5. GPT 是什么?
GPT = 生成式 预训练 转换器
5.1 生成式
LLM 实时生成响应,而不是从数据库中检索。
You: “Call me Captain Dev”
LLM: “Sure, Captain Dev!”
该回复是 原创的,由模型在训练期间学习到的模式生成。
5.2 预训练
在任何用户交互之前,LLM 会在大规模数据集上进行广泛训练。就像人类一样,它们 先学习,再生成。
5.3 转换器
Transformer 是驱动现代 LLM 的神经网络架构。它使模型能够 高效处理上下文,并准确预测下一个 token。
所有主流 LLM 都使用基于 transformer 的架构,例如:
- GPT (OpenAI)
- Gemini (Google)
- Claude (Anthropic)
- Mistral
简而言之,它们是 生成式 + 预训练 + 转换器。
6. LLM 如何一步步生成答案
把 LLM 想象成一个 超级智能的自动补全系统:
- 你输入:“天空是…”
- 模型预测下一个 token:“蓝色”
- 它预测下一个 token:“今天”
- 它继续逐 token 生成,直至完整的响应完成。
这种增量生成方式使 LLM 能够基于给定上下文产生 长而连贯的响应。
7. 实际案例
Prompt: “Write a short introduction about yourself for a portfolio website.”
Process
- Input: AI 接收你的文本(输入 token)。
- Prediction: 模型使用其预训练和提供的上下文预测下一个词/ token。
- Iteration: 它一次一次地生成 token,直至响应完成。
- Output: 通过去标记化(detokenization)将 token 转换为可读文本,你可以复制并使用。
这就是 AI 能够即时生成博客文章、代码片段、摘要等的原因。
8. 最后思考
LLMs 正在重塑人类与机器的交互方式。人类不再学习编程语言,机器正在学习 人类语言。
LLMs 是 用于沟通、自动化和创意生成的工具——这仅仅是 AI 能做到的开始。
通过更好地理解 tokens、GPT 和 transformer,你现在可以体会 AI 如何生成智能、类人响应。
系列下一篇
- 深入探讨 LLM 中的 Tokens、嵌入和向量搜索 — 敬请期待下一篇文章!