什么是LLM?ChatGPT、GPT 与 AI 语言模型的真实工作原理(初学者指南)

发布: (2026年1月19日 GMT+8 01:12)
6 min read
原文: Dev.to

Source: Dev.to

学习大型语言模型(LLM),如 ChatGPT 的工作原理。了解 token、GPT、transformer,以及 AI 如何以简单的方式生成类似人类的文本。

如果你使用过 ChatGPT、Gemini 或 Claude,你已经与 大型语言模型(LLM) 互动过了。它的感觉像是和人聊天,但背后全是 数学、数据、token 和概率

在本文中,你将学习:

  • 什么是 LLM
  • LLM 如何训练
  • 什么是 token 以及它们的工作方式
  • GPT 的含义
  • LLM 如何一步一步生成答案

1. 什么是 LLM?

LLM = Large Language Model

LLM 是一种经过训练的 AI 系统,能够:

  • 理解人类语言
  • 生成类似人类的回复

示例

“像我10岁一样解释递归。”

LLM 让人们可以使用自然语言而不是代码与计算机对话,使得即使没有编程知识也能使用 AI。

2. 大型语言模型是如何训练的?

大型语言模型在包含以下内容的大规模数据集上进行训练:

  • 书籍
  • 博客
  • 文章
  • 代码仓库
  • 网络内容

与数据库不同,LLM 不会逐字存储事实。它学习语言中的 模式、关系和概率——这与人类通过阅读不断提升的方式非常相似。

3. 标记:AI 如何理解文本

计算机并不理解单词——它们理解 数字

当你输入:

Hello world

它可能会被转换成类似下面的形式:

[15496, 995]

这个过程称为 标记化(tokenization),是大型语言模型(LLM)将文本转化为可处理格式的方式。

AI 文本生成工作流

文本 → 标记 → 模型 → 标记 → 文本
  • 标记化 – 将文本转换为数字(标记)。
  • 模型处理 – 根据输入和学习到的模式预测下一个标记。
  • 去标记化 – 将输出的标记转换回人类可读的文本。

4. 输入令牌 vs. 输出令牌

  • 输入令牌 – 您发送给 AI 的消息或问题。
  • 输出令牌 – AI 生成的响应。

模型一次预测 一个令牌,持续进行,直至形成完整的响应——类似于高级 自动完成 系统。

5. GPT 是什么?

GPT = 生成式 预训练 转换器

5.1 生成式

LLM 实时生成响应,而不是从数据库中检索。

You: “Call me Captain Dev”
LLM: “Sure, Captain Dev!”

该回复是 原创的,由模型在训练期间学习到的模式生成。

5.2 预训练

在任何用户交互之前,LLM 会在大规模数据集上进行广泛训练。就像人类一样,它们 先学习,再生成

5.3 转换器

Transformer 是驱动现代 LLM 的神经网络架构。它使模型能够 高效处理上下文,并准确预测下一个 token。

所有主流 LLM 都使用基于 transformer 的架构,例如:

  • GPT (OpenAI)
  • Gemini (Google)
  • Claude (Anthropic)
  • Mistral

简而言之,它们是 生成式 + 预训练 + 转换器

6. LLM 如何一步步生成答案

把 LLM 想象成一个 超级智能的自动补全系统

  1. 你输入:“天空是…”
  2. 模型预测下一个 token:“蓝色”
  3. 它预测下一个 token:“今天”
  4. 它继续逐 token 生成,直至完整的响应完成。

这种增量生成方式使 LLM 能够基于给定上下文产生 长而连贯的响应

7. 实际案例

Prompt: “Write a short introduction about yourself for a portfolio website.”

Process

  1. Input: AI 接收你的文本(输入 token)。
  2. Prediction: 模型使用其预训练和提供的上下文预测下一个词/ token。
  3. Iteration: 它一次一次地生成 token,直至响应完成。
  4. Output: 通过去标记化(detokenization)将 token 转换为可读文本,你可以复制并使用。

这就是 AI 能够即时生成博客文章、代码片段、摘要等的原因。

8. 最后思考

LLMs 正在重塑人类与机器的交互方式。人类不再学习编程语言,机器正在学习 人类语言

LLMs 是 用于沟通、自动化和创意生成的工具——这仅仅是 AI 能做到的开始。

通过更好地理解 tokens、GPT 和 transformer,你现在可以体会 AI 如何生成智能、类人响应

系列下一篇

  • 深入探讨 LLM 中的 Tokens、嵌入和向量搜索 — 敬请期待下一篇文章!
Back to Blog

相关文章

阅读更多 »