大语言模型与 Transformer 架构简介：与计算器对话

发布: 1个月前 (2025年12月14日 GMT+8 15:20)

4 分钟阅读

原文: Dev.to

Source: Dev.to

“All models are wrong, but some are useful.”
— George E. P. Box

概览

大型语言模型（LLM）本质上是由数十亿个数值参数组成的结构化集合——这些参数组织成矩阵和向量，来源于训练过程。通过让模型接触海量数据，它们学习标记之间的统计关系，并构建语言的内部表征。

从高层来看，LLM 的功能类似于高级自动补全：它预测下一个文本片段，却没有真正的推理或理解能力。最强大的模型能够处理复杂的、博士级别的数学任务，拥有数百亿未量化的参数，但其成本使其在近期难以大规模使用。

现代 LLM 的真正引擎是 Transformer 架构。根据模型系列的不同，Transformer 可以采用：

想了解更深入的内容，请参阅关于 Understanding Transformer Architecture 的文章。

在文本进入模型之前，必须将其转换为机器可读的格式。文本被切分为 tokens（标记），这些标记可以是字符、音节、单词或子词。

在分词策略中，Byte‑Pair Encoding（BPE） 及其现代变体因高效且在流行模型中表现出色而被广泛采用。

每个标记通过 嵌入（embedding） 过程映射到一个连续的数值向量。嵌入将模型置于高维空间，在该空间中可以编码模式、关系和语义含义。标记既可以单独处理，也可以整体处理，生成的密集向量表示是模型后续所有推理的基础。

经过变换后，精炼的向量会通过 反嵌入（或输出投影） 层，转换回标记，形成模型输出的单词和句子。

LLM 并不像人类那样理解世界，这会导致幻觉——看似合理却事实错误的输出。尽管如此，它们在许多场景下仍然有用。正如 Aleksander Mądry 教授所言：

“AI 不仅仅是一种技术；它是一种加速其他技术和科学的技术。它是通往更快进步的高速公路。忽视它并不明智。”

了解 LLM 与 Transformer 的工作原理对于在何时以及如何有效使用它们做出明智决策至关重要。

广泛可获取的模型通常是量化的，这意味着它们使用降低的数值精度以降低计算成本并提升可负担性。量化会影响性能：在实际使用中，GPT 模型可能在较为宽松的自我发展任务上表现出色，但在需要详细、领域特定知识的任务上可能表现不佳，甚至无法提供部分答案或被引导至完整解答。