LLMs 并非我所想的那样

发布: (2026年2月4日 GMT+8 13:30)
3 分钟阅读
原文: Dev.to

Source: Dev.to

对 LLM 的误解

我到处看到 “LLM”。
起初,我以为它只是 ChatGPT 的另一个花哨名字——而这种假设让一切进展变慢。

在我脑中,LLM 是:

  • 一个神奇的 AI 大脑
  • 只有研究人员才能构建的东西
  • 与某个特定任务紧密耦合

这看起来似乎合理。“大型语言模型”听起来很吓人,但这种思维模型产生了摩擦:

  • 我不知道它在应用中放在哪里
  • 我无法判断自己到底在使用哪一部分

一切都显得比实际需要的更复杂。

思维的转变

当我不再把 LLM 当作产品或基础设施来思考时,转变就发生了。LLM 不是 ChatGPT;ChatGPT 是建立在 LLM 之上的产品。GPT、Gemini 等模型为 ChatGPT 等产品提供动力。这一细微的区别改变了我对 AI 的看法。

从本质上讲,LLM 是一个专注于一件事的系统:预测下一个词。它并不像人类那样理解语言——这正是它看起来很智能的原因。

两个关键特性

  1. “Large”指的是数据量,而非模型大小
    LLM 在海量数据集上进行训练——书籍、文章、网站——捕捉语言的模式。

  2. 它们是通用的
    与为单一任务构建的传统机器学习模型不同,同一个引擎可以驱动:

    • 聊天界面
    • 代码助手
    • 摘要生成器
    • 解释器

同一个引擎,不同的产品。

LLM 与应用程序

把前端工具想象成:React 不是产品,它是支撑产品的库。同理:

  • LLM 不是应用——它们是应用背后的引擎。
  • 你所体验到的完全取决于:
    • 界面
    • 约束条件
    • 叠加在其上的指令

工作原理

在底层,LLM 通过使用 transformer 架构不断预测序列中的下一个词来工作。你不需要了解 transformer 就能使用 LLM。

我之所以感到畏惧,是因为误解了它们的本质。一旦把它们视为强大的预测引擎,它们就变得易于接近了。

Back to Blog

相关文章

阅读更多 »

当 AI 给你一巴掌

当 AI 给你当头一棒:在 Adama 中调试 Claude 生成的代码。你是否曾让 AI “vibe‑code” 一个复杂功能,却花了数小时调试细微的 bug……