LLMs 并非我所想的那样
Source: Dev.to
对 LLM 的误解
我到处看到 “LLM”。
起初,我以为它只是 ChatGPT 的另一个花哨名字——而这种假设让一切进展变慢。
在我脑中,LLM 是:
- 一个神奇的 AI 大脑
- 只有研究人员才能构建的东西
- 与某个特定任务紧密耦合
这看起来似乎合理。“大型语言模型”听起来很吓人,但这种思维模型产生了摩擦:
- 我不知道它在应用中放在哪里
- 我无法判断自己到底在使用哪一部分
一切都显得比实际需要的更复杂。
思维的转变
当我不再把 LLM 当作产品或基础设施来思考时,转变就发生了。LLM 不是 ChatGPT;ChatGPT 是建立在 LLM 之上的产品。GPT、Gemini 等模型为 ChatGPT 等产品提供动力。这一细微的区别改变了我对 AI 的看法。
从本质上讲,LLM 是一个专注于一件事的系统:预测下一个词。它并不像人类那样理解语言——这正是它看起来很智能的原因。
两个关键特性
-
“Large”指的是数据量,而非模型大小
LLM 在海量数据集上进行训练——书籍、文章、网站——捕捉语言的模式。 -
它们是通用的
与为单一任务构建的传统机器学习模型不同,同一个引擎可以驱动:- 聊天界面
- 代码助手
- 摘要生成器
- 解释器
同一个引擎,不同的产品。
LLM 与应用程序
把前端工具想象成:React 不是产品,它是支撑产品的库。同理:
- LLM 不是应用——它们是应用背后的引擎。
- 你所体验到的完全取决于:
- 界面
- 约束条件
- 叠加在其上的指令
工作原理
在底层,LLM 通过使用 transformer 架构不断预测序列中的下一个词来工作。你不需要了解 transformer 就能使用 LLM。
我之所以感到畏惧,是因为误解了它们的本质。一旦把它们视为强大的预测引擎,它们就变得易于接近了。