👀 Attention 像5岁小孩一样解释
发布: (2026年1月15日 GMT+8 06:25)
3 min read
原文: Dev.to
Source: Dev.to
什么是 AI 中的注意力?
注意力就像语言模型的荧光笔。
当你学习时,你会在文本中划出对考试重要的部分,忽略其余内容。
同样,AI 模型会为与当前词语理解最相关的词分配更高的“注意力分数”。
示例:消歧义 “bank”
句子: “The bank by the river had no money.”
如果没有注意力,旧的 AI 可能会以 50/50 的概率猜测 bank 的含义:
- 💰 Bank(金融机构)
- 🏞️ Bank(河岸)
有了注意力,模型会查看周围的词:
- bank → “river”(强关联)
- bank → “money”(关联较弱,因为句子说的是 “no money”)
对 “river” 的更强关联使模型将 bank 解释为 riverbank 🏞️。
注意力如何为词打分
考虑句子:
“The cat sat because it was tired.”
当模型处理代词 it 时,会评估每个其他词的相关性:
| 词 | 注意力分数 |
|---|---|
| cat | 高(非常相关) |
| sat | 低 |
| tired | 中等 |
因此模型推断 it 指代 the cat。
更直观的形式:
The cat sat on mat it was tired
it: low high low - - - medium
分数越高表示注意力越多,说明该词对正在处理的词更相关。
为什么注意力很重要
在注意力机制出现之前,模型一次只能读取一个词,且很快会丢失之前的上下文。注意力使它们能够:
- 更准确地翻译语言
- 理解并回答问题
- 生成连贯的段落
- 辅助编码任务
通过聚焦文本中最相关的部分,注意力让 AI 像人类一样突出重要的段落,从而更好地把握上下文。