👀 Attention 像5岁小孩一样解释

发布: (2026年1月15日 GMT+8 06:25)
3 min read
原文: Dev.to

Source: Dev.to

什么是 AI 中的注意力?

注意力就像语言模型的荧光笔。
当你学习时,你会在文本中划出对考试重要的部分,忽略其余内容。
同样,AI 模型会为与当前词语理解最相关的词分配更高的“注意力分数”。

示例:消歧义 “bank”

句子: “The bank by the river had no money.”

如果没有注意力,旧的 AI 可能会以 50/50 的概率猜测 bank 的含义:

  • 💰 Bank(金融机构)
  • 🏞️ Bank(河岸)

有了注意力,模型会查看周围的词:

  • bank → “river”(强关联)
  • bank → “money”(关联较弱,因为句子说的是 “no money”)

对 “river” 的更强关联使模型将 bank 解释为 riverbank 🏞️。

注意力如何为词打分

考虑句子:

“The cat sat because it was tired.”

当模型处理代词 it 时,会评估每个其他词的相关性:

注意力分数
cat高(非常相关)
sat
tired中等

因此模型推断 it 指代 the cat

更直观的形式:

The  cat  sat  on   mat  it   was  tired
it:   low  high low  -    -    -    medium

分数越高表示注意力越多,说明该词对正在处理的词更相关。

为什么注意力很重要

在注意力机制出现之前,模型一次只能读取一个词,且很快会丢失之前的上下文。注意力使它们能够:

  • 更准确地翻译语言
  • 理解并回答问题
  • 生成连贯的段落
  • 辅助编码任务

通过聚焦文本中最相关的部分,注意力让 AI 像人类一样突出重要的段落,从而更好地把握上下文。

Back to Blog

相关文章

阅读更多 »

注意力矩阵中的故障

Transformer 人工制品的历史以及最新的修复研究。《注意力矩阵中的故障》首次发表于 Towards Data Science....