理解 Seq2Seq 神经网络 – 第5部分:解码上下文向量
发布: (2026年3月19日 GMT+8 11:12)
2 分钟阅读
原文: Dev.to
Source: Dev.to

在上一篇文章中,我们停在了 上下文向量 的概念。
在本篇文章中,我们将从 解码上下文向量 开始。
连接解码器
我们首先需要做的事是 将构成上下文向量的长期记忆和短期记忆(即 cell 状态和 hidden 状态) 连接到一组新的 LSTM 上。
- 与 编码器 类似,解码器也有 两层,每层包含 两个 LSTM 单元。
- 解码器中的 LSTM 拥有它们自己的 独立权重和偏置,与编码器中的不同。
使用上下文向量
上下文向量 用来 初始化解码器 LSTM 中的长期记忆和短期记忆(cell 状态和 hidden 状态)。
这种初始化使得解码器 能够从输入句子中学习到的信息开始。
解码器的目标
解码器 的最终目标是 将上下文向量转换为输出句子。
- 编码器 负责理解输入。
- 解码器 根据这种理解生成输出。
解码器输入
与编码器类似,第一层 LSTM 单元的输入 来自 嵌入层。
嵌入层为西班牙语单词生成 嵌入向量,例如:
- ir
- vamos
- y
- ****(句子结束符号)
每个单词都被视为一个 标记(token),嵌入层将它们转换为 神经网络可以处理的数字。
我们将在下一篇文章中探讨 解码器如何生成输出句子的细节。
ipm install repo-name