理解 Seq2Seq 神经网络 – 第5部分：解码上下文向量

发布: 1个月前 (2026年3月19日 GMT+8 11:12)

2 分钟阅读

原文: Dev.to

Source: Dev.to

Cover image for Understanding Seq2Seq Neural Networks – Part 5: Decoding the Context Vector

在上一篇文章中，我们停在了 上下文向量 的概念。
在本篇文章中，我们将从 解码上下文向量 开始。

连接解码器

我们首先需要做的事是 将构成上下文向量的长期记忆和短期记忆（即 cell 状态和 hidden 状态） 连接到一组新的 LSTM 上。

上下文向量 用来 初始化解码器 LSTM 中的长期记忆和短期记忆（cell 状态和 hidden 状态）。
这种初始化使得解码器 能够从输入句子中学习到的信息开始。

解码器 的最终目标是 将上下文向量转换为输出句子。

与编码器类似，第一层 LSTM 单元的输入 来自 嵌入层。

嵌入层为西班牙语单词生成 嵌入向量，例如：

每个单词都被视为一个 标记（token），嵌入层将它们转换为 神经网络可以处理的数字。

我们将在下一篇文章中探讨 解码器如何生成输出句子的细节。

ipm install repo-name