理解 Seq2Seq 神经网络 – 第5部分:解码上下文向量

发布: (2026年3月19日 GMT+8 11:12)
2 分钟阅读
原文: Dev.to

Source: Dev.to

Cover image for Understanding Seq2Seq Neural Networks – Part 5: Decoding the Context Vector

在上一篇文章中,我们停在了 上下文向量 的概念。
在本篇文章中,我们将从 解码上下文向量 开始。

连接解码器

我们首先需要做的事是 将构成上下文向量的长期记忆和短期记忆(即 cell 状态和 hidden 状态) 连接到一组新的 LSTM 上。

  • 编码器 类似,解码器也有 两层,每层包含 两个 LSTM 单元
  • 解码器中的 LSTM 拥有它们自己的 独立权重和偏置,与编码器中的不同。

使用上下文向量

上下文向量 用来 初始化解码器 LSTM 中的长期记忆和短期记忆(cell 状态和 hidden 状态)
这种初始化使得解码器 能够从输入句子中学习到的信息开始

解码器的目标

解码器 的最终目标是 将上下文向量转换为输出句子

  • 编码器 负责理解输入。
  • 解码器 根据这种理解生成输出。

解码器输入

与编码器类似,第一层 LSTM 单元的输入 来自 嵌入层

嵌入层为西班牙语单词生成 嵌入向量,例如:

  • ir
  • vamos
  • y
  • ****(句子结束符号)

每个单词都被视为一个 标记(token),嵌入层将它们转换为 神经网络可以处理的数字

我们将在下一篇文章中探讨 解码器如何生成输出句子的细节

ipm install repo-name
0 浏览
Back to Blog

相关文章

阅读更多 »