理解 Seq2Seq 神经网络 – 第2部分:序列输入的嵌入
Source: Dev.to

第 1 部分回顾
在上一篇文章中,我们介绍了序列到序列(Seq2Seq)问题,并讨论了如何处理可变长度的输入和输出。
使用 LSTM 处理可变长度序列
我们已经知道可以使用 长短期记忆(LSTM)单元 来实现这一点。
例如,给定输入句子 “Let’s go”:
- 将 “Let’s” 输入到 LSTM。
- 展开 LSTM 并将 “go” 作为第二个输入喂入。

序列输入的嵌入层
我们不能直接把原始单词喂入神经网络。相反,需要使用 嵌入层 将每个单词转换为 数值向量。

词汇表与 Token
为了保持示例简洁,我们的 Encoder‑Decoder 模型 的 英文词汇表 仅包含三个单词:
- “Let’s”
- “to”
- “go”
它还包括 EOS(句子结束)符号。由于词汇表中混合了单词和符号,每个元素都称为 token。
为了演示,我们为每个 token 分配 两个嵌入维度(而不是通常的数百甚至上千维)。
接下来的步骤
现在我们已经为输入词汇表准备好了嵌入层,下一步是 将其连接到 LSTM。我们将在 下一篇文章 中进行探讨。
赞助:Installerpedia
想要更轻松地安装工具、库或整个代码仓库吗?
试试 Installerpedia,一个社区驱动、结构化的安装平台,让你几乎可以毫不费力、并且得到清晰可靠的指导来安装任何东西。
ipm install repo-name
🔗 在此探索 Installerpedia: https://hexmos.com/freedevtools/installerpedia/