理解 Seq2Seq 神经网络 – 第2部分：序列输入的嵌入

发布: 1个月前 (2026年3月15日 GMT+8 05:10)

3 分钟阅读

原文: Dev.to

Source: Dev.to

Cover image for Understanding Seq2Seq Neural Networks – Part 2: Embeddings for Sequence Inputs

第 1 部分回顾

在上一篇文章中，我们介绍了序列到序列（Seq2Seq）问题，并讨论了如何处理可变长度的输入和输出。

使用 LSTM 处理可变长度序列

我们已经知道可以使用 长短期记忆（LSTM）单元 来实现这一点。
例如，给定输入句子 “Let’s go”：

将 “Let’s” 输入到 LSTM。
展开 LSTM 并将 “go” 作为第二个输入喂入。

LSTM unrolling example

序列输入的嵌入层

我们不能直接把原始单词喂入神经网络。相反，需要使用 嵌入层 将每个单词转换为 数值向量。

Embedding layer illustration

词汇表与 Token

为了保持示例简洁，我们的 Encoder‑Decoder 模型 的 英文词汇表 仅包含三个单词：

“Let’s”
“to”
“go”

它还包括 EOS（句子结束）符号。由于词汇表中混合了单词和符号，每个元素都称为 token。

为了演示，我们为每个 token 分配 两个嵌入维度（而不是通常的数百甚至上千维）。

接下来的步骤

现在我们已经为输入词汇表准备好了嵌入层，下一步是 将其连接到 LSTM。我们将在 下一篇文章 中进行探讨。

赞助：Installerpedia

想要更轻松地安装工具、库或整个代码仓库吗？
试试 Installerpedia，一个社区驱动、结构化的安装平台，让你几乎可以毫不费力、并且得到清晰可靠的指导来安装任何东西。

ipm install repo-name

Installerpedia Screenshot

🔗 在此探索 Installerpedia: https://hexmos.com/freedevtools/installerpedia/

理解 Seq2Seq 神经网络 – 第2部分：序列输入的嵌入

第 1 部分回顾

使用 LSTM 处理可变长度序列

序列输入的嵌入层

词汇表与 Token

接下来的步骤

赞助：Installerpedia

相关文章

PyTorch 可视化入门

理解神经网络中的表示学习（附 PyTorch 示例）

‘Pokémon Go’玩家在不知情的情况下用30B图像训练送货机器人

从 PDF 到 Markdown：为什么文档解析对 RAG 很重要

第 1 部分回顾

使用 LSTM 处理可变长度序列

序列输入的嵌入层

词汇表与 Token

接下来的步骤

赞助：Installerpedia

相关文章

PyTorch 可视化入门

理解神经网络中的表示学习（附 PyTorch 示例）

‘Pokémon Go’玩家在不知情的情况下用30B图像训练送货机器人

从 PDF 到 Markdown：为什么文档解析对 RAG 很重要

第 1 部分回顾