NLP 任务与循环神经网络#

1. NLP 核心任务#

任务	输入→输出	典型应用
文本分类	序列→类别	情感分析、垃圾邮件
序列标注¹	序列→序列（等长）	命名实体识别²、词性标注³
序列生成	序列→序列（变长）	机器翻译、摘要生成
语言模型⁴	前缀→下一个词	GPT、文本补全

1.5 词的向量化：词嵌入#

RNN 的输入必须是向量，但词语本身是离散符号，需要先将其映射为稠密的实数向量（词嵌入）。One-hot 编码维度等于词表大小，不仅维度爆炸，还无法表达词与词之间的语义相似性。Word2Vec、GloVe 等方法通过大规模语料训练，有时候感兴趣的可以一起看一下这个东西将语义相近的词映射到相近的向量空间，使”国王”与”王后”的向量距离远近于”国王”与”苹果”。现代做法是在模型中加入可训练的 Embedding 层，词向量随整个模型端到端联合训练，无需单独预训练。

2. 为什么需要 RNN？#

类比：阅读句子”我昨天去了银行取钱”，理解”银行”的含义需要结合后面的”取钱”——这需要记忆上下文。全连接网络每次只看固定长度的输入，无法处理变长序列和长程依赖。

RNN 的核心：引入隐藏状态 $h_t$ ，在每个时间步同时接收当前输入和上一步的记忆。

3. RNN 结构#

$h_t = \tanh(W_h h_{t-1} + W_x x_t + b)$ $\hat{y}_t = \text{softmax}(W_y h_t + b_y)$

参数共享：所有时间步共用同一组 $W_h, W_x$ ，参数量与序列长度无关（对比全连接网络：处理长度100的序列需要100倍参数）
隐藏状态：充当”记忆”，将历史信息传递给下一步

1
import micropip
2
await micropip.install("numpy")  # 仅适用于 Obsidian Code Emitter (Pyodide) 环境
3
import numpy as np
4

5
def rnn_step(x_t, h_prev, Wx, Wh, b):
6
    """单步 RNN 计算"""
7
    return np.tanh(x_t @ Wx + h_prev @ Wh + b)
8

9
# 参数
10
input_size, hidden_size = 4, 8
11
Wx = np.random.randn(input_size, hidden_size) * 0.01
12
Wh = np.random.randn(hidden_size, hidden_size) * 0.01
13
b  = np.zeros(hidden_size)
14

15
# 模拟长度为5的序列
16
h = np.zeros(hidden_size)
17
for t in range(5):
18
    x_t = np.random.randn(input_size)
19
    h = rnn_step(x_t, h, Wx, Wh, b)
20

21
print("最终隐藏状态形状:", h.shape)

4. RNN 的局限#

问题	描述
梯度消失⁵	长序列中早期信息难以传递到后期
梯度爆炸⁶	梯度随时间步指数增长，训练不稳定
无法并行	必须按时间步顺序计算，训练慢

梯度消失导致 RNN 实际上只能记住最近几步的信息，对长程依赖（如段落级别的上下文）无能为力。这正是 LSTM 诞生的动机。

5. 双向 RNN（BiRNN）#

标准 RNN 只从左到右处理序列，每个位置只能看到前文。双向 RNN 同时运行两个方向的 RNN——一个从左到右，一个从右到左——再将两个方向的隐藏状态拼接，使每个位置都能同时感知前文和后文的完整上下文。这对文本分类、命名实体识别（NER）等需要全局语义的任务效果显著。但由于生成时未来的词尚不存在，BiRNN 不适用于文本生成任务。