编码器解码器与注意力机制#

1. Seq2Seq¹ 与编码器-解码器架构#

类比：机器翻译就像一个翻译官——先把整句中文”消化理解”（编码器），再用目标语言”重新表达”（解码器）。

瓶颈问题：无论输入多长，编码器都要把所有信息压缩进一个固定长度的向量 $C$ ——长句子信息必然丢失。

2. 注意力机制（Attention）#

类比：翻译”学习”这个词时，翻译官不需要重新读整篇文章，只需把目光集中在”学习”附近——这就是注意力。

2.1 计算过程#

对解码器在时间步 $t$ 的隐藏状态 $s_t$ ，计算它与编码器每个位置 $h_i$ 的相关性：

$e_{ti} = \text{score}(s_t, h_i), \quad \alpha_{ti} = \frac{\exp(e_{ti})}{\sum_j \exp(e_{tj})}$

$c_t = \sum_i \alpha_{ti} h_i \quad \text{（加权上下文向量）}$

$\alpha_{ti}$ ：注意力权重，表示解码第 $t$ 步时对编码位置 $i$ 的关注程度
$c_t$ ：动态上下文向量，每步不同（解决了固定向量瓶颈）

1
import micropip
2
await micropip.install("numpy")  # 仅适用于 Obsidian Code Emitter (Pyodide) 环境
3
import numpy as np
4

5
def attention(query, keys, values):
6
    """
7
    query: 解码器当前状态 (d,)
8
    keys:  编码器所有隐藏状态 (T, d)
9
    values: 同 keys（简化版，keys=values）
10
    """
11
    # 计算相似度得分（点积）
12
    scores = keys @ query                          # (T,)
13
    # Softmax 归一化得到注意力权重
14
    weights = np.exp(scores - scores.max())
15
    weights /= weights.sum()                       # (T,)
16
    # 加权求和得到上下文向量
17
    context = weights @ values                     # (d,)
18
    return context, weights
19

20
# 示例：5个编码位置，隐藏维度8
21
T, d = 5, 8
22
keys = np.random.randn(T, d)
23
query = np.random.randn(d)
24
context, weights = attention(query, keys, keys)
25

26
print("注意力权重:", np.round(weights, 3))         # 和为1
27
print("上下文向量形状:", context.shape)

2.2 两种常见打分函数#

Bahdanau（加性注意力）用一个小型神经网络计算 score，即 $\text{score}(s, h) = v^\top \tanh(W_1 s + W_2 h)$ 。Luong（点积注意力）直接用向量点积计算 score，即 $\text{score}(s, h) = s^\top h$ ，计算更快。Transformer 采用的缩放点积注意力是 Luong 的变体，额外除以 $\sqrt{d_k}$ 以稳定梯度。

3. Self-Attention（自注意力）#

普通 Attention 解决了 Seq2Seq 的固定向量瓶颈，但仍依赖 RNN——无法并行、长程依赖仍然困难。Self-Attention 的改进是：不再需要 RNN，序列中每个位置直接对自身序列内所有位置计算注意力，一次性捕捉全局依赖。

3.1 Q、K、V 三元组²#

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

1
import micropip
2
await micropip.install("numpy")  # 仅适用于 Obsidian Code Emitter (Pyodide) 环境
3
import numpy as np
4

5
def scaled_dot_product_attention(Q, K, V):
6
    """
7
    Q, K, V: (seq_len, d_k)
8
    """
9
    d_k = Q.shape[-1]
10
    scores = Q @ K.T / np.sqrt(d_k)               # 缩放防止梯度消失
11
    weights = np.exp(scores - scores.max(axis=-1, keepdims=True))
12
    weights /= weights.sum(axis=-1, keepdims=True) # softmax
13
    return weights @ V, weights
14

15
seq_len, d_k = 6, 32
16
Q = np.random.randn(seq_len, d_k)
17
K = np.random.randn(seq_len, d_k)
18
V = np.random.randn(seq_len, d_k)
19

20
output, attn_weights = scaled_dot_product_attention(Q, K, V)
21
print("输出形状:", output.shape)                   # (6, 32)
22
print("注意力矩阵形状:", attn_weights.shape)       # (6, 6)

为什么除以 $\sqrt{d_k}$ ：当 $d_k$ 较大时，点积结果方差大，Softmax 会进入饱和区³导致梯度消失。除以 $\sqrt{d_k}$ 将方差稳定在 1 附近。

编码器解码器与注意力机制#

1. Seq2Seq1 与编码器-解码器架构#

2. 注意力机制（Attention）#

2.1 计算过程#

2.2 两种常见打分函数#

3. Self-Attention（自注意力）#

3.1 Q、K、V 三元组2#

相关笔记#

Footnotes#

1. Seq2Seq¹ 与编码器-解码器架构#

3.1 Q、K、V 三元组²#