1288 字

6 分钟

激活函数、批量归一化与参数初始化

2026-04-21

Deep Learning

深度学习

/

激活函数

/

Batch Normalization

/

参数初始化

激活函数、批量归一化与参数初始化#

1. 激活函数全景#

激活函数的核心作用：引入非线性，让网络能拟合复杂函数。

1.1 各激活函数对比#

函数	公式	导数范围	优点	缺点
Sigmoid	$\frac{1}{1+e^{-z}}$	(0, 0.25]	输出概率	梯度消失，非零中心
Tanh	$\frac{e^z-e^{-z}}{e^z+e^{-z}}$	(0, 1]	零中心化	仍有梯度消失
ReLU	$\max(0,z)$	{0, 1}	计算快，无梯度消失	神经元死亡¹
Leaky ReLU	$\max(0.01z, z)$	{0.01, 1}	解决死亡问题	超参数 α 需调
GELU²	$z\cdot\Phi(z)$	平滑近似	Transformer 标配	计算略慢

1
import micropip
2
await micropip.install(["numpy", "matplotlib"])
3
import numpy as np
4
import matplotlib.pyplot as plt
5

6
z = np.linspace(-4, 4, 200)
7

8
# 各激活函数
9
funcs = {
10
    'Sigmoid': 1 / (1 + np.exp(-z)),
11
    'Tanh': np.tanh(z),
12
    'ReLU': np.maximum(0, z),
13
    'Leaky ReLU': np.where(z > 0, z, 0.01 * z),
14
    'GELU': z * 0.5 * (1 + np.tanh(np.sqrt(2/np.pi) * (z + 0.044715 * z**3))),
15
}
16

17
plt.figure(figsize=(10, 4))
18
for name, y in funcs.items():
19
    plt.plot(z, y, label=name)
20
plt.axhline(0, color='k', linewidth=0.5)
21
plt.axvline(0, color='k', linewidth=0.5)
22
plt.ylim(-2, 3)
23
plt.legend()
24
plt.title('激活函数对比')
25
plt.grid(True, alpha=0.3)
26
plt.tight_layout()
27
plt.show()

2. 批量归一化（Batch Normalization）#

2.1 为什么需要 BatchNorm？#

类比：每层网络的输入分布会随着前一层参数更新而不断漂移，就像流水线上的零件规格一直在变——BatchNorm 就是在每道工序前加一个”质检校准”，把输入强制拉回标准规格。

这种分布漂移被称为内部协变量偏移³（Internal Covariate Shift）。

2.2 计算过程#

对一个 mini-batch $\{x_1, \ldots, x_m\}$ ：

$\mu_B = \frac{1}{m}\sum x_i, \quad \sigma_B^2 = \frac{1}{m}\sum(x_i-\mu_B)^2$

$\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}, \quad y_i = \gamma\hat{x}_i + \beta$

$\gamma, \beta$ ：可学习参数，恢复网络的表达能力
$\epsilon$ ：防止除零的极小值（如 1e-5）

1
import micropip
2
await micropip.install("numpy")  # 仅适用于 Obsidian Code Emitter (Pyodide) 环境
3
import numpy as np
4

5
def batch_norm_forward(X, gamma, beta, eps=1e-5):
6
    """
7
    X: (batch_size, features)
8
    gamma, beta: 可学习缩放/平移参数，形状 (features,)
9
    """
10
    mu = X.mean(axis=0)                        # 批次均值
11
    var = X.var(axis=0)                        # 批次方差
12
    X_norm = (X - mu) / np.sqrt(var + eps)    # 标准化
13
    out = gamma * X_norm + beta               # 缩放平移
14
    cache = (X, X_norm, mu, var, gamma, eps)
15
    return out, cache
16

17
# 示例
18
np.random.seed(0)
19
X = np.random.randn(32, 16) * 5 + 3          # 均值3，标准差5的输入
20
gamma = np.ones(16)
21
beta = np.zeros(16)
22

23
out, _ = batch_norm_forward(X, gamma, beta)
24
print(f"输入: 均值={X.mean():.2f}, 标准差={X.std():.2f}")
25
print(f"输出: 均值={out.mean():.4f}, 标准差={out.std():.4f}")

注意：推理⁴时不能用当前 batch 的统计量，而要用训练时积累的滑动平均⁵均值和方差。

2.3 BatchNorm 的额外好处#

轻微正则化效果（减少对 Dropout 的依赖）
允许使用更大的学习率，加速收敛
降低对权重初始化的敏感性

3. 权重初始化策略#

3.1 为什么初始化很重要？#

全零初始化：所有神经元梯度相同，网络退化为单神经元（对称性问题⁶）
过大初始化：激活值饱和，梯度消失
过小初始化：信号逐层衰减，同样导致梯度消失

3.2 主流初始化方法#

方法	适用激活函数	标准差公式
Xavier / Glorot	Sigmoid / Tanh	$\sqrt{\frac{2}{n_{in}+n_{out}}}$
He 初始化	ReLU 系列	$\sqrt{\frac{2}{n_{in}}}$
LeCun 初始化	SELU	$\sqrt{\frac{1}{n_{in}}}$

1
import micropip
2
await micropip.install("numpy")
3
import numpy as np
4

5
def xavier_init(n_in, n_out):
6
    std = np.sqrt(2.0 / (n_in + n_out))
7
    return np.random.randn(n_in, n_out) * std
8

9
def he_init(n_in, n_out):
10
    std = np.sqrt(2.0 / n_in)
11
    return np.random.randn(n_in, n_out) * std
12

13
# 模拟10层网络，观察激活值方差变化
14
def simulate_forward(init_fn, activation, n_layers=10, n=256):
15
    x = np.random.randn(128, n)  # 输入
16
    for _ in range(n_layers):
17
        W = init_fn(n, n)
18
        x = activation(x @ W)
19
    return x
20

21
relu = lambda x: np.maximum(0, x)
22

23
x_xavier = simulate_forward(xavier_init, relu)
24
x_he = simulate_forward(he_init, relu)
25

26
print(f"Xavier + ReLU: 第10层激活方差 = {x_xavier.var():.4f}")
27
print(f"He     + ReLU: 第10层激活方差 = {x_he.var():.4f}")
28
# He 初始化能保持方差稳定，Xavier 在 ReLU 下会逐层衰减