985 字

5 分钟

经典 CNN 模型与残差网络

2026-04-21

Deep Learning

深度学习

/

CNN

/

ResNet

/

计算机视觉

经典 CNN 模型与残差网络#

1. CNN 发展历程#

2. AlexNet：深度学习复兴的起点#

2012 年 ImageNet¹ 竞赛，AlexNet 以大幅领先的成绩震惊学界，开启深度学习时代。

关键创新：

首次大规模使用 ReLU 激活函数（替代 Sigmoid）
使用 Dropout² 防止过拟合
GPU 并行训练

3. VGGNet：简洁即美#

核心思想：用多个 3×3 小卷积核堆叠替代大卷积核。两个 3×3 卷积的感受野等于一个 5×5，但参数更少、非线性更强。

配置	参数量	Top-5 错误率³
VGG-16	138M	7.3%
VGG-19	144M	7.3%

3.5 GoogLeNet：多尺度并行#

GoogLeNet（2014）引入了 Inception 模块，核心思想是在同一层中同时使用 1×1、3×3、5×5 三种卷积核并行提取不同尺度的特征，再将结果在通道维度拼接。其中 1×1 卷积还承担降维作用，大幅减少计算量。这种”宽而非深”的设计让网络在保持较低参数量的同时获得了丰富的多尺度表示能力。

4. ResNet：残差连接解决深度瓶颈#

4.1 问题：深层网络退化#

更深的网络理论上应该更强——更多层意味着更强的表达能力，能学习更复杂的特征。但实验发现，56 层网络的训练误差竟然比 20 层更高，这不是过拟合⁴，而是优化困难：梯度消失使得深层网络难以训练。

4.2 残差块#

$\mathbf{y} = F(\mathbf{x}, W) + \mathbf{x}$

为什么有效：

网络只需学习残差 $F(x) = H(x) - x$ ，而非完整映射 $H(x)$
跳跃连接为梯度提供”高速公路”，梯度可直接传回早期层
即使 $F(x)$ 退化为零，网络至少保持恒等映射，不会变差

1
import micropip
2
await micropip.install("torch")
3
import torch
4
import torch.nn as nn
5

6
class ResidualBlock(nn.Module):
7
    def __init__(self, channels):
8
        super().__init__()
9
        self.block = nn.Sequential(
10
            nn.Conv2d(channels, channels, 3, padding=1, bias=False),
11
            nn.BatchNorm2d(channels),
12
            nn.ReLU(inplace=True),
13
            nn.Conv2d(channels, channels, 3, padding=1, bias=False),
14
            nn.BatchNorm2d(channels),
15
        )
16
        self.relu = nn.ReLU(inplace=True)
17

18
    def forward(self, x):
19
        return self.relu(self.block(x) + x)   # 残差连接
20

21
block = ResidualBlock(64)
22
x = torch.randn(2, 64, 32, 32)
23
print("输出形状:", block(x).shape)             # (2, 64, 32, 32) 形状不变

5. 各模型对比#

模型	年份	深度	参数量	特点
LeNet-5	1998	7	60K	开山之作
AlexNet	2012	8	60M	ReLU、Dropout、GPU
VGG-16	2014	16	138M	统一小卷积核
ResNet-50	2015	50	25M	残差连接，参数反而少
ResNet-152	2015	152	60M	极深网络首次可训练

ResNet-50 参数量仅 25M，却比 VGG-16（138M）更深、更准——残差连接让参数利用率大幅提升。

此后的现代架构在残差思想基础上继续演进：EfficientNet（2019）通过复合缩放同时调整网络的深度、宽度与分辨率，以更少参数达到更高精度；ConvNeXt（2022）则借鉴 Transformer 设计理念对纯卷积网络进行现代化改造，在多项视觉任务上与 Vision Transformer 持平。