81 字
1 分钟
架构组件

04 - 架构组件#

本章内容#

笔记要点
Encoder BlockMHA + FFN + 残差连接 + LayerNorm 完整结构
Masked Self Attention因果掩码原理,解码器自注意力与交叉注意力
终端输出Linear 投影 + Softmax,解码策略(Greedy/Beam/Top-k/Top-p)

前置依赖#