Token Embedding
分词策略与词嵌入矩阵:文本如何变成向量
1153 字
|
6 分钟
位置编码
为什么 Transformer 需要位置编码,正弦编码推导与现代方案
1333 字
|
7 分钟
理解 Self Attention
用直觉类比理解 Self-Attention 的核心思想与 Q/K/V 机制
997 字
|
5 分钟
Self Attention 计算
Scaled Dot-Product Attention 的完整数学推导、数值实例与代码实现
1180 字
|
6 分钟
多头注意力
Multi-Head Attention 的原理、参数量分析与代码实现
984 字
|
5 分钟
Transformer 代码实现
从零用 PyTorch 实现完整的 Transformer 模型
1549 字
|
8 分钟
Transformer 总结与训练
Transformer 全链路回顾、训练策略与关键技巧
1238 字
|
6 分钟
Encoder Block
Transformer 编码器块的完整结构:多头注意力 + FFN + 残差连接 + LayerNorm
1169 字
|
6 分钟