OopsYanxi - Blog Site

Token Embedding

2026-04-22

Transformer

/

Embedding

/

分词

/

BPE

分词策略与词嵌入矩阵：文本如何变成向量

1153 字

|

6 分钟

2026-04-22

Transformer

/

Positional Encoding

/

RoPE

/

位置编码

为什么 Transformer 需要位置编码，正弦编码推导与现代方案

1333 字

|

7 分钟

理解 Self Attention

2026-04-22

Transformer

/

Self Attention

/

注意力机制

用直觉类比理解 Self-Attention 的核心思想与 Q/K/V 机制

997 字

|

5 分钟

Self Attention 计算

2026-04-22

Transformer

/

Self Attention

/

Scaled Dot-Product

/

注意力计算

Scaled Dot-Product Attention 的完整数学推导、数值实例与代码实现

1180 字

|

6 分钟

多头注意力

2026-04-22

Transformer

/

Multi-Head Attention

/

多头注意力

Multi-Head Attention 的原理、参数量分析与代码实现

984 字

|

5 分钟

Transformer 代码实现

2026-04-22

Transformer

/

PyTorch

/

代码实现

/

从零实现

从零用 PyTorch 实现完整的 Transformer 模型

1549 字

|

8 分钟

Transformer 总结与训练

2026-04-22

Transformer

/

训练

/

Teacher Forcing

/

Warmup

/

Label Smoothing

Transformer 全链路回顾、训练策略与关键技巧

1238 字

|

6 分钟

2026-04-22

Transformer

/

Encoder

/

FFN

/

LayerNorm

/

残差连接

Transformer 编码器块的完整结构：多头注意力 + FFN + 残差连接 + LayerNorm

1169 字

|

6 分钟

1 2 3

4

5 6 9