95 字
1 分钟
注意力机制
03 - 注意力机制
本章内容
| 笔记 | 要点 |
|---|---|
| 理解 Self Attention | Q/K/V 直觉类比,与 RNN/CNN 的对比,为什么能捕捉长程依赖 |
| Self Attention 计算 | Scaled Dot-Product 公式推导,数值实例,代码实现 |
| 多头注意力 | 多表示子空间,Split→Attend→Concat→Project,参数量分析 |
前置依赖
- Transformer 整体架构 — 知道注意力在全局中的位置
| 笔记 | 要点 |
|---|---|
| 理解 Self Attention | Q/K/V 直觉类比,与 RNN/CNN 的对比,为什么能捕捉长程依赖 |
| Self Attention 计算 | Scaled Dot-Product 公式推导,数值实例,代码实现 |
| 多头注意力 | 多表示子空间,Split→Attend→Concat→Project,参数量分析 |