95 字
1 分钟
注意力机制

03 - 注意力机制#

本章内容#

笔记要点
理解 Self AttentionQ/K/V 直觉类比,与 RNN/CNN 的对比,为什么能捕捉长程依赖
Self Attention 计算Scaled Dot-Product 公式推导,数值实例,代码实现
多头注意力多表示子空间,Split→Attend→Concat→Project,参数量分析

前置依赖#

注意力机制
https://fuwari.vercel.app/posts/ai/llm/transformer/notes/03_attention/00_index/
作者
OopsYanxi
发布于
2026-04-22
许可协议
CC BY-NC-SA 4.0