240 字
1 分钟
Transformer 知识库索引
Transformer 深度拆解
本系列是 机器学习笔记 · 10 - 注意力与 Transformer 的深入延续。ML 系列给出了 Transformer 的全局概览,本系列将逐组件拆解其内部原理。
章节导航
01 - 基础与全局
先理解语言模型要解决的问题,再俯瞰 Transformer 的整体设计。
02 - 输入表示
文本如何变成模型能处理的向量:Token Embedding 与位置编码。
03 - 注意力机制
Transformer 最核心的机制,从直觉理解到数学推导再到多头扩展。
04 - 架构组件
将注意力模块拼装为完整的编码器、解码器与输出层。
05 - 训练与实现
训练策略回顾与从零实现一个完整的 Transformer。
前置知识
阅读本系列前,建议先完成以下内容:
Transformer 知识库索引
https://fuwari.vercel.app/posts/ai/llm/transformer/notes/00_index/