240 字
1 分钟
Transformer 知识库索引

Transformer 深度拆解#

本系列是 机器学习笔记 · 10 - 注意力与 Transformer 的深入延续。ML 系列给出了 Transformer 的全局概览,本系列将逐组件拆解其内部原理。

章节导航#

01 - 基础与全局#

先理解语言模型要解决的问题,再俯瞰 Transformer 的整体设计。

02 - 输入表示#

文本如何变成模型能处理的向量:Token Embedding 与位置编码。

03 - 注意力机制#

Transformer 最核心的机制,从直觉理解到数学推导再到多头扩展。

04 - 架构组件#

将注意力模块拼装为完整的编码器、解码器与输出层。

05 - 训练与实现#

训练策略回顾与从零实现一个完整的 Transformer。


前置知识#

阅读本系列前,建议先完成以下内容:

Transformer 知识库索引
https://fuwari.vercel.app/posts/ai/llm/transformer/notes/00_index/
作者
OopsYanxi
发布于
2026-04-22
许可协议
CC BY-NC-SA 4.0