240 字

1 分钟

Transformer 知识库索引

2026-04-22

Transformer

/

深度学习

/

索引

Transformer 深度拆解#

本系列是机器学习笔记 · 10 - 注意力与 Transformer 的深入延续。ML 系列给出了 Transformer 的全局概览，本系列将逐组件拆解其内部原理。

章节导航#

01 - 基础与全局 #

先理解语言模型要解决的问题，再俯瞰 Transformer 的整体设计。

02 - 输入表示 #

文本如何变成模型能处理的向量：Token Embedding 与位置编码。

03 - 注意力机制 #

Transformer 最核心的机制，从直觉理解到数学推导再到多头扩展。

04 - 架构组件 #

将注意力模块拼装为完整的编码器、解码器与输出层。

05 - 训练与实现 #

训练策略回顾与从零实现一个完整的 Transformer。

前置知识#

阅读本系列前，建议先完成以下内容：

Transformer 知识库索引

https://fuwari.vercel.app/posts/ai/llm/transformer/notes/00_index/

作者

OopsYanxi

发布于

2026-04-22

许可协议

CC BY-NC-SA 4.0

深度学习知识库索引

基础与全局

Transformer 深度拆解#

章节导航#

01 - 基础与全局#

02 - 输入表示#

03 - 注意力机制#

04 - 架构组件#

05 - 训练与实现#