📚 合集 · Transformer 由浅入深(全 10 篇)

June 29, 2026 · 1 min

Table of Contents

🌱 阶段一 · 建立直觉(零公式)
⚙️ 阶段二 · 核心机制
🏗️ 阶段三 · 搭起完整模型
🚀 阶段四 · 走向现代 LLM

这是一个由浅入深、面向初学者的 Transformer 科普系列。不需要任何深度学习背景,我们从"为什么需要它"讲起,用大量生活类比建立直觉,再逐步深入到数学与完整架构,最后抵达今天的 GPT 与现代大模型。

🧭 新读者建议从第 1 篇按顺序读。 每篇都标注了「阅读前提」,前后衔接。

🌱 阶段一 · 建立直觉(零公式)

为什么我们需要 Transformer? —— 从 RNN 的两大痛点(长距离依赖、无法并行)讲起。
注意力到底在「注意」什么? —— 用"逛图书馆"的比喻讲透 Query / Key / Value。

⚙️ 阶段二 · 核心机制

Self-Attention 的数学 —— 逐项拆解 softmax(QKᵀ/√dₖ)V,含手算例子。
多头注意力 —— 为什么要多个"头"同时看一句话。
位置信息从哪来?位置编码 —— 从正弦编码讲到现代主流 RoPE。

🏗️ 阶段三 · 搭起完整模型

一个 Transformer Block 的全貌 —— 残差、LayerNorm、FFN 如何拼装。
Encoder-Decoder 完整架构 —— 掩码、cross-attention 与原版论文架构。

🚀 阶段四 · 走向现代 LLM

从 Transformer 到 GPT 与 BERT —— 三大流派,以及为何 Decoder-only 一统天下。
训练与生成 —— 预训练目标、teacher forcing、自回归与采样。
效率与现代变体 —— KV Cache、FlashAttention、GQA/MQA、MoE。

👉 也可以从导航栏的 「合集」 进入,或访问全部合集页浏览本系列。

准备好了吗?从第 1 篇:为什么我们需要 Transformer? 开始吧。