这是一个由浅入深、面向初学者的 Transformer 科普系列。不需要任何深度学习背景,我们从"为什么需要它"讲起,用大量生活类比建立直觉,再逐步深入到数学与完整架构,最后抵达今天的 GPT 与现代大模型。
🧭 新读者建议从第 1 篇按顺序读。 每篇都标注了「阅读前提」,前后衔接。
🌱 阶段一 · 建立直觉(零公式)
- 为什么我们需要 Transformer? —— 从 RNN 的两大痛点(长距离依赖、无法并行)讲起。
- 注意力到底在「注意」什么? —— 用"逛图书馆"的比喻讲透 Query / Key / Value。
⚙️ 阶段二 · 核心机制
- Self-Attention 的数学 —— 逐项拆解
softmax(QKᵀ/√dₖ)V,含手算例子。 - 多头注意力 —— 为什么要多个"头"同时看一句话。
- 位置信息从哪来?位置编码 —— 从正弦编码讲到现代主流 RoPE。
🏗️ 阶段三 · 搭起完整模型
- 一个 Transformer Block 的全貌 —— 残差、LayerNorm、FFN 如何拼装。
- Encoder-Decoder 完整架构 —— 掩码、cross-attention 与原版论文架构。
🚀 阶段四 · 走向现代 LLM
- 从 Transformer 到 GPT 与 BERT —— 三大流派,以及为何 Decoder-only 一统天下。
- 训练与生成 —— 预训练目标、teacher forcing、自回归与采样。
- 效率与现代变体 —— KV Cache、FlashAttention、GQA/MQA、MoE。
👉 也可以从导航栏的 「合集」 进入,或访问 全部合集页 浏览本系列。
准备好了吗?从 第 1 篇:为什么我们需要 Transformer? 开始吧。