这是一个由浅入深、面向初学者的 Transformer 科普系列。不需要任何深度学习背景,我们从"为什么需要它"讲起,用大量生活类比建立直觉,再逐步深入到数学与完整架构,最后抵达今天的 GPT 与现代大模型。

🧭 新读者建议从第 1 篇按顺序读。 每篇都标注了「阅读前提」,前后衔接。

🌱 阶段一 · 建立直觉(零公式)

  1. 为什么我们需要 Transformer? —— 从 RNN 的两大痛点(长距离依赖、无法并行)讲起。
  2. 注意力到底在「注意」什么? —— 用"逛图书馆"的比喻讲透 Query / Key / Value。

⚙️ 阶段二 · 核心机制

  1. Self-Attention 的数学 —— 逐项拆解 softmax(QKᵀ/√dₖ)V,含手算例子。
  2. 多头注意力 —— 为什么要多个"头"同时看一句话。
  3. 位置信息从哪来?位置编码 —— 从正弦编码讲到现代主流 RoPE。

🏗️ 阶段三 · 搭起完整模型

  1. 一个 Transformer Block 的全貌 —— 残差、LayerNorm、FFN 如何拼装。
  2. Encoder-Decoder 完整架构 —— 掩码、cross-attention 与原版论文架构。

🚀 阶段四 · 走向现代 LLM

  1. 从 Transformer 到 GPT 与 BERT —— 三大流派,以及为何 Decoder-only 一统天下。
  2. 训练与生成 —— 预训练目标、teacher forcing、自回归与采样。
  3. 效率与现代变体 —— KV Cache、FlashAttention、GQA/MQA、MoE。

👉 也可以从导航栏的 「合集」 进入,或访问 全部合集页 浏览本系列。

准备好了吗?从 第 1 篇:为什么我们需要 Transformer? 开始吧。