深度学习 | zsai blog

Transformer 系列(一):为什么我们需要 Transformer?

在认识 Transformer 之前,先搞清楚它到底解决了什么问题——RNN 时代序列建模的两大痛点:长距离依赖与无法并行。

不上数学,先用一个图书馆检索的类比,把 Query / Key / Value 这三个核心概念讲透——注意力的本质,其实就是「按相关性加权求和」。

把上一篇的图书馆直觉落成精确公式:Scaled Dot-Product Attention。逐项拆解 QKV 矩阵、点积打分、为什么除以根号 dₖ,以及一个能手算的小例子。

一个注意力只能学一种关系。多头注意力让模型并行地从多个子空间观察同一句话——拆分、并行、拼接、再投影,而总开销几乎不变。

注意力天生「看不见」词序——「猫追狗」和「狗追猫」在它眼里几乎一样。位置编码就是把顺序重新塞回模型的办法。从正弦编码讲到现代主流 RoPE。

注意力只是积木之一。把残差连接、层归一化、前馈网络拼起来,才是一个能堆叠 N 层的 Transformer Block。逐个看清每个组件为何存在。

把 Block 拼成原版《Attention Is All You Need》的完整机器:编码器、解码器、它们之间的 cross-attention,以及不可或缺的因果掩码。

同一套积木,三种拼法。Encoder-only、Decoder-only、Encoder-Decoder 各自擅长什么?为什么今天的大模型几乎都是 Decoder-only?

模型是怎么「学会」的,又是怎么一字一字「写出来」的?讲清预训练目标、teacher forcing,以及推理时的自回归与采样策略。

原版 Transformer 有两个硬伤:O(n²) 的注意力和推理时的重复计算。本篇收尾,串讲 KV Cache、FlashAttention、GQA/MQA、MoE 与长上下文。