Transformer 系列(八):从 Transformer 到 GPT 与 BERT

同一套积木,三种拼法。Encoder-only、Decoder-only、Encoder-Decoder 各自擅长什么?为什么今天的大模型几乎都是 Decoder-only?

June 27, 2026 · 2 min