深度学习 on zsai blog

深度学习 on zsai bloghttps://idev.sh/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/Recent content in 深度学习 on zsai blogHugozh-cnMon, 29 Jun 2026 00:00:00 +0000Transformer 系列(一):为什么我们需要 Transformer?https://idev.sh/posts/transformer-01-why/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-01-why/在认识 Transformer 之前,先搞清楚它到底解决了什么问题——RNN 时代序列建模的两大痛点:长距离依赖与无法并行。Transformer 系列(二):注意力到底在「注意」什么?https://idev.sh/posts/transformer-02-attention-intuition/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-02-attention-intuition/不上数学,先用一个图书馆检索的类比,把 Query / Key / Value 这三个核心概念讲透——注意力的本质,其实就是「按相关性加权求和」。Transformer 系列(三):Self-Attention 的数学https://idev.sh/posts/transformer-03-self-attention-math/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-03-self-attention-math/把上一篇的图书馆直觉落成精确公式:Scaled Dot-Product Attention。逐项拆解 QKV 矩阵、点积打分、为什么除以根号 dₖ,以及一个能手算的小例子。Transformer 系列(四):多头注意力https://idev.sh/posts/transformer-04-multi-head/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-04-multi-head/一个注意力只能学一种关系。多头注意力让模型并行地从多个子空间观察同一句话——拆分、并行、拼接、再投影,而总开销几乎不变。Transformer 系列(五):位置信息从哪来?位置编码https://idev.sh/posts/transformer-05-positional-encoding/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-05-positional-encoding/注意力天生「看不见」词序——「猫追狗」和「狗追猫」在它眼里几乎一样。位置编码就是把顺序重新塞回模型的办法。从正弦编码讲到现代主流 RoPE。Transformer 系列(六):一个 Transformer Block 的全貌https://idev.sh/posts/transformer-06-transformer-block/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-06-transformer-block/注意力只是积木之一。把残差连接、层归一化、前馈网络拼起来,才是一个能堆叠 N 层的 Transformer Block。逐个看清每个组件为何存在。Transformer 系列(七):Encoder-Decoder 完整架构https://idev.sh/posts/transformer-07-encoder-decoder/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-07-encoder-decoder/把 Block 拼成原版《Attention Is All You Need》的完整机器:编码器、解码器、它们之间的 cross-attention,以及不可或缺的因果掩码。Transformer 系列(八):从 Transformer 到 GPT 与 BERThttps://idev.sh/posts/transformer-08-gpt-bert/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-08-gpt-bert/同一套积木,三种拼法。Encoder-only、Decoder-only、Encoder-Decoder 各自擅长什么?为什么今天的大模型几乎都是 Decoder-only?Transformer 系列(九):训练与生成https://idev.sh/posts/transformer-09-training-and-generation/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-09-training-and-generation/模型是怎么「学会」的,又是怎么一字一字「写出来」的?讲清预训练目标、teacher forcing,以及推理时的自回归与采样策略。Transformer 系列(十):效率与现代变体https://idev.sh/posts/transformer-10-efficiency-and-variants/Sat, 27 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-10-efficiency-and-variants/原版 Transformer 有两个硬伤:O(n²) 的注意力和推理时的重复计算。本篇收尾,串讲 KV Cache、FlashAttention、GQA/MQA、MoE 与长上下文。📚 合集 · Transformer 由浅入深(全 10 篇)https://idev.sh/posts/transformer-series/Mon, 29 Jun 2026 00:00:00 +0000https://idev.sh/posts/transformer-series/一个从零开始、由浅入深理解 Transformer 的科普系列:从 RNN 的痛点出发,一路讲到注意力机制、完整架构,直到今天的 GPT 与现代大模型。共 10 篇。