<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>深度学习 on zsai blog</title><link>https://idev.sh/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/</link><description>Recent content in 深度学习 on zsai blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 29 Jun 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://idev.sh/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml"/><item><title>Transformer 系列(一):为什么我们需要 Transformer?</title><link>https://idev.sh/posts/transformer-01-why/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-01-why/</guid><description>在认识 Transformer 之前,先搞清楚它到底解决了什么问题——RNN 时代序列建模的两大痛点:长距离依赖与无法并行。</description></item><item><title>Transformer 系列(二):注意力到底在「注意」什么?</title><link>https://idev.sh/posts/transformer-02-attention-intuition/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-02-attention-intuition/</guid><description>不上数学,先用一个图书馆检索的类比,把 Query / Key / Value 这三个核心概念讲透——注意力的本质,其实就是「按相关性加权求和」。</description></item><item><title>Transformer 系列(三):Self-Attention 的数学</title><link>https://idev.sh/posts/transformer-03-self-attention-math/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-03-self-attention-math/</guid><description>把上一篇的图书馆直觉落成精确公式:Scaled Dot-Product Attention。逐项拆解 QKV 矩阵、点积打分、为什么除以根号 dₖ,以及一个能手算的小例子。</description></item><item><title>Transformer 系列(四):多头注意力</title><link>https://idev.sh/posts/transformer-04-multi-head/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-04-multi-head/</guid><description>一个注意力只能学一种关系。多头注意力让模型并行地从多个子空间观察同一句话——拆分、并行、拼接、再投影,而总开销几乎不变。</description></item><item><title>Transformer 系列(五):位置信息从哪来?位置编码</title><link>https://idev.sh/posts/transformer-05-positional-encoding/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-05-positional-encoding/</guid><description>注意力天生「看不见」词序——「猫追狗」和「狗追猫」在它眼里几乎一样。位置编码就是把顺序重新塞回模型的办法。从正弦编码讲到现代主流 RoPE。</description></item><item><title>Transformer 系列(六):一个 Transformer Block 的全貌</title><link>https://idev.sh/posts/transformer-06-transformer-block/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-06-transformer-block/</guid><description>注意力只是积木之一。把残差连接、层归一化、前馈网络拼起来,才是一个能堆叠 N 层的 Transformer Block。逐个看清每个组件为何存在。</description></item><item><title>Transformer 系列(七):Encoder-Decoder 完整架构</title><link>https://idev.sh/posts/transformer-07-encoder-decoder/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-07-encoder-decoder/</guid><description>把 Block 拼成原版《Attention Is All You Need》的完整机器:编码器、解码器、它们之间的 cross-attention,以及不可或缺的因果掩码。</description></item><item><title>Transformer 系列(八):从 Transformer 到 GPT 与 BERT</title><link>https://idev.sh/posts/transformer-08-gpt-bert/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-08-gpt-bert/</guid><description>同一套积木,三种拼法。Encoder-only、Decoder-only、Encoder-Decoder 各自擅长什么?为什么今天的大模型几乎都是 Decoder-only?</description></item><item><title>Transformer 系列(九):训练与生成</title><link>https://idev.sh/posts/transformer-09-training-and-generation/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-09-training-and-generation/</guid><description>模型是怎么「学会」的,又是怎么一字一字「写出来」的?讲清预训练目标、teacher forcing,以及推理时的自回归与采样策略。</description></item><item><title>Transformer 系列(十):效率与现代变体</title><link>https://idev.sh/posts/transformer-10-efficiency-and-variants/</link><pubDate>Sat, 27 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-10-efficiency-and-variants/</guid><description>原版 Transformer 有两个硬伤:O(n²) 的注意力和推理时的重复计算。本篇收尾,串讲 KV Cache、FlashAttention、GQA/MQA、MoE 与长上下文。</description></item><item><title>📚 合集 · Transformer 由浅入深(全 10 篇)</title><link>https://idev.sh/posts/transformer-series/</link><pubDate>Mon, 29 Jun 2026 00:00:00 +0000</pubDate><guid>https://idev.sh/posts/transformer-series/</guid><description>一个从零开始、由浅入深理解 Transformer 的科普系列:从 RNN 的痛点出发,一路讲到注意力机制、完整架构,直到今天的 GPT 与现代大模型。共 10 篇。</description></item></channel></rss>