Transformer Architecture:现代 LLM 的骨架
直觉版:重复堆叠的语言处理层
Section titled “直觉版:重复堆叠的语言处理层”Transformer 可以看作很多相似积木层的堆叠。每层先让 token 通过注意力交换信息,再通过前馈网络做非线性变换,并用残差连接和归一化保持训练稳定。层数越多,模型越能组合局部线索、长程依赖和抽象概念。
BERT 展示了双向编码器在理解任务上的力量;GPT-2 展示了只看左侧上下文的解码器也能通过下一个 token 预测学到广泛能力。今天的生成式 LLM 大多沿用解码器式 Transformer。
工程版:block 内部的关键路径
Section titled “工程版:block 内部的关键路径”一个典型 decoder block 包含 RMSNorm/LayerNorm、因果自注意力、MLP、残差连接。因果 mask 保证第 t 个位置只能看见过去 token,从而匹配自回归生成。MLP 往往占据大量参数和计算,注意力则决定上下文交互成本。
架构变体会调整归一化位置、激活函数、注意力头数、KV 头共享、RoPE、MoE 或上下文扩展方法。选型时要同时看训练稳定性、推理吞吐、显存、KV cache 大小和生态支持,而不是只比较参数量。
本文引用论文
- Attention Is All You Need
Transformer 架构的奠基之作。作者完全用注意力机制替代了 RNN/CNN,提出多头自注意力与位置编码, 在机器翻译任务上大幅超越此前所有模型。今天所有主流 LLM 的底层架构都源于此论文。
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT 用掩码语言模型(MLM)和下一句预测(NSP)在大规模文本上预训练双向 Transformer, 然后通过微调适配下游任务。BERT 一举刷新了 11 项 NLP 基准,确立了"预训练+微调"的现代 NLP 范式,是 GPT 系列和后续模型的主要竞争对手。
- Language Models are Unsupervised Multitask Learners
GPT-2 展示了一个仅在未标注网络文本上训练的 15 亿参数语言模型,能在无任何微调的情况下 以零样本方式完成多种语言任务。这挑战了"NLP 任务必须任务专属训练"的传统观念, 也因担心被滥用而成为第一个"延迟发布"的 AI 模型。