跳转到内容

基础 / Foundations

🧠

基础

理解 LLM 必备的核心概念

7 篇文章

36 篇论文

~56 分钟 阅读时长

推荐阅读顺序

Tokenization：模型如何看见文字

解释 token、词表、BPE 思路与工程取舍。

直觉工程研究

Attention：让每个位置选择上下文

解释注意力权重、多头注意力与自注意力。

直觉工程研究

Sampling 与 Decoding：从概率到文字

解释 temperature、top-k、top-p 与推理时的选择。

直觉工程研究

Embeddings：把离散符号放进连续空间

解释词向量、上下文表示与语义检索基础。

直觉工程研究

Transformer Architecture：现代 LLM 的骨架

解释 Transformer block、预训练范式与编码器/解码器差异。

直觉工程研究

Positional Encoding：顺序从哪里来

解释绝对位置、相对位置与 RoPE。

直觉工程研究

为什么 LLM 会涌现能力

解释规模、数据、计算与涌现现象的谨慎理解。

直觉工程研究

→ 从第一篇开始阅读