新增训练、推理与应用模块

LLM Primer 最初从基础概念出发，覆盖了 Tokenization、Attention、Transformer 等核心主题。随着内容沉淀，我们将知识库扩展到三个新模块：

训练 / Training

训练成本经常可以先用近似关系建立直觉：

C \approx 6ND

其中 $N$ 是参数量， $D$ 是训练 token 数， $C$ 是训练计算量。

每篇文章都延续 LLM Primer 的三档阅读设计：直觉版先建立概念，工程版讨论实现取舍，研究版追踪开放问题。欢迎通过 PR 补充内容、修正错误或认领 inbox 中的候选论文。

根据当前学习目标，勾选你最需要优先阅读的方向。

需要理解模型如何训练需要降低推理成本或延迟需要把模型接入真实应用流程

参考答案

训练对应 Training，成本和延迟对应 Inference，业务集成对应 Applications。