LLM 的开放问题（2026）

LLM 发展迅猛，但许多根本问题仍待解答。以下是 LLM Primer 关注的核心开放问题：

理解与推理

模型是否真正”理解”了语言和世界，还是在进行复杂的模式匹配？Chain-of-Thought 提升了推理表现，但它反映的是真正的逐步推理，还是只是学会了生成符合预期的推理格式？

Scaling Law 是否会持续？是否存在某个规模阈值之后收益递减？我们能否用更小的模型、更好的数据和算法，达到大模型的能力？

一个简化视角是把能力看成数据、计算和对齐共同作用的结果：

\text{capability} \approx f(\text{data}, \text{compute}, \text{alignment})

RLHF 和 DPO 是否真正改变了模型的内在目标，还是只是表面行为的抑制？如何保证对齐在面对未知攻击时的泛化能力？

视觉、音频和文本的融合是否会让模型获得”物理直觉”？代码生成是否是检验真实推理能力的最佳试金石？

当模型能力接近或超过人类时，谁来评判？现有基准是否已被”刷分”？如何设计不易被操纵的评估体系？

这些问题没有简单答案，但正是它们驱动着 LLM Primer 持续更新。我们欢迎社区贡献：提出新问题、补充证据、修正过时观点。

选择一个开放问题，检查它是否已经足够具体。

能写出可观察的输入和输出能找到至少一个基线或对照组能说明失败结果也会带来什么信息

参考答案

满足这三项后，它就更接近可执行的研究计划，而不是泛泛的问题清单。