多模态：LLM 不止于文本

大语言模型的核心能力是处理序列化的离散符号——最初是文本，现在正迅速扩展到图像、音频、视频甚至机器人控制信号。

从文本到视觉

CLIP 证明了共享的文本-图像表示空间是可行的：用对比学习让模型理解”一张猫的图片”和”猫”这个词指向同一概念。GPT-4V 和 Gemini 进一步展示了，在预训练阶段融入视觉数据后，模型可以进行图像描述、视觉问答和图文推理。

工程上，多模态 LLM 的常见架构是在文本解码器前增加一个视觉编码器（如 ViT），通过投影层把图像特征映射到文本的 embedding 空间。训练通常分阶段：先分别预训练视觉和文本编码器，再对齐，最后在多模态指令数据上微调。

跨模态输入会把上下文长度变成多种 token 的组合：

L_{\text{total}} = L_{\text{text}} + L_{\text{image}} + L_{\text{audio}}

Text tokens 1200Images 1Tokens / image 576Audio seconds 0Tokens / sec 50

L_total

1,776 tokens

Image tokens: 576 · Audio tokens: 0

Text

1,200

Image

576

Audio

语音到文本（Whisper）、文本到语音以及音乐生成，都在共享同一个趋势：用统一的 Transformer 架构处理多种模态。关键挑战在于：不同模态的序列长度、信息密度和时间尺度差异巨大。一秒钟的音频可能包含数万个采样点，而描述它的文本只需几个词。

多模态不是简单的”加一个新输入接口”，它可能重新定义我们对 LLM 能力边界和架构设计的理解。

选择一个图文或音频任务，检查它是否需要下面这些模块。

输入编码器能把原始模态变成 token 或 embedding 投影层能对齐到语言模型的隐藏空间评估指标能区分表面匹配和真实推理

参考答案

如果评估只能验证关键词匹配，就还不能证明模型真正理解了跨模态关系。