跳转到内容

多模态:LLM 不止于文本

大语言模型的核心能力是处理序列化的离散符号——最初是文本,现在正迅速扩展到图像、音频、视频甚至机器人控制信号。

CLIP 证明了共享的文本-图像表示空间是可行的:用对比学习让模型理解”一张猫的图片”和”猫”这个词指向同一概念。GPT-4V 和 Gemini 进一步展示了,在预训练阶段融入视觉数据后,模型可以进行图像描述、视觉问答和图文推理。

工程上,多模态 LLM 的常见架构是在文本解码器前增加一个视觉编码器(如 ViT),通过投影层把图像特征映射到文本的 embedding 空间。训练通常分阶段:先分别预训练视觉和文本编码器,再对齐,最后在多模态指令数据上微调。

语音到文本(Whisper)、文本到语音以及音乐生成,都在共享同一个趋势:用统一的 Transformer 架构处理多种模态。关键挑战在于:不同模态的序列长度、信息密度和时间尺度差异巨大。一秒钟的音频可能包含数万个采样点,而描述它的文本只需几个词。

  • 模态对齐:视觉 token 和文本 token 是否真的在”同一空间”中运算?还是只是被迫共享注意力机制的投影?
  • 世界模型:多模态是否是通向物理世界理解的路径?视频预测、机器人控制和因果推理能否在统一框架中学习?
  • 评估困境:如何公正地评估多模态模型的”理解”?现有基准往往只测表面关联,而非深层推理。

多模态不是简单的”加一个新输入接口”,它可能重新定义我们对 LLM 能力边界和架构设计的理解。