Flamingo: a Visual Language Model for Few-Shot Learning

作者： Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan (2022)

arXiv： 2204.14198

领域

多模态

TLDR（中文）

用 Perceiver Resampler 把图像特征接到冻结的 LLM 上做 few-shot 视觉问答。是"插件式多模态"主流路线（LLaVA、IDEFICS 等）的鼻祖。

TLDR (English)

Uses Perceiver Resampler to connect image features to frozen LLM for few-shot visual QA. Ancestor of mainstream "plug-in multimodal" approach (LLaVA, IDEFICS, etc.).

Flamingo: a Visual Language Model for Few-Shot Learning

领域

TLDR（中文）

TLDR (English)

相关论文