Multi-Modal Foundation Models⚓︎

约 3301 个字预计阅读时间 17 分钟

前面提到的模型大都是针对某一特定任务的专用(specialized) 模型。而本讲会重点关注基座模型(foundation models)：一种经过预训练的模型，作为多种不同任务的基座。

例子：语言模型（GPT）

判断一个模型是否是基座模型的方法：

基座模型始终具有的特点：在多种不同任务中表现出通用性 / 鲁棒性
常见于基座模型的特点：参数量很大、数据量很大，以及自监督的预训练目标

基座模型有很多，我们将其划分为多个类别：

其中语言模型超出了我们的讨论范围。下面只专注于讨论多模态(multimodal)（视觉）的基座模型（标绿的模型）。

Classification⚓︎

CLIP⚓︎

回忆 SimCLR 的自监督目标：

使用自监督学习习得图像特征
使用监督学习，在这些特征上训练小型分类器

可以看到，主要思路是在没有标签的情况下学习概念（即自监督学习的目标）。

我们希望习得的表征 (representation) 能够泛化到新的实例上。进一步地，我们甚至想将表征泛化到图像之外的形式，比如语言。于是像句子、短语之类的东西也可以嵌入到表征空间中。

如图所示，带有 "cat" 的句子的表征离猫的图片对应的表征更接近，带有 "dog" 的句子的表征离狗的图片对应的表征更接近。

CLIP 模型正是这样一种结合了图像和文本的模型。它有一个图像编码器(image encoder) 和文本编码器(text encoder)，分别输出图像和文本的表征（向量）。每个图像都对应一个文本描述，因此一个图像表征应当只和其中一个文本表征很接近（图中绿色线段），并且远离其他文本表征（图中红色线段）。

CLIP 采用和 SimCLR 类似的对比目标函数训练：

\[ \sum\limits_{i=1}^n -\log\left(\dfrac{e^{\langle u_i, v_i \rangle}}{\sum_{j=1}^ne^{ \langle u_i, v_j \rangle}}\right) + \sum\limits_{i=1}^n -\log\left(\dfrac{e^{\langle u_i, v_i \rangle}}{\sum_{j=1}^ne^{ \langle u_j, v_i \rangle}}\right) \]

训练数据是从互联网上的图片及其关联的替换文本（HTML img标签的 alt 属性）大规模抓取得到的。

训练结束后，我们会得到一个能给出图像和文本之间的相似度分数。

接下来对于上一步预训练得到的网络，通过线性分类器将编码器迁移到下游任务上，比如图像分类、目标检测、语义分割等任务。

下面是实验结果，可以看到 CLIP 的表现是最出色的。并且随着训练图像的增多，CLIP 的表现会越来越好。

但事情还没结束。语言模型和 CLIP 这样的视觉 - 语言模型的一个很大的区别是：LLMs 可以在零样本(zero-shot) 学习的情况下用于新的下游任务中，也就是说 LLMs 是“开箱即用的”。

所以我们希望 CLIP 也能做到零样本学习，比如在没有微调的情况下完成分类任务。一个聪明的技巧是使用文本编码器来创建分类器

为每个类别创建一个向量表征
然后让图像匹配最相似的向量
可以把这看作一个 1-NN（最近邻）算法，其中向量作为训练数据使用
因为 CLIP 是用短语训练的，所以可通过采用形如 "a photo of a [catagory]" 来提升性能
一个问题是单个短语可能过于片面 (biased)；解决方案就是使用多个短语
使用跨短语的平均向量作为每个类别的表征

现在，我们可以将 CLIP 作为一个在任意数据集上的图像分类任务的基座模型了！

可以看到，CLIP 在各种数据集上均取得优异的表现（~~几乎全方位吊打 ResNet 101~~）

CLIP 在 ImageNet 上训练时没有用到标注，这和 ResNet 101 不太一样
由于仅在 ImageNet 上训练无法很好地泛化到其他数据集上，ObjectNet 就是为了解决这一问题的；它包含了 ImageNet 一样的图像类别，但是拍摄视角会更怪一些

下图则比较了零样本 CLIP 和线性探测 ResNet50 的表现：

之所以 CLIP 能取得这么好的成绩，主要原因是 CLIP 不仅通过 Transformer 架构扩大了(scale up)模型参数，还通过从互联网上爬取图像 - 文本对扩大了训练数据量。

CoCa⚓︎

CoCa 在 CLIP 的基础上通过增加一个生成目标 (generative objective) 来进一步提升表现。具体来说，这是通过增加一个带描述损失的解码器 (decoder with captioning loss) 实现的。

下表列出了实验结果。可以看到 CoCa 成功在各个数据集上击败了 CLIP。

像这种分类器基座模型在 ImageNet 上击败了其他所有的模型。

CLIP 风格的模型的缺点

- 增加批次大小有助于理解更加细粒度 (fine-grained) 的概念
学习概念时重度依赖批次大小
- 但是我们能够达到的粒度是有限的
- 即便批次大小为 32K，模型可能还是没法区别有关“草中的马克杯”和“马克杯内的一些草”的图像
- 研究发现，CLIP 无法理解组合性(compositionality) 的概念，也就是说图像中多个物体间的关系没能很好地在 CLIP 的表征中体现出来
- 一种可能的解决方法是硬负微调(hard negative fine-tuning)
  - 但这个方法会带来新的问题，会导致模型没有学会很多该学的语义
图像级的描述 (captions) 提供的监督不足
- 解决方法：使用包围盒(bounding box) 进行进行区域性的图像描述训练
我们无法得知超大规模的数据集（比如 5B 张图像）内的每个数据
- 因此数据收集和过滤是相当重要的工作