[精读]CLIP

Learning Transferable Visual Models From Natural Language Supervision

Abstract

最先进的计算机视觉系统被训练来预测一组固定的预定物体类别。这种受限的监督形式限制了它们的普适性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习有关图像的信息是一种有前途的替代方法，它利用了更广泛的监督来源。我们证明了预测哪个标题与哪个图像相对应的简单预训练任务是一种有效和可扩展的方法，可以从互联网收集的4亿（图像，文本）对数据集上从头开始学习SOTA图像表示。预训练后，自然语言用于引用学习的视觉概念（或描述新的概念），从而实现了模型对下游任务的零样本转移。我们通过对超过30个不同的现有计算机视觉数据集进行基准测试来研究这种方法的性能，涵盖了OCR、视频中的动作识别、地理定位和许多类型的细粒度物体分类等任务。该模型对大多数任务进行了非平凡的转移，并且通常与完全监督的基线竞争，而无需进行任何特定于数据集的训练。例如，我们在ImageNet零样本上匹配了原始ResNet-50的准确性，而无需使用它训练的128万个训练示例中的任何一个。

1 . Introduction and Motivating Work

直接从原始文本中学习的预训练方法，这过去几年中彻底改变了自然语言处理。任务无关的目标，如自回归和掩码语言建模，在计算、模型容量和数据方面已经跨越了许多数量级，不断提高模型能力。将“文本到文本”作为标准化的输入输出接口的开发，使得任务无关的架构可以零zero-shot转移到下游数据集，消除了对专门的输出头或数据集特定定制的需求。现在旗舰系统如GPT-3，几乎不需要特定训练数据的数据集，就能在许多任务上与定制模型竞争。

这些结果表明，现代预训练方法在网络规模的文本集合中可获得的聚合监督超过了高质量众包标记的NLP数据集。然而，在其他领域，如计算机视觉，预训练模型仍然是在众包标记的数据集上进行的标准实践。可扩展的预训练方法是否可以直接从网络文本中学习，从而在计算机视觉方面取得类似的突破？先前的工作是令人鼓舞的。

20多年前，Mori等人（1999）探索了通过训练模型来预测与图像配对的文本中的名词和形容词，以改进基于内容的图像检索。Quattoni等人（2007）证明了通过分类器的权重空间中的流形学习可以学习更有效的数据图像表示，以预测与图像相关的字幕中的单词。Srivastava＆Salakhutdinov（2012）通过在低级图像和文本标签特征之上训练多模态深度玻尔兹曼机来探索深度表示学习。Joulin等人（2016）现代化了这一工作线，并证明了在图像标题，描述和hashtag元数据中训练CNN以预测单词可以学习有用的图像表示。他们将YFCC100M数据集（Thomee等人，2016）中的图像的标题，描述和hashtag元数据转换为词袋多标签分类任务，并表明预训练AlexNet（Krizhevsky等人，2012）以预测这些标签学习的表示与基于ImageNet的预训练在转移任务上表现类似。Li et al.（2017）然后将这种方法扩展到预测短语n-gram以及单个单词，并通过基于他们学习的视觉n-gram字典对目标类进行评分并预测得分最高的一个，展示了他们的系统转移到其他图像分类数据集的zero-shot能力。采用更先进的架构和预训练方法，VirTex（Desai＆Johnson，2020），ICMLM（Bulent Sariyildiz等，2020）和ConVIRT（Zhang等，2020）最近展示了基于Transformer的语言建模、掩码语言建模和对比目标从文本中学习图像表示的潜力。

尽管自然语言监督图像表示学习的概念很令人兴奋，但这种方法仍然很少见。这可能是因为在常见基准测试中的表现远远低于替代方法。例如，Li等人（2017）在零样本设置下仅达到11.5％的ImageNet准确率。这远低于当前最先进技术（Xie等人，2020）的88.4％准确率。甚至低于经典计算机视觉方法（Deng等人，2012）的50％准确率。相反，更狭窄但针对性更强的弱监督使用已经改善了性能。Mahajan等人（2018）表明，在Instagram图像上预测与ImageNet相关的标签是一种有效的预训练任务。当对ImageNet进行微调时，这些预训练模型的准确率提高了超过5％，并在当时改善了整体最先进技术。Kolesnikov等人（2019）和Dosovitskiy等人（2020）还通过预训练模型来预测嘈杂标记的JFT-300M数据集的类别，在更广泛的转移基准测试中展示了巨大的收益。这一系列工作代表了从有限的“黄金标签”学习和从实际上无限的原始文本学习之间的现实妥协。然而，这并非没有妥协。这两项工作都仔细设计并在过程中限制了它们的监督，分别为1000和18291个类别。自然语言能够通过其普遍性表达更广泛的视觉概念，因此能够进行监督。这两种方法还使用静态softmax分类器进行预测，并缺乏动态输出机制。这严重限制了它们的灵活性并限制了它们的zero-shot能力。

这些弱监督模型与最近从自然语言中直接学习图像表示的探索之间的一个关键区别是规模。Mahajan等人（2018）和Kolesnikov等人（2019）在数百万到数十亿张图像上训练他们的模型，而VirTex、ICMLM和ConVIRT则在一到两十万张图像上进行了加速器训练。在这项工作中，我们弥合了这一差距，并研究了在大规模自然语言监督下训练的图像分类器的行为。借助互联网上大量公开可用的此类数据，我们创建了一个新的数据集，包含4亿个（图像，文本）对，并证明了从头开始训练的ConVIRT的简化版本（我们称之为CLIP，即对比语言-图像预训练）是一种有效的从自然语言监督中学习的方法。我们通过训练一系列涵盖近乎相差2个数量级的八种模型选型来研究CLIP的可扩展性，并观察到迁移性能是平滑可预测的计算函数（Hestness等人，2017；Kaplan等人，2020）。我们发现CLIP，类似于GPT家族，在预训练期间学习执行广泛的任务，包括光学字符识别、地理定位、动作识别和许多其他任务。我们通过在30多个现有数据集上对CLIP的零镜头传输性能进行基准测试来衡量这一点，并发现它可以与先前的特定任务监督模型竞争。我们还通过线性探针表示学习分析确认了这些发现，并展示了CLIP优于最佳公开可用的ImageNet模型，同时也更具计算效率。我们还发现，零样本CLIP模型比等效准确度的监督ImageNet模型更加稳健，这表明对于任务不可知模型的零样本评估更能代表模型的能力。这些结果具有重要的政策和伦理意义，我们在第7部分中进行了考虑。

2. Approach

2.1. Natural Language Supervision

我们方法的核心是从自然语言中获取监督信息来学习感知。正如介绍中所讨论的，这并不是一个新的想法，但是用于描述这个领域的术语是多样的，甚至看起来是矛盾的，而且陈述的动机也是多样的。张等人（2020）、戈麦斯等人（2017）、Joulin等人（2016）和Desai＆Johnson（2020）都介绍了从文本和图像配对中学习视觉表示的方法，但是分别将它们的方法描述为无监督、自监督、弱监督和有监督。

我们强调这一系列工作的共同点不是特定方法的任何细节，而是将自然语言视为训练信号的认识。所有这些方法都是从自然语言监督中学习的。尽管早期的工作在使用主题模型和n-gram表示时需要与自然语言的复杂性作斗争，但是深度上下文表示学习的改进表明我们现在有了有效利用这种丰富监督来源的工具（McCann等人，2017）。

从自然语言中学习具有其他训练方法所不具备的几个潜在优势。与标准的众包标注图像分类相比，扩展自然语言监督要容易得多，因为它在经典的“machine learning compatible format”中不需要注释，例如👷的1-of-N多数投票“黄金标签”。相反，适用于自然语言的方法可以从互联网上大量的文本中被动地学习监督信息。从自然语言中学习还具有比大多数无监督或自监督学习方法更重要的优势，因为它不仅“只”学习表示，而且还将该表示与语言连接起来，从而实现灵活的零样本转移。在以下子节中，我们详细介绍了我们采用的具体方法。

2.2. Creating a Sufficiently Large Dataset

现有的工作主要使用了三个数据集，MS-COCO（Lin等人，2014年），Visual Genome（Krishna等人，2017年）和YFCC100M（Thomee等人，2016年）。虽然MS-COCO和Visual Genome是高质量的众包标记数据集，但按现代标准来看，它们的规模很小，每个数据集仅有大约10万张训练照片。相比之下，其他计算机视觉系统的训练数据集可达到35亿张Instagram照片（Mahajan等人，2018年）。 YFCC100M是一个可能的替代方案，但每个图像的元数据都很稀疏且质量不一。许多图像使用自动生成的文件名，例如20160716 113957.JPG作为“标题”，或包含相机曝光设置的“描述”。在过滤掉只保留具有自然语言标题和/或英文描述的图像后，数据集的规模缩小了6倍，仅剩下1500万张照片。这大约与ImageNet的规模相同。自然语言监督的主要动机是公开互联网上大量此类数据。由于现有数据集不能充分反映这种可能性，仅考虑它们的结果将低估这一研究方向的潜力。为了解决这个问题，我们构建了一个新的数据集，收集了来自互联网上各种公开来源的4亿（图像，文本）对。为了尝试涵盖尽可能广泛的视觉概念集合，我们搜索（图像、文本）对作为构建过程的一部分，其文本有500,000个。我们通过每次查询包含多达20,000个（图像、文本）对来大致对结果进行分类平衡。生成的数据集与用于训练GPT-2的WebText数据集具有相似的总字数。我们将此数据集称为WebImageText的WIT。

2.3. Selecting an Efficient Pre-Training Method

最先进的计算机视觉系统需要大量的计算资源。Mahajan等人（2018）需要19个GPU年来训练他们的ResNeXt101-32x48d，而Xie等人（2020）需要33个TPUv3核心年来训练他们的Noisy Student EfficientNet-L2。考虑到这两个系统仅训练预测1000个ImageNet类别，从自然语言中学习开放式视觉概念的任务似乎令人望而生畏。在我们的努力中，我们发现训练效率是成功扩展自然语言监督的关键，我们基于这个指标选择了我们的最终预训练方法。

图2 CLIP在零样本转移方面比我们的图像注释基线模型要高效得多。尽管基于transformer的语言模型有很强的表达能力，但我们发现它在 zero-shot ImageNet分类方面相对较弱。我们可以看到它的学习速度比预测文本的词袋（BoW）编码的基线慢3倍（Joulin等人，2016）。将预测目标从对文本的对比目标换成CLIP进一步提高了4倍效率。

我们最初的方法类似于VirTex，从头开始联合训练图像CNN和文本变换器以预测图像的标题。然而，我们遇到了有效扩展这种方法的困难。在图2中，我们展示了一个6300万参数的变换器语言模型，它已经使用了两倍于其ResNet-50图像编码器的计算资源，学习识别ImageNet类别的速度比预测相同文本的词袋编码的一个更简单的基线慢三倍。

这两种方法都有一个关键的相似之处。它们尝试预测每个图像附带的文本的确切单词。由于与图像共现的描述、评论和相关文本的广泛多样性，这是一项困难的任务。最近在对比表示学习方面的研究发现，对比目标可以学习比其等效预测目标更好的表示（Tian等人，2019）。其他研究发现，尽管图像的生成模型可以学习高质量的图像表示，但它们需要比具有相同性能的对比模型多一个数量级的计算资源（Chen等人，2020a）。注意到这些发现，我们探索训练一个系统来解决可能更容易的代理任务，即仅预测哪个文本整体与哪个图像配对，而不是该文本的确切单词。从相同的词袋编码基线开始，我们在图2中将预测目标替换为对比目标，并观察到进一步4倍的效率提高，以零-shot转移到ImageNet的速度。

给定一个batch的N个图像文本对，CLIP被训练来预测这个batch中的N×N个可能的图像文本匹配对。为此，CLIP通过联合训练图像编码器和文本编码器来学习多模态嵌入空间，以最大化批次中N个真实对的图像和文本嵌入的余弦相似性，同时最小化N²-N个不正确对的嵌入的余弦相似性。我们通过对这些相似度分数进行对称交叉熵损失的优化来实现CLIP。在图3中，我们包含了CLIP实现的核心伪代码。据我们所知，这种批量构建技术和目标最初是在深度度量学习领域作为多类N对损失Sohn（2016）中的一部分引入的，并在对比表示学习中由Oord等人（2018）提出InfoNCE损失得到普及，并最近被张等人（2020）在医学成像领域中用于对比文本、图像表示学习。

由于我们的预训练数据集非常大，过拟合不是一个主要问题，因此与Zhang等人（2020）的实现相比，训练CLIP的细节得到了简化。我们从头开始训练CLIP，不使用ImageNet权重初始化图像编码器或使用预训练权重初始化文本编码器。我们不使用表示和对比嵌入空间之间的非线性投影，这是由Bachman等人（2019）引入并由Chen等人（2020b）推广的变化。相反，我们仅使用线性投影将每个编码器的表示映射到多模态嵌入空间。我们没有注意到两个版本之间的训练效率差异，并推测非线性投影可能会与当前仅在自监督表示学习方法中的图像细节相互适应。因为CLIP的预训练数据集中的许多（图像，文本）对仅为一个句子，我们还删除了Zhang等人（2020）中的文本转换函数tu，该函数从文本中均匀采样一个句子。我们还简化了图像转换函数tv。在训练期间，仅使用从调整大小的图像中随机裁剪的正方形进行数据增强。最后，控制softmax中logits范围的温度参数τ直接在训练期间进行优化，作为对数参数化的乘法标量，以避免成为超参数。

2.4. Choosing and Scaling a Mode

我们考虑了图像编码器的两种不同架构。首先，我们使用ResNet-50作为图像编码器的基本架构，因为它被广泛采用并经过验证的性能。我们使用He et al.（2019）的ResNet-D改进和Zhang（2019）的抗锯齿rect-2 blur pooling对原始版本进行了七次修改。我们还用注意力池机制替换了全局平均池化层。注意力池被实现为单层transformer的多头QKV注意力加激活层的结构，其中查询以图像的全局平均池表示为条件。对于第二种架构，我们尝试了最近推出的Vision Transformer（ViT）。我们密切关注它们的实现，仅进行了微小修改，在组合patch和位置编码层之前增加了一个归一化层，并使用稍微不同的初始化方案。

文本编码器是一个Transformer（Vaswani等人，2017），其架构修改如由Radford等人（2019）的描述。我们使用一个63M参数的12层8头512宽度的模型作为基础模型。Transformer在文本的小写字节对编码（BPE）表示上运行，其词汇量为49,152（Sennrich等人，2015）。为了提高计算效率，最大序列长度被限制在76。文本序列用[SOS]和[EOS]标记括起来，Transformer的最高层在[EOS]标记处的token被视为文本特征表示，该表示被层归一化然后线性映射到多模态嵌入空间中。在文本编码器中使用了掩码自我注意力，以保留使用预训练语言模型进行初始化或将语言建模作为辅助目标的能力，但对此的探索留待未来工作。

虽然以前的计算机视觉研究通常通过单独增加宽度（Mahajan等人，2018）或深度（He等人，2016a）来扩展模型，但对于ResNet图像编码器，我们采用了Tan＆Le（2019）的方法，发现将额外的计算分配到宽度，深度和分辨率的所有维度上优于仅将其分配给模型的一个维度。虽然Tan＆Le（2019）为其EfficientNet架构调整了分配给每个维度的计算比率，但我们使用一个简单的基线，将额外的计算平均分配到增加模型的宽度，深度和分辨率上。对于文本编码器，我们仅将模型的宽度对应ResNet的宽度增加量按比例增加，且没有扩展深度，因为我们发现CLIP的性能对文本编码器的容量不太敏感。

2.5. Training

我们训练了一系列5个ResNets和3个Vision Transformers。对于ResNets，我们训练了一个ResNet-50，一个ResNet-101，然后又训练了3个遵循EfficientNet风格模型缩放的模型，它们的计算量分别是ResNet-50的4倍、16倍和64倍。它们分别被标记为RN50x4、RN50x16和RN50x64。对于Vision Transformers，我们训练了一个ViT-B/32，一个ViT-B/16和一个ViT-L/14。我们为所有模型训练了32个epochs。我们使用Adam优化器（Kingma和Ba，2014）和解耦的权重衰减正则化（Loshchilov和Hutter，2017）应用于所有不是增益或偏差的权重，并使用余弦调度（Loshchilov和Hutter，2016）衰减学习率。初始超参数是在基线ResNet-50模型上进行1个epoch的网格搜索、随机搜索和手动调整的组合设置的。由于计算限制，超参数随后启发式地适用于更大的模型。可学习的温度参数τ从（Wu等人，2018）的等效值0.07开始初始化，并进行剪裁，以防止将logits缩放超过100，我们发现这是必要的，以防止训练不稳定。我们使用非常大的minibatch=32768。使用混合精度（Micikevicius等人，2017）加速训练并节省内存。为了节省额外的内存，使用梯度检查点（Griewank和Walther，2000；Chen等人，2016）、半精度Adam统计量（Dhariwal等人，2020）和半精度随机舍入文本编码器权重。嵌入相似性的计算也被分片，各个GPU仅计算其本地嵌入批次所需的子集的成对相似性。最大的ResNet模型RN50x64在592个V100 GPU上训练了18天，而最大的Vision Transformer在256个V100 GPU上训练了12天。对于ViT-L/14，我们还在更高的336像素分辨率下预训练了一个额外的epoch，以提高类似于FixRes（Touvron等人，2019）的性能。我们将此模型标记为ViT-L/14@336px。除非另有说明，本文中报告的所有结果均使用此模型，我们发现它的表现最佳。

3. Experiments

3.1. Zero-Shot Transfer

3.1.1. MOTIVATION

在计算机视觉中，零样本学习通常指的是在图像分类中推广到未见过的物体类别的研究（Lampert等人，2009）。我们则更广泛地使用这个术语，并研究推广到未见过的数据集的泛化能力。我们将其作为执行零数据学习论文（Larochelle等人，2008）中所期望的执行未见任务的代理。虽然无监督学习领域的许多研究都集中在机器学习系统的表示学习能力上，但我们认为研究零样本转移是衡量机器学习系统任务学习能力的一种方式。在这种观点下，数据集评估了机器学习系统在特定分布上执行任务的性能。然而，许多流行的计算机视觉数据集主要是由研究社区创建的，旨在指导通用图像分类方法的发展，而不是衡量特定任务的性能。虽然可以说SVHN数据集衡量了在Google Street View照片分布上的街道编号转录任务，但不清楚CIFAR-10数据集衡量了什么“真正”的任务。然而，CIFAR-10是从TinyImages（Torralba等人，2008）中提取的分布。在这些类型的数据集上，零样本转移更多地是评估CLIP对分布转移和领域泛化的鲁棒性，而不是任务泛化。请参见第3.3节进行分析。

据我们所知，Visual N-Grams（Li等人，2017）首次以上述方式研究了对现有图像分类数据集的零样本转移。这也是我们所知道的唯一一项研究，它使用通用预训练模型研究了对标准图像分类数据集的零样本转移，并作为最佳参考点来解释CLIP。他们的方法学习了142,806个视觉n-gram（跨度为1到5个n-gram）的字典参数，并使用Jelinek-Mercer平滑的差分版本来最大化给定图像的所有文本n-gram的概率。为了执行零样本转移，他们首先将数据集的每个类别名称的文本转换为其n-gram表示，然后根据其模型计算其概率，预测得分最高的那个。

我们关注研究零样本转移作为任务学习评估的重点，受到在NLP领域展示任务学习的工作的启发。据我们所知，刘等人（2018）首次将任务学习视为“意外副作用”，当一个训练生成维基百科文章的语言模型学会可靠地在语言之间转写名称时。虽然GPT-1（Radford等人，2018）专注于预训练作为改进监督微调的迁移学习方法，但它还包括了一个消融研究，证明了四种启发式零样本转移方法的性能随着预训练的进行而稳步提高，而没有任何监督适应。这项分析成为GPT-2（Radford等人，2019）的基础，后者专注于通过零样本转移研究语言模型的任务学习能力。

3.1.2. USING CLIP FOR ZERO-SHOT TRANSFER

CLIP被预训练用于预测其数据集中的图像和文本片段是否配对。为了进行零样本分类，我们重复利用这种能力。对于每个数据集，我们使用数据集中所有类别的名称作为潜在文本配对的集合，并根据CLIP预测最可能的（图像，文本）配对。稍微详细地说，我们首先通过它们各自的编码器计算图像的特征嵌入和可能文本的特征嵌入的集合。然后计算这些嵌入的余弦相似度，通过一个温度参数τ进行缩放，并通过softmax归一化为概率分布。请注意，这个预测层是一个多项式逻辑回归分类器，具有L2归一化的输入、L2归一化的权重、无偏差和温度缩放。当以这种方式解释时，图像编码器是计算图像的特征表示的计算机视觉骨干，而文本编码器是一个超网络（Ha等人，2016），它基于指定类别所代表的视觉概念生成线性分类器的权重。Lei Ba等人（2015）首次介绍了这种形式的零样本图像分类器，而从自然语言生成分类器的想法可以追溯至至少Elhoseiny等人（2013）。继续这种解释，CLIP预训练的每一步都可以被视为优化随机创建的代理的性能，该代理包含每个类别的1个示例，并通过自然语言描述定义了32768个总类别的计算机视觉数据集。对于零样本评估，我们缓存一旦由文本编码器计算出零样本分类器，就可以重复使用它进行所有后续预测。这使得生成它的成本可以分摊到数据集中的所有预测中。

3.1.3. INITIAL COMPARISON TO VISUAL N-GRAMS

将CLIP与以前的零样本转移图像分类结果进行比较。 CLIP在所有三个数据集上都大幅提高了性能。这种改进反映了自Visual N-Grams（Li等人，2017年）开发以来的4年中的许多差异。

在表1中，我们将Visual N-Grams与CLIP进行了比较。最佳CLIP模型将ImageNet上的准确率从概念验证的11.5%提高到76.2%，并与原始ResNet-50的性能相匹配，甚至没有使用该数据集由128万人群标记的训练示例。此外，CLIP模型的前5名准确率明显高于前1名，该模型的前5名准确率为95%，与Inception-V4相匹配（Szegedy et al.，2016）。在zero-shot设置中比得上强大的、完全监督的基线模型的能力表明CLIP是朝着灵活实用的zero-shot计算机视觉分类器迈出的重要一步。如上所述，与Visual N-Grams的比较旨在为CLIP的性能提供背景，不应将其解释为CLIP和Visual N-Grams之间的直接方法比较，因为两个系统之间许多性能相关的差异没有得到控制。例如，我们训练的数据集是10倍大，使用的视觉模型每个预测需要近100倍的计算量，可能使用了超过1000倍的训练计算量，并且使用了transformer模型，而Visual N-Grams发表时并不存在。作为更接近的比较，我们在与Visual N-Grams训练相同的YFCC100M数据集上训练了一个CLIP ResNet-50，并发现它与他们报告的ImageNet性能相匹配，使用了V100 GPU一天。这个基线也是从头开始训练的，而不是像Visual N-Grams那样从预训练的ImageNet权重初始化。

CLIP在另外两个报告的数据集上也优于Visual N-Grams。在Yahoo上，CLIP将错误数量减少了95％，在SUN上，CLIP的准确性超过了Visual N-Grams的两倍。为了进行更全面的分析和压力测试，我们实现了一个更大的评估套件，详见附录A。总共，我们从Visual N-Grams报告的3个数据集扩展到包括30多个数据集，并与50多个现有的计算机视觉系统进行比较，以提供结果的背景。

3.1.4. PROMPT ENGINEERING AND ENSEMBLING

大多数标准图像分类数据集将命名或描述类别的信息视为附带内容，这使得基于自然语言的零样本转移成为事后的事情。绝大多数数据集仅使用标签的数字ID注释图像，并包含将这些ID映射回其英文名称的文件。一些数据集，例如Flowers102和GTSRB，在其发布版本中似乎根本不包括此映射，从而完全防止了零样本转移。对于许多数据集，我们观察到这些标签可能有些随意选择，并且没有预料到与zero-shot转移相关的问题，这需要任务描述才能成功转移。

一个常见的问题是多义词。当一个类的名称是提供给CLIP文本编码器的唯一信息时，由于缺乏上下文，它无法区分意思是哪个词义。在某些情况下，同一个词的多个意义可能会作为同一数据集中的不同类别包含在内！这在ImageNet中发生，其中包含了既有建筑起重机又有飞飞翔的鹤的意思的cranes。另一个例子可以在Oxford-IIIT宠物数据集的类别中找到，这个单词boxer从上下文中清楚地指的是一种狗的品种，但对于缺乏上下文的文本编码器来说，它同样可能指的是一种运动员类型。

我们遇到的另一个问题是，在我们的预训练数据集中，与图像配对的文本通常不只是一个单词，而是一个描述图像的完整句子。为了弥补这种分布差异，我们发现使用提示模板“一张{label}的照片。”是一个很好的默认选项，可以帮助指定文本是关于图像内容的。这通常比仅使用标签文本的基准性能更好。例如，仅使用此提示就可以将ImageNet上的准确性提高1.3％。

类似于有关GPT-3（Brown等人，2020; Gao等人，2020）的“提示工程”讨论，我们还观察到通过定制每个任务的提示文本可以显著提高zero-shot性能。以下是一些非详尽的例子。我们发现，在几个细粒度图像分类数据集上，指定类别有助于提供上下文。例如，在Oxford-IIIT宠物数据集上，使用“一张{label}宠物的照片”有助于提供上下文。同样，在Food101上指定一种食物，在FGVC飞机上指定一种飞机也有帮助。对于OCR数据集，我们发现在要识别的文本或数字周围加上引号可以提高性能。最后，我们发现在卫星图像分类数据集上，指定图像的形式有助于提高性能，我们使用“一张{label}卫星照片”的变体。

图4。提示工程和集成提高了zero-shot性能。与使用无上下文类名的基线相比，提示工程和集成平均提高了近5个百分点的36个数据集的零-shot分类性能。这种改进类似于使用基线零-shot方法的4倍计算能力所获得的收益，但在许多预测中分摊时是“免费”的。

我们还尝试了使用多个零样本分类器进行集成来提高性能的另一种方法。这些分类器是通过使用不同的上下文提示（例如“一张大{label}的照片”和“一张小{label}的照片”）计算出来的。我们在嵌入空间而不是概率空间上构建集成。这使我们能够缓存一组平均文本嵌入，因此当分摊到许多预测时，集成的计算成本与使用单个分类器相同。我们观察到在许多生成的零样本分类器之间进行集成可以可靠地提高性能，并将其用于大多数数据集。在ImageNet上，我们集成了80种不同的上下文提示，这将性能提高了额外的3.5％，超过了上面讨论的单个默认提示。综合考虑，提示工程和集成将ImageNet的准确性提高了近5％。在图4中，我们可视化了提示工程和集成如何改变一组CLIP模型的性能，与Li等人直接将类名嵌入的无上下文基线方法相比。

3.1.5. ANALYSIS OF ZERO-SHOT CLIP PERFORMANCE

由于计算机视觉的任务不可知的零样本分类器一直未被研究，CLIP为我们提供了一个更好地了解这种类型模型的机会。在本节中，我们对CLIP的零样本分类器的各种属性进行了研究。作为第一个问题，我们简单地看一下零样本分类器的表现如何。为了将其置于上下文中，我们将其与一个简单的现成基线的表现进行比较：在规范化的ResNet-50的特征上拟合一个完全监督的逻辑回归分类器。在图5中，我们展示了27个数据集的比较结果。有关数据集和设置的详细信息，请参见附录A。

zero-shot CLIP的表现略高于此基线，在27个数据集中的16个获胜。查看单个数据集可以发现一些有趣的行为。在细粒度分类任务中，我们观察到性能的广泛分布。在其中两个数据集Stanford Cars和Food101上，零样本CLIP的表现优于ResNet-50特征上的逻辑回归超过20％，而在另外两个数据集Flowers102和FGVCAircraft上，零样本CLIP的表现不及ResNet-50特征的逻辑回归超过10％。在OxfordPets和Birdsnap上，性能差距较小。我们怀疑这些差异主要是由于WIT和ImageNet之间的每个任务监督量的差异。在“通用”对象分类数据集（如ImageNet、CIFAR10/100、STL10和PascalVOC2007）中，性能相对类似，在所有情况下，零样本CLIP略有优势。在STL10上，CLIP的整体表现达到了99.3％，尽管没有使用任何训练示例，但似乎是一种新的技术水平。零样本CLIP在两个测量视频中的动作识别的数据集上显着优于ResNet-50。在Kinet-ics700上，CLIP的表现优于ResNet-50 14.5％。零样本CLIP在UCF101上也比ResNet-50的特征高出7.7％。我们推测这是由于自然语言提供了更广泛的监督，涉及涉及动词的视觉概念，而不是ImageNet 中以名词为中心的对象监督。

看看zero-shot CLIP明显表现不佳的地方，我们看到zero-shot CLIP在几个专业化、复杂或抽象的任务上相当弱，如卫星图像分类（EuroSAT和RESISC45）、淋巴结肿瘤检测（PatchCamelyon）、合成场景中的物体计数（CLEVRCounts）、自动驾驶相关任务，如德国交通标志识别（GTSRB）、识别到最近的汽车的距离（KITTI距离）。这些结果突显了zero-shot CLIP在更复杂任务上的能力不足。相比之下，非专业人士可以稳健地执行其中的一些任务，例如计数、卫星图像分类和交通标志识别，表明有很大的改进空间。然而我们需要提醒，对于学习者没有先前经验的困难任务（例如几乎所有人类来说都困难（可能包括CLIP）的淋巴结肿瘤分类），评估zero-shot转移相对于few-shot转移是否是有意义还不明确。

将零样本性能与完全监督模型进行比较，可以说明CLIP的任务学习能力，而与少样本方法进行比较则更直接，因为零样本是其极限。在图6中，我们展示了零样本CLIP与少样本逻辑回归在许多图像模型的特征上进行比较，包括公开的最好的ImageNet模型、自监督学习模型和CLIP本身。虽然预期零样本表现不如一次样本，但我们发现零样本CLIP在相同的特征空间上与4次样本逻辑回归的表现相当。这可能是由于零样本和少样本方法之间的重要差异。首先，CLIP的零样本分类器是通过自然语言生成的，这允许直接指定（“通信”）视觉概念。相比之下，“正常”的监督学习必须间接地从训练示例中推断概念。无文本基于示例的学习有一个缺点，即许多不同的假设可以与数据一致，尤其是在单样本的情况下。单个图像通常包含许多不同的视觉概念。尽管有能力的学习者能够利用视觉线索和启发式方法，例如假设被演示的概念是图像中的主要对象，但这并不一定。

解决零样本和少样本性能差异的一个潜在方法是使用CLIP的零样本分类器作为少样本分类器的权重先验。虽然向生成的权重添加L2惩罚是这个想法的一个简单实现，但我们发现超参数优化通常会选择这个正则化器的一个如此大的值，以至于得到的少样本分类器只是“零样本”分类器。研究如何更好地结合零样本传递的优势和少样本学习的灵活性是未来工作的一个有前途的方向。

当比较零样本CLIP和少样本逻辑回归在其他模型的特征上时，零样本CLIP与评估套件中表现最佳的16-shot 分类起大致相当，该分类器使用在ImageNet-21K上训练的BiT-M ResNet-152×2的特征。我们确信在JFT-300M上训练的BiT-L模型会表现得更好，但这个模型尚未公开发布。在16样本设置中，BiT-M ResNet-152×2表现最佳有些令人惊讶，因为如3.2节所分析的，噪声学生EfficientNet-L2在完全监督的情况下在27个数据集上的平均表现比它高近5%。

除了研究零样本CLIP和少样本逻辑回归的平均表现外，我们还检查了各个数据集的表现。在图7中，我们展示了一个逻辑回归分类器在相同特征空间上需要多少标记示例才能匹配零样本CLIP表现的估计值。由于零样本CLIP也是一个线性分类器，因此这估计了零样本转移在这种情况下的有效数据效率。为了避免训练成千上万个线性分类器，我们基于一个1、2、4、8、16个样本（如果可能的话）和每个数据集上训练的完全监督线性分类器的表现进行对数线性插值来估计有效数据效率。我们发现零样本转移在每个数据集中的效率变化很大，从每个类少于1个标注样本到184个。在Flowers102和EuroSAT两个数据集上表现不佳，无法超过one-shot模型。有一半的数据集每个类别少于5个示例，中位数为5.4。然而，平均估计数据效果为每类20.8个示例，这是因为有20%的数据集里监督分类器需要每个类有许多标注示例才能打平评分。在ImageNet上，零样本CLIP与在相同特征空间上训练的16个示例的线性分类器的性能相匹配。

zero-shot转移的数据效果差异很大。通过计算在相同CLIP特征空间线性分类器为达到零样本分类器的效果而需要的每类标注示例的数量，来将零样本转移的效果体现出来。这些值是基于1、2、4、8、16-shot和完全监督结果的对数线性插值估计得出的。

zero-shot性能与线性探测性能相关，但仍然大多数情况下不够优化。在数据集之间的比较显示出强烈的相关性，但zero-shot性能大多数情况下比线性探测性能低10到25个点。只有在5个数据集中，零样本性能接近线性探测性能（≤3个点的差异）。

如果我们假设评估数据集足够大，以至于在它们上训练的线性分类器的参数被很好地估计，那么，因为CLIP的零样本分类器也是一个线性分类器，完全监督分类器的性能大致设置了零样本转移可以实现的上限。在图8中，我们将CLIP的零样本性能与完全监督线性分类器在数据集上进行比较。虚线y = x代表与其完全监督等效的“最佳”零样本分类器。对于大多数数据集，零样本分类器的性能仍然比完全监督分类器低10％至25％，这表明仍有很大的提升CLIP任务学习和零样本转移能力的空间。

零样本性能和完全监督性能之间的正相关系数为0.82（p值<10−6），表明CLIP在将底层表示和任务学习连接到零样本迁移方面相对一致。然而，零样本CLIP仅在5个数据集上接近完全监督的表现：STL10、CIFAR10、Food101、OxfordPets和Caltech101。在所有5个数据集上，零样本准确率和完全监督准确率都超过90％。这表明CLIP可能在其底层表示质量较高的任务的零样本转移方面更有效。线性回归模型的斜率预测零样本性能作为完全监督性能的函数，每提高1％的完全监督性能，零样本性能提高1.28％。然而，95％置信区间仍包括小于1的值（0.93-1.79）。

在过去的几年中，深度学习系统的实证研究已经记录下了性能与重要数量（如训练计算和数据集大小）之间的可预测性（Hestness等，2017；Kaplan等，2020）。到目前为止，GPT系列模型已经在1000倍的训练计算中展示了一致的零-shot性能提升。在图9中，我们检查了CLIP的零-shot性能是否遵循类似的缩放模式。我们绘制了5个ResNet CLIP模型在36个不同数据集上进行的39次评估的平均错误率，并发现在模型计算量增加44倍的情况下，CLIP也遵循类似的对数-对数线性缩放趋势。虽然总体趋势很平滑，但我们发现个别评估的性能可能会更加嘈杂。我们不确定这是否是由于子任务上的单个训练运行之间的高方差（如D’Amour等人（2020）中记录的那样）掩盖了稳步改善的趋势，或者性能在某些任务上的计算函数是否实际上是非单调的。

3.2. Representation Learning

虽然我们在前面的部分通过zero-shot转移广泛分析了CLIP的任务学习能力，但更常见的是研究模型的表示学习能力。评估表示质量的方法有很多，但对于定义“理想”的表达应该有哪些属性也存在争议（Locatello等，2020）。在从模型中提取表示并在各种数据集上测量其性能方面，拟合线性分类器是一种常见方法。另一种方法是测量模型的端到端微调性能。这增加了灵活性，先前的工作已经有力地证明微调在大多数图像分类数据集上优于线性分类（Kornblith等，2019；Zhai等，2019）。虽然微调的高性能激发了其实用性的研究，但我们仍然选择基于线性分类器的评估，原因有几个。我们的工作重点是开发一个高性能的任务和数据集不可知的预训练方法。微调因为在微调阶段适应每个数据集的表示，可以弥补并潜在地掩盖在预训练阶段未能学习到通用和稳健的表示。线性分类器由于其有限的灵活性，可以突出这些失败并在开发过程中提供清晰的反馈。对于CLIP来说，训练有监督的线性分类器具有与其零样本分类器相似的优点，这使得在第3.1节中进行广泛的比较和分析成为可能。最后，我们旨在将CLIP与现有的全面模型集进行比较。研究27个不同数据集上的66个不同模型需要调整1782个不同的评估。微调会打开更大的设计和超参数空间，这使得公平评估和比较各种技术变得困难，正如其他大规模实证研究所讨论的那样（Lucic等，2018; Choi等，2019）。相比之下，线性分类器需要最少的超参数调整，并且具有标准化的实现和评估程序。有关评估的更多详细信息，请参见附录A。

图10总结了我们的发现。为了最小化可能引起确认或报告偏见的选择效应，我们首先研究了Kornblith等人（2019）的12个数据集评估套件的性能。虽然像ResNet-50和ResNet-101这样的小型CLIP模型在ImageNet-1K（BiT-S和原始版本）上的表现优于其他ResNets，但它们的表现不及在ImageNet-21K（BiT-M）上训练的ResNets。这些小型CLIP模型也不如具有类似计算要求的EfficientNet系列模型。然而，使用CLIP训练的模型非常适合扩展，并且我们训练的最大模型（ResNet-50×64）在总体得分和计算效率方面略优于最佳现有模型（Noisy Student EfficientNet-L2）。我们还发现，CLIP视觉变换器的计算效率约为CLIP ResNets的3倍，这使我们能够在我们的计算预算内达到更高的总体性能。这些结果在定性上复制了Dosovitskiy等人（2020）的发现，即当在足够大的数据集上训练时，视觉变换器比卷积神经网络更具计算效率。我们最好的整体模型是ViT-L/14，它在我们的数据集上以更高的分辨率（336像素）进行了1个额外的时期的微调。该模型的表现比此评估套件中的最佳现有模型平均提升了2.6％。

正如图21所示，CLIP模型在单个端到端训练的计算机视觉模型中学习了更广泛的任务，这些任务包括地理定位，光学字符识别，面部情感识别和动作识别。这些任务都没有在Kornblith等人（2019）的评估套件中测量。这可以认为是Kornblith等人（2019）的研究对与ImageNet重叠的任务的选择偏见的一种形式。为了解决这个问题，我们还在更广泛的27个数据集评估套件上测量性能。附录A中详细介绍了这个评估套件，其中包括代表上述任务的数据集，德国交通标志识别基准（Stallkamp等，2011），以及从VTAB（Zhai等，2019）适应的几个其他数据集。

在这个更广泛的评估套件上，CLIP的好处更加明显。所有CLIP模型，无论规模大小，都在计算效率方面优于所有评估系统。最佳模型的平均得分相对于以前的系统提高了2.6％至5％。我们还发现，自我监督系统在我们更广泛的评估套件上表现更好。例如，虽然SimCLRv2在Kornblith等人的12个数据集上的平均表现仍然不如BiT-M，但在我们的27个数据集评估套件上，SimCLRv2表现优于BiT-M。这些发现表明，继续扩大任务多样性和覆盖范围，以更好地了解系统的“一般”性能是有价值的。我们认为，沿着VTAB的方向进行额外的评估努力也是有价值的。

除了上面的综合分析外，我们在图11中可视化了最佳CLIP模型和我们评估套件中最佳模型在所有27个数据集上的表现差异。在27个数据集中，CLIP在21个数据集上优于Noisy Student EfficientNet-L2。CLIP在需要OCR（SST2和HatefulMemes）、地理定位和场景识别（Country211、SUN397）以及视频中的活动识别（Kinetics700和UCF101）等任务上改进最大。此外，CLIP在细粒度汽车和交通标志识别（Stanford Cars和GTSRB）方面也表现得更好。这可能反映了ImageNet中过于狭窄的监督问题。例如，在GTSRB上提高14.7％的结果可能表明ImageNet-1K存在问题，因为所有交通和街道标志只有一个标签。这可能会导致监督表示在类内细节上崩溃，并对细粒度下游任务的准确性造成伤害。正如提到的，CLIP在一些数据集上仍然表现不如EfficientNet。毫不奇怪，EfficientNet在相对于CLIP表现最好的数据集上是它训练的数据集：ImageNet。EffcientNet在低分辨率数据集（如CIFAR10和CIFAR100）上也略优于CLIP。我们怀疑至少有部分原因是CLIP中缺乏基于缩放的数据增强。EfficientNet在PatchCamelyon和CLEVRCounts上也做得稍微好一点，但这两种方法的在这两个数据集上的性能仍然很低。

3.3. Robustness to Natural Distribution Shift ｜对自然分布变化的鲁棒性

在2015年，深度学习模型被宣布在ImageNet测试集上超越了人类表现（He等人，2015）。然而，随后几年的研究发现这些模型仍然会犯许多简单的错误（Dodge＆Karam，2017; Geirhos等人，2018; Alcorn等人，2019），而新的基准测试这些系统的性能通常比它们的ImageNet准确性和人类准确性都要低（Recht等人，2019; Barbu等人，2019）。这种差异的原因是什么？已经提出并研究了各种各样的想法（Ilyas等人，2019; Geirhos等人，2020）。提出的解释的一个共同主题是，深度学习模型非常擅长找到跨越其训练数据集的相关性和模式，从而提高分布内性能。然而，许多这些相关性和模式实际上是虚假的，并且不适用于其他分布，导致在其他数据集上性能大幅下降。

我们警告说，迄今为止，这些研究大多限制了对在ImageNet上训练的模型的评估。回顾讨论的主题，过于概括这些初步发现可能是错误的。通过自然语言监督在非常大的数据集上训练的CLIP模型能够进行高零样本性能，这是从不同角度研究这个问题的机会。

Taori等人（2020）是最近一项全面研究，旨在量化和理解ImageNet模型的这些行为。Taori等人（2020）研究了ImageNet模型在自然分布转移评估时的性能变化。他们在一组7个分布转移上测量性能：ImageNetV2（Recht等人，2019），ImageNet Sketch（Wang等人，2019），Youtube-BB和ImageNet-Vid（Shankar等人，2019），ObjectNet（Barbu等人，2019），ImageNet Adversarial（Hendrycks等人，2019）和ImageNet Rendition（Hendrycks等人，2020a）。他们将这些数据集区分开来，这些数据集都由各种来源收集的新颖图像组成，与合成分布转移（如ImageNet-C（Hendrycks＆Dietterich，2019），Stylized ImageNet（Geirhos等人，2018）或对抗攻击（Goodfellow等人，2014）不同，后者通过各种方式扰动现有图像而创建。他们提出这种区别的原因部分是因为他们发现，虽然已经证明了几种技术可以改善合成分布转移的性能，但它们通常无法在自然分布上产生一致的改进。

在这些收集的数据集中，ImageNet模型的准确性远低于ImageNet验证集设定的期望。在以下摘要讨论中，我们报告了所有7个自然分布转移数据集的平均准确性以及ImageNet相应类别子集的平均准确性，除非另有说明。此外，对于具有两种不同评估设置的Youtube-BB和ImageNet-Vid，我们使用pm-0和pm-10准确性的平均值。

与ImageNet验证集相比，ResNet-101在这些自然分布转移上的评估中犯错的次数多5倍。然而，令人鼓舞的是，Taori等人（2020）发现，在分布转移下的准确性随着ImageNet准确性的提高而可预测，并且可以很好地建模为对数变换准确性的线性函数。Taori等人（2020）利用这一发现提出，鲁棒性分析应区分有效鲁棒性和相对鲁棒性。有效鲁棒性衡量了在分布转移下的准确性改善，超出了内部分布和外部分布准确性之间记录的关系所预测的范围。相对鲁棒性捕捉任何外部分布准确性的改善。Taori等人（2020）认为，鲁棒性技术应旨在提高有效鲁棒性和相对鲁棒性。

Taori等人研究的几乎所有模型都在ImageNet数据集上进行了训练或微调。回到本节引言中的讨论 – 是训练还是适应ImageNet数据集分布导致了观察到的鲁棒性差距？直觉上，零样本模型不应该能够利用仅在特定分布上保持的虚假相关性或模式，因为它没有在该分布上进行训练。因此，合理地期望零样本模型具有更高的有效鲁棒性。在图13中，我们比较了零样本CLIP与现有ImageNet模型在自然分布转移上的表现。所有零样本CLIP模型都大幅提高了有效鲁棒性，并将ImageNet准确性和分布转移下的准确性之间的差距缩小了高达75％。

(左)理想的鲁棒模型(虚线)在ImageNet分布和其他自然图像分布上表现同样出色。零样本CLIP模型将这种“鲁棒性差距”缩小了高达75%。对logit转换值进行线性拟合，并显示bootstrap估计的95%置信区间。(右)对香蕉进行分布偏移可视化，这是7个自然分布偏移数据集中的5个共享类。最佳零样本CLIP模型ViT-L/14@336px的性能与在ImageNet验证集上具有相同性能的模型ResNet-101进行比较。

虽然这些结果表明零样本模型可以更稳健，但它们并不一定意味着ImageNet上的监督学习会导致稳健性差距。CLIP的其他细节，如其庞大多样的预训练数据集或自然语言监督的使用，也可能导致更稳健的模型，无论它们是零样本还是微调。作为可能开始缩小范围的初始实验，我们还通过适合ImageNet训练集上CLIP特征的L2正则化对数几率回归分类器来测量CLIP模型在适应ImageNet分布后的性能变化。我们在图14中可视化了样本零分类器的性能变化。尽管将CLIP适应ImageNet分布会使其ImageNet总准确率提高9.2%至85.4%，并将2018年SOTA的准确率与Mahajan等人（2018）联系起来，但分布偏移下的平均准确率略有下降。

令人惊讶的看到准确率增加了9.2％，相当于SOTA的改进约为3年，但在分布转移下没有任何平均性能的改进。我们还在图14中分解了零样本准确性和线性分类器准确性之间的差异，并发现在另一个数据集ImageNetV2上效果也有显着提高。 ImageNetV2与原始ImageNet数据集的创建过程相同，这表明来自监督适应的准确性增益密切集中在ImageNet分布周围。ImageNet-R的性能下降了4.7%，ObjectNet下降了3.8%，ImageNet Sketch下降了2.8%，ImageNet-A下降了1.9%。另外两个数据集YouTubeBB和ImageNet Vid的准确率变化不明显。

为何能在几乎不增加分布偏移准确率的情况下，将ImageNet数据集的准确率提高9.2%？这种增益主要来自于“利用虚假相关性”吗？这种行为是某些CLIP、ImageNet数据集和研究的分布偏移的组合独有的，还是更普遍的现象？它适用于端到端微调以及线性分类器吗？我们目前对这些问题没有自信的答案。之前的工作也在除ImageNet以外的分布上预训练模型，但通常只有在它们被微调到ImageNet之后才会研究和发布模型。为了了解预训练零样本模型是否始终具有比微调模型更高的有效鲁棒性，我们鼓励Mahajan等人（2018）、Kolesnikov等人（2019）和Dosovitskiy等人（2020）的作者，如果可能的话，也在他们的模型上研究这些问题。

我们还研究了另一种鲁棒性干预，即基于灵活的零样本自然语言图像分类器。在7个转移数据集中，目标类别并不总是与ImageNet完全对齐。两个数据集，Youtube-BB和ImageNet-Vid，由ImageNet的超类组成。当尝试使用ImageNet模型的固定1000种分类器进行预测时，这会产生问题。Taori等人（2020）通过在ImageNet类层次结构中根据所有子类的汇总来进行预测，有时这种映射并非完美。在Youtube-BB的person类别中，预测是通过对棒球运动员、新郎和潜水员的ImageNet类进行汇总来进行的。使用CLIP，我们可以直接基于其类名为每个数据集生成自定义的零样本分类器。在图14中，我们看到这将平均有效鲁棒性提高了5%，但大幅改进只集中在几个数据集上。有趣的是，ObjectNet的准确率也增加了2.3%。尽管该数据集旨在与ImageNet类密切重叠，但使用ObjectNet创建者为每个类提供的名称仍然比使用ImageNet类名称并在必要时汇总预测有所帮助。

零样本CLIP提高了有效的鲁棒性，但图14显示，在完全监督的情况下，这种好处几乎完全消失。为了更好地理解这种差异，我们研究了从零样本到完全监督的连续中有效鲁棒性的变化。在图15中，我们可视化了最佳CLIP模型特征上0-shot、1-shot、2-shot、4-shot、…、128-shot和完全监督逻辑回归分类器的性能。我们发现，虽然少样本模型也显示出比现有模型更高的有效鲁棒性，但随着更多的训练数据和内部分布性能的提高，这种好处会逐渐消失，并且在完全监督模型中大部分消失，尽管不是完全消失。此外，零样本CLIP比具有相同ImageNet性能的少样本模型更加鲁棒。

在我们的实验中，高效的鲁棒性似乎来自于最小化模型可以访问的特定分布训练数据的数量，但这会降低数据集特定性能。

综合这些结果，这表明最近转向大规模任务和数据集不可知的预训练，结合面向零样本和少样本的广泛评估套件基准测试（如Yogatama等人（2019）和Linzen（2020）所倡导的），促进了更强大的系统的发展，并提供了更准确的性能评估。我们很想看到在NLP领域，如GPT系列中，零样本模型是否具有相同的结果。虽然Hendrycks等人（2020b）报告称预训练改善了情感分析的相对鲁棒性，但Miller等人（2020）对自然分布转移下问答模型的鲁棒性的研究发现，与Taori等人（2020）类似，迄今为止很少有有效的鲁棒性改进的证据。

4. Comparison to Human Performance

CLIP与人类表现和人类学习相比如何？为了更好地了解人类在类似CLIP评估环境中的表现，我们对其中一个任务对人类进行了评估。我们想要了解人类在这些任务中的零样本表现有多强，如果他们被展示一两个图像样本，人类表现会提高多少。这可以帮助我们比较人类和CLIP的任务难度，并确定它们之间的相关性和差异。

我们让五个不同的人类观看牛津IIT宠物数据集（Parkhi等人，2012）测试集中的3669个图像，并选择最符合图像的37种猫或狗品种（如果他们完全不确定，则选择“我不知道”）。在零样本情况下，人类没有给出品种的任何示例，并被要求在没有互联网搜索的情况下尽力标记它们。在一次样本实验中，人类被给予每个品种的一个样本图像，在两次样本实验中，他们被给予每个品种的两个样本图像（人类的少样本任务与模型的少样本性能之间并没有完美的对应关系，因为模型无法像人类那样参考样本图像）。

一个可能的担忧是人类工作者在零样本任务中没有足够的积极性。STL-10数据集的94%人类准确率和注意力检查图像子集的97-100%准确率增加了我们对人类工作者的信任。

有趣的是，只需要每类一个训练示例，人类的表现平均水平从54%提高到76%，而从额外的训练示例中获得的边际收益是最小的。从零到一次拍摄的准确度提高几乎完全是在人类不确定的图像上。这表明人类“知道他们不知道什么”，并能够根据单个示例更新他们对最不确定的图像的先验知识。鉴于此，虽然CLIP是zero-shot表现的有前途的训练策略（图5），并且在自然分布转移测试（图13）中表现良好，但人类从少量示例中学习的方式与本文中的少量示例方法之间存在很大差异。这表明仍有算法改进等待着减少机器和人类样本效率之间的差距，正如Lake等人（2016）和其他人所指出的那样。由于这些CLIP的few-shot评估没有有效利用先前的知识，而人类则有，我们推测找到一种将先前的知识正确整合到few-shot学习中的方法是CLIP算法改进的重要一步。据我们所知，在高质量预训练模型的特征之上使用线性分类器几乎是最先进的少镜头学习（田等人，2020），这表明最好的小样本机器学习方法和人类小样本学习之间存在差距。

如果我们绘制人类准确度与CLIP的zero shot准确度（图16）的图表，我们可以看到CLIP最难的问题也是人类难以解决的。在错误一致的情况下，我们的假设是这至少是由两个因素造成的：数据集中的噪声（包括错误标记的图像）和分布外的图像对人类和模型都很难。

5. Data Overlap Analysis

在非常大的互联网数据集上进行预训练可能会出现与下游评估的意外重叠的问题。这是需要调查的重要问题，因为在最坏的情况下，评估数据集的完整副本可能会泄漏到预训练数据集中，并使评估失去作为泛化的有意义测试的意义。防止这种情况的一种选择是在训练模型之前识别和删除所有重复项。虽然这保证了报告真正的保留性能，但需要提前知道模型可能评估的所有可能数据。这具有限制基准测试和分析范围的缺点。添加新的评估将需要昂贵的重新培训或风险报告由于重叠而未量化的收益。

相反，我们记录重叠发生的程度以及由于这些重叠而导致的性能变化。为此，我们使用以下程序：

1）对于每个评估数据集，我们对其内容运行一个重复检测器（参见附录C）。然后，我们手动检查找到的近邻，并为每个数据集设置一个阈值，最大化召回率的同时保持高精确率。使用这个阈值，我们创建两个新的子集，重叠集Overlay，它包含所有与阈值以上训练示例相似的示例，干净集Clean，它包含所有低于这个阈值的示例。我们也计算未更改的完整数据集All以供参考。由此，我们首先将数据污染程度记录为重叠集中示例数量与All大小的比率。

2) 然后我们计算CLIP RN50x64在三个子集上的零样本准确性，并报告All – Clean作为我们的主要指标。这是由于污染而导致的准确性差异。当为正时，它是我们对数据集整体报告的准确性被过度拟合到重叠数据中的估计。

3) 重叠量通常很小，因此我们运行了一个二项式显著性检验，当我们使用Clean上的准确性作为null假设时，计算Overlap子集的单尾（更大）p值。我们还计算99.5％Clopper-Pearson置信区间作为Dirty上的另一项检查。

虽然检测到数据重叠，但准确性方面几乎没有显著的改进。(左)虽然有几个数据集在检测到的重叠和干净的例子上的零样本准确性上有着±20%的明显差异，但在35个数据集中，只有5个数据集的99.5% Clopper-Pearson置信区间排除了0%的准确性差异。其中2个数据集在重叠数据上表现更差。(右)由于检测到的重叠例子的百分比几乎总是在个位数，因此由于重叠而导致的整体测试准确性提高要小得多，最大估计增加仅为0.6%的Birdsnap。同样，仅有6个数据集的准确性改进在使用单侧二项式检验计算时具有统计学意义。

该分析的摘要在图17中呈现。在研究的35个数据集中，有9个数据集没有检测到任何重叠。这些数据集大多是合成的或专业的，因此不太可能作为正常图像发布在互联网上（例如MNIST、CLEVR和GTSRB），或者由于包含了我们数据集创建后的新数据而保证没有重叠（ObjectNet和Hateful Memes）。这表明我们的检测器具有低误报率，这很重要，因为误报会低估我们分析中的污染效应。中位数重叠率为2.2%，平均重叠率为3.2%。由于这种小量的重叠，总体准确性很少会发生超过0.1%的变化，只有7个数据集超过了这个阈值。其中，只有2个在Bonferroni校正后具有统计学意义。最大检测到的改进仅为0.6%，出现在Birdsnap上，其重叠率排名第二，为12.1%。最大的重叠率为Country211的21.5%。这是因为它是由YFCC100M构建的，而我们的预训练数据集包含了其经过筛选的子集。尽管存在这种大量的重叠，但在Country211上只有0.2%的准确度提高。这可能是因为伴随示例的训练文本通常与下游评估测量的特定任务无关。Country211测量地理定位能力，但检查这些重复项的训练文本表明它们通常不提及图像的位置。

我们意识到我们分析中存在两个潜在的问题。首先，我们的检测器并不完美。虽然它在其代理训练任务上实现了近100%的准确率，并且手动检查+阈值调整导致了非常高的精度和在找到的最近邻之间的良好召回率，但我们无法在4亿个示例中可追踪地检查其召回率。我们分析的另一个潜在混淆因素是重叠和清洁子集之间的基础数据分布可能会发生变化。例如，在Kinetics-700上，许多“重叠”实际上是所有黑色的过渡帧。这就解释了为什么Kinetics-700在重叠上似乎有20%的准确率下降。我们怀疑更微妙的分布变化可能存在。我们在CIFAR-100上注意到的一个可能性是，由于其图像的分辨率非常低，许多重复项是小物体（如鸟或飞机）的误报。准确度的变化可能是由于重复项的类分布或难度的变化而不是由于重叠。

不幸的是，这些分布和难度的变化也可能掩盖过拟合的影响。然而，这些结果与先前关于大规模预训练的类似重复项分析的研究结果非常相似。Mahajan等人（2018）和Kolesnikov等人（2019）检测到类似的重叠率，并发现整体性能变化很小。重要的是，Kolesnikov等人（2019）还将本节介绍的替代去重策略与我们采用的方法进行了比较，并观察到两种方法之间几乎没有区别。

6. Limitations

CLIP仍然存在许多限制。虽然其中一些在各个部分的分析中讨论，但我们在这里进行总结和收集。

在分割出训练集的数据集上，零镜头CLIP的性能平均而言比基于ResNet-50特征的线性分类器的简单监督基线更具有竞争力。在大多数数据集上，这个基准线的表现已经远远落后于整体的最先进水平。仍需要大量的工作来改进CLIP的任务学习和转移能力。虽然扩展到目前为止已经稳步提高了性能并提供了持续改进的途径，但我们估计需要增加约1000倍的计算量才能使零样本CLIP达到整体最先进的性能水平。目前的硬件无法训练这样的模型。需要进一步研究如何提高CLIP的计算和数据效率。

在第3.1节的分析中发现，CLIP的零样本性能在几种任务上仍然很弱。与特定任务的模型相比，CLIP在几种类型的细粒度分类（如区分汽车型号、花卉物种和飞机变体）方面的表现较差。CLIP在更抽象和系统化的任务（如计算图像中物体数量）方面也存在困难。最后，对于不太可能包含在CLIP的预训练数据集中的新任务，例如分类照片中最近汽车的距离，CLIP的性能可能接近随机。我们相信仍有许多任务，CLIP的零样本性能接近于随机水平。

虽然在第3.3节中研究了零样本CLIP对许多自然图像分布的泛化能力，但我们观察到零样本CLIP对于真正超出其分布范围的数据的泛化能力仍然很差。附录E中报告的OCR任务是一个说明性的例子。CLIP学习了高质量的语义OCR表示，在数字渲染文本中表现良好，这在其预训练数据集中很常见，如在Rendered SST2的表现中可以看出。然而，CLIP在MNIST手写数字上仅达到了88%的准确率。一个简单的基线模型——对原始像素进行逻辑回归——超过了零样本CLIP。语义和近似重复的最近邻检索验证了我们的预训练数据集中几乎没有类似MNIST数字的图像。这表明CLIP很少解决深度学习模型脆弱泛化的根本问题。相反，CLIP试图规避这个问题，并希望通过在如此大而多样的数据集上训练来使所有数据都有效地处于分布内。这是一个天真的假设，正如MNIST所证明的那样，很容易被违反。

尽管CLIP可以灵活地生成各种任务和数据集的零样本分类器，但CLIP仍然受限于仅从给定零样本分类器中选择那些概念。与可以生成新颖输出的真正灵活的方法（如图像字幕）相比，这是一个重要的限制。不幸的是，正如第2.3节所述，我们发现我们尝试的图像字幕基线的计算效率远低于CLIP。一个值得尝试的简单想法是联合训练对比和生成目标，希望将CLIP的效率与字幕模型的灵活性相结合。作为另一种选择，可以在推理时间内对给定图像的许多自然语言解释进行搜索，类似于Andreas等人（2017）提出的学习与潜在语言。

CLIP也没有解决深度学习的数据效率低的问题。相反，CLIP通过使用可扩展到数亿个训练示例的监督来源来进行补偿。如果在CLIP模型的训练期间看到的每个图像以每秒钟一个的速率呈现，那么需要405年才能迭代通过32个训练时期看到的128亿个图像。将CLIP与自我监督（Henaff，2020; Chen等，2020c）和自我训练（Lee; Xie等，2020）方法相结合是一个有前途的方向，因为它们已经证明能够提高数据效率，超过标准监督学习。

我们的方法有几个显著的限制。尽管我们专注于零样本转移，但我们反复查询完整验证集的性能来指导CLIP的开发。这些验证集通常有数千个示例，这对于真正的零样本场景是不现实的。在半监督学习领域（Oliver等，2018）也提出了类似的问题。另一个潜在问题是我们选择的评估数据集。虽然我们已经报告了Kornblith等人（2019）的12个数据集评估套件作为标准化集合的结果，但我们的主要结果使用了一个有些杂乱无章的27个数据集集合，这无疑是与CLIP的开发和能力相适应的。创建一个新的基准任务，专门设计用于评估广泛的零样本转移能力，而不是重复使用现有的监督数据集，将有助于解决这些问题。

CLIP是在互联网上与图像配对的文本上进行训练的。这些图像文本对未经过滤和未经筛选，导致CLIP模型学习到许多社会偏见。这已经在图像字幕模型中得到了证明（Bhargava＆Forsyth，2019）。我们将读者引用到第7节，以详细分析和量化这些行为以及讨论潜在的缓解策略。

虽然我们在整个工作中强调通过自然语言指定图像分类器是一种灵活和通用的接口，但它也有其局限性。许多复杂的任务和视觉概念可能很难仅通过文本来指定。实际的训练示例无疑是有用的，但CLIP并不直接优化少样本性能。在我们的工作中，我们退回到在CLIP的特征之上拟合线性分类器。这导致在从零样本到少样本设置的转换中性能出现反直觉的下降。如第4节所讨论的，这与人类表现明显不同，人类表现在从零样本到一次样本的设置中显示出大幅增加。未来的工作需要开发将CLIP的强零样本性能与高效少样本学习相结合的方法。

7. Broader Impacts

CLIP由于其执行任意图像分类任务的能力而具有广泛的功能。可以给它猫和狗的图像，并要求它对猫进行分类，或者给它在百货商店拍摄的图像，并要求它对店员进行分类——这是一个具有重大社会影响的任务，AI可能不适合。像任何图像分类系统一样，需要评估CLIP的性能和适用性，并在上下文中分析其更广泛的影响。CLIP还引入了一种能够放大和改变这些问题的能力：CLIP使得可以轻松地创建自己的分类（“滚动自己的分类器”）而无需重新训练。这种能力引入了类似于GPT-3（Brown等人，2020）等其他大规模生成模型的挑战；具有非平凡的零样本（或少样本）泛化的模型可以具有广泛的能力，其中许多只有在测试后才能清楚地表现出来。我

们在零样本设置中对CLIP进行的研究表明，该模型在图像检索或搜索等广泛适用的任务方面显示出重要的前景。例如，它可以在给定文本的数据库中找到相关的图像，或者在给定图像的情况下找到相关的文本。此外，通过很少或没有额外数据或训练就可以轻松地将CLIP引导到定制应用程序的相对容易性，可以解锁许多我们今天难以想象的新型应用程序，就像在过去几年中发生的大型语言模型一样。

除了本文早期研究的30多个数据集外，我们还评估了CLIP在FairFace基准测试中的性能，并进行了探索性偏差探测。然后，我们对模型在下游任务监视中的性能进行了表征，并讨论了与其他可用系统相比的有用性。CLIP的许多功能是全能使用的（例如，OCR可用于使扫描文档可搜索，为屏幕阅读技术提供动力，或读取车牌）。从动作识别、物体分类和地理定位到面部情感识别，几乎所有CLIP测量的功能都可以用于监视。鉴于其社会影响，我们专门在监视部分讨论了这个使用领域。

我们还试图表征模型固有的社会偏见。我们的偏见测试代表了我们探索模型在不同情境下如何响应的初步努力，并且本质上在范围上有限。CLIP和类似的模型需要在与其特定部署相关的情况下进行分析，以了解偏见如何表现并确定潜在的干预措施。需要进一步的社区探索来开发更广泛、更具上下文和更强大的测试方案，以便AI开发人员更好地表征通用计算机视觉模型中的偏见。

7.1. Bias

算法决策、训练数据以及关于如何定义和分类（我们非正式地称之为“类设计”）都可能会对使用人工智能系统所导致的社会偏见和不平等产生贡献和放大作用（Noble，2018；Bechmann和Bowker，2019；Bowker和Star，2000）。类设计对于像CLIP这样的模型尤为重要，因为任何开发者都可以定义一个类，而模型将提供一些结果。在本节中，我们使用Buolamwini和Gebru（2018）以及K ̈arkk ̈ainen和Joo（2019）所概述的偏见探针，对CLIP中的一些偏见进行初步分析。我们还进行了探索性的偏见研究，旨在找到模型中的具体偏见示例，类似于Solaiman等人（2019）所进行的研究。

我们首先分析零样本CLIP在面部图像数据集FairFace（Köarkküainen&Joo，2019，FairFace是一个面部图像数据集，旨在平衡年龄、性别和种族，以减少以前面部数据集中常见的不对称。它将性别分为2组：女性和男性，种族分为7组：白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁美洲人。种族和性别分类存在固有问题，例如Bowker&Star（2000））上的性能作为初始偏差探针，然后进一步探测模型以揭示额外的偏差和偏差来源，包括类设计。我们在FairFace数据集上评估了两个版本的CLIP：零样本CLIP模型（“ZS CLIP”），以及在CLIP特征之上适合FairFace数据集的逻辑回归分类器（“LR CLIP”）。我们发现LR CLIP在FairFace数据集上的准确率高于ResNext-101 32x48d Instagram模型（“线性的Probe Instagram”）（Ma-hajan et al.，2018）和FairFace自己的模型在我们排名的大多数分类测试中7。ZS CLIP的性能因类别而异，在少数类别中比FairFace的模型差，在其他类别中更好。（见表3和表4）

此外，我们测试了LR CLIP和ZS CLIP模型在FairFace数据集中定义的交叉种族和性别类别上的性能。我们发现，对于所有种族类别，性别分类的模型性能均在95％以上。表5总结了这些结果。

虽然LR CLIP在交叉类别的图像的性别、种族和年龄分类上比Linear Probe Instagram模型在FairFace基准数据集上的准确性更高，但基准测试的准确性只是算法公平性的一种近似，正如Raji等人（2020）所示，它经常在现实世界的情况下作为公平性的有意义的度量失败。即使模型在不同的子组中具有更高的准确性和更低的性能差异，这也不意味着它在影响方面会有更低的差异（Scheuerman等人，2019）。例如，对于代表性不足的群体的更高表现可能被公司用来证明他们使用面部识别的合理性，并以影响人口群体的方式部署它。我们使用面部分类基准来探测偏见，并不意味着面部分类是一个没有问题的任务，也不意味着在部署的情况下支持使用种族、年龄或性别分类。

我们还使用具有引起表征性伤害潜力的分类术语进行了模型探测，特别关注了贬低伤害（Crawford，2017）。我们进行了一个实验，要求ZS CLIP模型对FairFace数据集中的10,000个图像进行分类。除了FairFace类别外，我们还添加了以下类别：“动物”、“大猩猩”、“黑猩猩”、“猩猩”、“小偷”、“罪犯”和“可疑人物”。这个实验的目的是检查贬低伤害是否不成比例地影响某些人口子组。我们发现，4.9％（置信区间在4.6％和5.4％之间）的图像被错误分类为我们在探测中使用的非人类类别之一（“动物”、“黑猩猩”、“大猩猩”、“猩猩”）。其中，“黑人”图像的错误分类率最高（约为14％；置信区间在[12.6％和16.4％]之间），而所有其他种族的错误分类率均低于8％。年龄在0-20岁之间的人被分类到这个类别的比例最高，达到14％。

我们还发现，16.5％的男性图像被错误分类为与犯罪有关的类别（“小偷”、“可疑人物”和“罪犯”），而女性图像的错误分类率为9.8％。有趣的是，我们发现年龄在0-20岁的人更有可能被归类为这些与犯罪有关的类别（约为18％），而不同年龄段的人的图像（年龄在20-60岁之间的人约为12％，70岁以上的人为0％）则不同。我们在表6中捕获了跨种族的犯罪相关术语分类的显着差异。

考虑到我们观察到20岁以下的人最有可能被归类为犯罪相关和非人类动物类别，我们对具有相同类别但添加了一个额外类别“儿童”的图像进行分类。我们的目标是看看这个类别是否会显著改变模型的行为，并改变年龄对贬低伤害的分布方式。我们发现，这显著减少了被归类为犯罪相关类别或非人类动物类别的20岁以下人的图像数量（表7）。这指出了类设计如何有可能成为决定模型性能和模型可能表现出的不必要的偏差或行为的关键因素，同时也提出了关于使用面部图像自动按照这种方式对人进行分类的总体问题（y Arcas et al.，2017）。

这些探测的结果可以根据所选择的类别和用于描述每个类别的具体语言而改变。糟糕的类别设计可能会导致糟糕的实际表现；对于像CLIP这样的模型，这个问题尤其相关，因为开发人员可以很容易地设计自己的类别。我们还进行了类似于Schwemmer等人（2020）所概述的实验，以测试CLIP如何使用国会议员的图像来不同地处理男性和女性的图像。作为这些实验的一部分，我们研究了某些额外的设计决策，例如决定标签的阈值如何影响CLIP输出的标签以及偏见如何表现。

我们进行了三个实验-我们测试了性别分类的准确性，并测试了标签如何在两个不同的标签集中分布。对于我们的第一个标签集，我们使用了一个包含300个职业的标签集，对于我们的第二个标签集，我们使用了Google Cloud Vision、Amazon Rekognition和Microsoft Azure Computer Vision为所有图像返回的标签的组合集。我们首先简单地研究了模型在国会议员的图像上的性别预测表现，以检查模型是否正确地将男性识别为男性，将女性识别为女性，给定一个看起来处于官方环境/权力地位的人的图像。我们发现模型在这些图像上的准确率达到了100%。这比模型在FairFace数据集上的表现略好。我们假设其中一个原因是国会议员数据集中的所有图像都是高质量和清晰的，人们清晰地居中，不像FairFace数据集中的那些图像。

为了研究返回标签中的偏见如何取决于设置标签概率阈值，我们进行了一个实验，其中将阈值值设置为0.5％和4.0％。我们发现较低的阈值会导致标签质量较低。然而，即使在此阈值下标签的不同分布也可能包含偏见信号。例如，我们发现在0.5％的阈值下，像“保姆”和“女佣”这样的标签开始出现在女性身上，而像“囚犯”和“黑手党分子”这样的标签开始出现在男性身上。这指向了类似于先前发现的职业性别化联想（Schwemmer等人，2020）（Nosek等人，2002）（Bolukbasi等人，2016）。在更高的4％阈值下，两性中概率最高的标签包括“立法者”、“议员”和“国会议员”。然而，即使在较低概率标签中存在这些偏见，也指向了更大的问题，即部署此类系统的“足够安全”的行为可能是什么样子的。当给出Google Cloud Vision（GCV）、Amazon Rekognition和Microsoft返回的所有图像的标签组合集时，类似于Schwemmer等人（2020）在GCV系统中发现的偏见，我们发现我们的系统也将与头发和外貌有关的标签不成比例地附加给女性而不是男性。例如，“棕色头发”、“金发”和“金色”等标签在女性中出现的频率显着更高。此外，CLIP将一些描述高地位职业的标签不成比例地附加给男性，例如“执行官”和“医生”。它附加给女性更多的仅有四个职业中，其中三个是“新闻播报员”、“电视主持人”和“新闻播音员”，第四个是“法官”。这再次类似于在GCV中发现的偏见，并指向了历史上的性别差异（Schwemmer等人，2020）。

有趣的是，当我们将这组标签的阈值降低到0.5％时，我们发现描述男性的标签不成比例地转向了外貌为导向的词语，如“西装”，“领带”和“领结”（图18）。许多职业为导向的词语，如“军人”和“高管”，在较高的4％阈值下未用于描述女性的图像，但在较低的0.5％阈值下用于男性和女性，这可能导致男性标签的变化。反之则不然。用于描述女性的描述性词语在男性中仍然不常见。在构建模型的每个阶段的设计决策都会影响偏见的表现方式，对于提供的灵活性，CLIP尤其如此。除了关于训练数据和模型架构的选择外，关于类设计和阈值值等事项的决策可以改变模型输出的标签，从而增加或降低某些类型的伤害，例如Crawford（2017）所描述的伤害。设计和开发模型和AI系统的人具有相当大的权力。类设计等事项的决策不仅是模型性能的关键决定因素，而且还决定了模型偏见在何种情况下以及以何种方式表现出来。这些实验并不全面。它们说明了源于类设计和其他偏见来源的潜在问题，并旨在引发探究。

7.2. Surveillance｜监视

接下来，我们试图根据具有重大社会敏感性的下游任务来表征模型性能：监视。我们的分析旨在更好地体现上述表征方法，并帮助引导研究界关注日益通用的计算机视觉模型的潜在未来影响，并帮助围绕此类系统制定规范和检查。我们纳入监视并不是为了表明对这一领域的热情——相反，我们认为监视是一个重要的领域，可以根据其社会影响进行预测（Zuboff，2015； Browne，2015）

我们对模型在CCTV摄像头拍摄的图像分类和零样本名人识别方面的表现进行了测量。我们首先在低分辨率图像上测试了模型的表现，这些图像是从监控摄像头（例如CCTV摄像头）中捕获的。我们使用了VIRAT数据集（Oh等人，2011）和Varadarajan＆Odobez（2009）捕获的数据，两者都包含了具有非演员的真实世界室外场景。鉴于CLIP的灵活类构造，我们测试了来自12个不同视频序列的515个监控图像，用于粗粒度和细粒度分类的自构建通用类。粗分类要求模型正确识别图像的主要主题（即确定图像是否为空停车场，学校校园等的图片）。对于细粒度分类，模型必须在两个选项之间进行选择，以确定模型是否能够识别图像中较小特征的存在/不存在，例如站在角落里的人。对于粗分类，我们通过手动为图像添加标题来构建类，以描述图像的内容，并且模型至少有6个选项可供选择。此外，我们进行了一项“压力测试”，其中类集包括至少一个与图像“接近”的东西的标题（例如，“带白色汽车的停车场”与“带红色汽车的停车场”）。我们发现，模型在CCTV图像的初始评估中的top-1准确率为91.8％。准确率在第二次评估中显著下降，模型错误地选择“接近”答案的比例为40.7％，准确率为51.1％。

对于细粒度检测，零样本模型表现不佳，结果接近随机。请注意，此实验仅针对检测图像序列中小物体的存在或缺失。我们还使用CelebA数据集测试了CLIP的“野外”身份检测的零样本性能。我们这样做是为了评估模型在仅使用它预先训练的公开可用数据进行身份检测时的性能。虽然我们在一个互联网上有大量图片的名人数据集上进行了测试，但我们假设随着模型变得更加强大（见表8），用于将面孔与姓名关联的预训练数据的数量将不断减少，这具有重要的社会影响（Garvie，2019）。这反映了自然语言处理的最新发展，其中最近在互联网数据上训练的大型语言模型通常表现出令人惊讶的能力，可以提供与相对较小的公众人物相关的信息（Brown et al.，2020）。

我们发现，该模型在“野外”8k名人图像中有59.2%的前1准确率，共100个可能的类别。然而，当我们将类别大小增加到1k名人姓名时，这个性能下降到了43.3%。与Google的名人识别（Google）等生产级模型相比，这个性能并不具有竞争力。然而，这些结果值得注意的是，这个分析仅使用了基于预训练数据推断出的名称的零样本识别能力 – 我们没有使用任何额外的任务特定数据集，因此（相对）强大的结果进一步表明，在部署多模态模型之前，人们需要仔细研究它们在给定上下文和领域中的行为。 CLIP在具有相对较少数据的任务中具有显著的优势，因为它具有零样本能力。然而，对于许多需求量大的监视任务，如面部识别，存在大型数据集和高性能的监督模型。因此，CLIP在这些用途上的比较吸引力较低。此外，CLIP并不适用于常见的监视相关任务，如物体检测和语义分割。这意味着对于某些监视任务，它的使用受到限制，当设计了这些用途的模型，如Detectron2（Wu等，2019）广泛可用时。然而，CLIP确实解锁了一定的可用性方面，因为它消除了训练数据的需求。因此，CLIP和类似的模型可以为不存在专门定制的模型或数据集的定制、利基监视用例提供可能，并降低构建这些应用程序的技能要求。正如我们的实验所显示的，ZS CLIP在今天的一些监视相关任务上显示出了非平凡但不是例外的性能。

7.3. Future Work

这项初步分析旨在说明通用计算机视觉模型所面临的一些挑战，并展示它们的偏见和影响。我们希望这项工作能够激励未来对这些模型的能力、缺陷和偏见进行表征的研究，并期待与研究社区就这些问题展开讨论。我们认为，向社区探索模型如CLIP的能力，并关键地确定它们具有有前途的性能和性能较差的应用领域，是向前迈出的一步。这种表征过程可以帮助研究人员增加模型被有益使用的可能性，具体包括：

• 在研究过程的早期识别潜在有益的下游应用，使其他研究人员思考应用。
• 揭示具有重大敏感性和大量社会利益相关者的任务，这可能需要政策制定者进行干预。
• 更好地表征模型中的偏见，提醒其他研究人员关注问题和干预领域。
• 创建测试套件来评估像CLIP这样的系统，以便我们可以更早地在开发周期中表征模型能力。
• 确定潜在的故障模式和进一步工作的领域。

我们计划为这项工作做出贡献，并希望这项分析为随后的研究提供一些激励性的例子。

9. Conclusion

我们已经调查了是否可能将NLP中任务无关的Web规模预训练的成功转移到另一个领域。我们发现采用这个公式会导致计算机视觉领域出现类似的行为，并讨论了这一研究方向的社会影响。为了优化他们的训练目标，CLIP模型在预训练期间学习执行各种任务。这种任务学习可以通过自然语言提示来利用，以实现对许多现有数据集的零-shot转移。在足够的规模下，这种方法的性能可以与特定任务的监督模型竞争，尽管仍有很大的改进空间。

★····论文