Contrastive Language-Image Pre-training (CLIP)是利用自然语言描述图像的数据,训练时对图像和文本具有深度理解能力的神经网络模型。通过使用自然语言作为监督信号,CLIP 可以自然地跨越多个视觉和语言数据集,且具有较强的可迁移性。最早的CLIP由openai训练完成。
但现在有了优于 OpenAI 的 CLIP,使用DataComp-1B数据集训练的CLIP ViT-L/14模型,可用于zero-shot、任意图像分类、图像和文本检索等任务,zero-shot准确率为79.2%
该重新训练的CLIP可以用在许多原本openai的CLIP运用的地方,比如替换stable diffusion原本的CLIP

但现在有了优于 OpenAI 的 CLIP,使用DataComp-1B数据集训练的CLIP ViT-L/14模型,可用于zero-shot、任意图像分类、图像和文本检索等任务,zero-shot准确率为79.2%
该重新训练的CLIP可以用在许多原本openai的CLIP运用的地方,比如替换stable diffusion原本的CLIP
