Contrastive Language-Image Pre-training (CLIP)是利用自然语言描述图像的数据,训练时对图像和文本具有深度理解能力的神经网络模型。通过使用自然语言作为监督信号,CLIP 可以自然地跨越多个视觉和语言数据集,且具有较强的可迁移性。最早的CLIP由openai训练完成。
但现在有了优于 OpenAI 的 CLIP,使用DataComp-1B数据集训练的CLIP ViT-L/14模型,可用于zero-shot、任意图像分类、图像和文本检索等任务,zero-shot准确率为79.2%
该重新训练的CLIP可以用在许多原本openai的CLIP运用的地方,比如替换stable diffusion原本的CLIP
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b9e4114d8e1349547e1ee86c664f92dd/b3c75c256b600c33607f77045f4c510fd8f9a11b.jpg?tbpicau=2025-02-24-05_5e2affcbaae8e15169b53fee20fbe3bd)
但现在有了优于 OpenAI 的 CLIP,使用DataComp-1B数据集训练的CLIP ViT-L/14模型,可用于zero-shot、任意图像分类、图像和文本检索等任务,zero-shot准确率为79.2%
该重新训练的CLIP可以用在许多原本openai的CLIP运用的地方,比如替换stable diffusion原本的CLIP
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b9e4114d8e1349547e1ee86c664f92dd/b3c75c256b600c33607f77045f4c510fd8f9a11b.jpg?tbpicau=2025-02-24-05_5e2affcbaae8e15169b53fee20fbe3bd)