优于 OpenAI的CLIP 的新 CLIP【多模态吧】

多模态吧关注：81贴子：270

6回复贴，共1页

优于 OpenAI的CLIP 的新 CLIP

Contrastive Language-Image Pre-training （CLIP）是利用自然语言描述图像的数据，训练时对图像和文本具有深度理解能力的神经网络模型。通过使用自然语言作为监督信号，CLIP 可以自然地跨越多个视觉和语言数据集，且具有较强的可迁移性。最早的CLIP由openai训练完成。
但现在有了优于 OpenAI 的 CLIP，使用DataComp-1B数据集训练的CLIP ViT-L/14模型，可用于zero-shot、任意图像分类、图像和文本检索等任务，zero-shot准确率为79.2%
该重新训练的CLIP可以用在许多原本openai的CLIP运用的地方，比如替换stable diffusion原本的CLIP