多模态吧 关注:78贴子:258
  • 6回复贴,共1

优于 OpenAI的CLIP 的新 CLIP

只看楼主收藏回复

Contrastive Language-Image Pre-training (CLIP)是利用自然语言描述图像的数据,训练时对图像和文本具有深度理解能力的神经网络模型。通过使用自然语言作为监督信号,CLIP 可以自然地跨越多个视觉和语言数据集,且具有较强的可迁移性。最早的CLIP由openai训练完成。
但现在有了优于 OpenAI 的 CLIP,使用DataComp-1B数据集训练的CLIP ViT-L/14模型,可用于zero-shot、任意图像分类、图像和文本检索等任务,zero-shot准确率为79.2%
该重新训练的CLIP可以用在许多原本openai的CLIP运用的地方,比如替换stable diffusion原本的CLIP


IP属地:广西来自Android客户端1楼2023-05-09 23:07回复
    模型地址:网页链接


    IP属地:广西来自Android客户端2楼2023-05-10 16:17
    回复
      试了一下,太nb了!


      IP属地:陕西来自Android客户端3楼2023-05-22 21:40
      收起回复