CLIP:对比语言 图像预训练 源码
夹子 CLIP(对比语言-图像预训练)是在各种(图像,文本)对上训练的神经网络。 可以用自然语言指示它来预测给定图像的最相关的文本片段,而无需直接针对任务进行优化,类似于GPT-2和3的零射功能。我们发现CLIP与原始ResNet50的性能匹配无需使用任何原始的1.28M标记示例,就可以在ImageNet上实现“零镜头”,从而克服了计算机视觉方面的几个主要挑战。 方法 用法 首先,和torchvision,以及小的附加依赖项,然后将此回购作为Python软件包安装。 在CUDA GPU机器上,以下方法可以解决问题: $ conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=11.0 $ pip install ftfy regex tqdm $ pip install git+https://githu
下载地址
用户评论