CLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION
abstract
method
CLIP
open AI
2021.2
代码&预训练模型
abstract
原有的基于有监督数据训练的计算机分类任务,在面对新的分类目标时泛化性和可用性都会变差;
本文提出使用海量网络图文匹配的数据(400 millon),做预训练模型。和NLP中的GPT模型效果类似,1实现可以zero-shot的迁移到很多图像任务——在30多个图像数据集(比如OCR,视频动作识别以及细分的图像分类任务),都表现良好。比如对于ResNet-50 on ImageNet的分类任务,不需要训练数据达到精确度相当的结果。
CLIP, for Con- trastive Language-Image Pre-training