Learning Transferable Visual Models From Nautral Language Supervision

Information

2022년 11월 04일 (금) | 발표자: 김승우

Slide

Download the slide

Overview

CLIP (Contrastive Language-Image Pre-training) 은 natural language supervision을 통하여 task에 특정되지 않은 vision model을 pre-training 방법론은 제시한다. 저자들은 웹에서 수집한 (image, text) pair를 이용하여 contrastive learning을 이용한 pre-training을 진행하고 각 task 별 transfer learning을 진행하였을 때 성능과 task에 맞춰진 모델의 성능을 비교하였을 때 다수의 task에서 성능이 상승함을 보이고 있다. 또한, linear probing을 이용하여 representation을 ImageNet에 pre-trained 된 모델과 비교하고 dataset distribution shift에 대하여서도 강건함을 보이고 있다.

Replay on YouTube

Page updated

Google Sites

Report abuse