コンピュータビジョン最前線Summer2023

「フカヨミCLIP」の執筆を担当しました。現在様々なシーンで利用されている基盤モデルCLIPについてフカヨミしました。CLIPが画像の局所情報の扱いを苦手にしている点に焦点を当て、CLIPを目利きに育てる対照学習の工夫について解説しています。もちろん単独で読んでもOKですが、CVIMチュートリアル1(もしくはコンピュータビジョン最前線Winter2021)の「ニュウモンVision and Language」とセットで読むのがおススメです。