NAISTで行った講義です。「コンピュータビジョン最前線Winter2021 ニュウモンVision and Language」の内容をベースとして、Vision&Languageの研究動向を扱った全4回の講義となっています。一般に公開しております。英語での講義です。

第一回:Introduction、実世界理解のためのV&L技術 I

[task] Image recognition, object detection, image-captioning

[modeling] CNN, Scene graph, Transformer

第二回:実世界理解のためのV&L技術 II

[task] image-captioning

[modeling] RNN, Transformer, text generation with reinforcement learning

第三回:インタラクションとコミュニケーションを行うV&Lシステム I

[task] Visual Question Answering, Vision and Language Navigation, Visual dialog, Text-to-image, Referring expression

[modeling] V&L pre-trained language models, GAN, VAE, DALL-E, CLIP

第四回:インタラクションとコミュニケーションを行うV&Lシステム II

[task] Visual Question Answering, Vision and Language Navigation, Visual dialog, Text-to-image, Referring expression

[modeling] V&L pre-trained language models, GAN, VAE, DALL-E, CLIP