第61回 コンピュータビジョン勉強会@関東(前編)の発表資料です。codebookを持つタイプのCLIPの学習において、言語エンコーダを学習途中で定期的に初期化しながら学習するとCLIPの構成性を捉える能力が飛躍的に向上するという論文を紹介しました。
紹介した論文:Iterated Learning Improves Compositionality in Large Vision-Language Models (CVPR2024)
第61回 コンピュータビジョン勉強会@関東(前編)の発表資料です。codebookを持つタイプのCLIPの学習において、言語エンコーダを学習途中で定期的に初期化しながら学習するとCLIPの構成性を捉える能力が飛躍的に向上するという論文を紹介しました。
紹介した論文:Iterated Learning Improves Compositionality in Large Vision-Language Models (CVPR2024)