Entraînement avec les modalités manquantes
L’une des principales caractéristiques des environnements multisensoriels est que les données ne sont pas toujours observables conjointement, surtout pendant l’entraînement (modalités manquantes). Par exemple, nous voyons de nombreux nouveaux objets sans interaction haptique, mais nous pouvons quand même deviner ce que nous ressentirions en les saisissant. Ceci est lié à la façon dont nous pouvons regrouper plusieurs expériences contextuelles pour inférer notre représentation de scène z. Un choix simple pour un tel regroupement est la sommation (voir le « modèle de base » ci-dessous). On peut ainsi faire la somme de toutes les expériences, même si certains vecteurs sont cachés! Un avantage important de cette sommation est qu’il s’agit d’une opération qui ne varie pas selon l’ordre, alors les sommes résultantes sont censées être les mêmes, quel que soit l’ordre des expériences. Tant que l’encodeur qui lit cette représentation est assez puissant, notre modèle peut inférer correctement la structure en 3D.
Cependant, cette solution simple peut présenter un inconvénient potentiel pour un scénario d’entraînement avec modalité manquante. Si le modèle n’a pas expérimenté certaines combinaisons de modalités différentes pendant l’entraînement, l’encodeur peut ne pas être capable de gérer cette toute nouvelle combinaison au moment du test. À cet égard, il a été démontré que les produits d’experts (PoE) constituent une bonne solution dans de tels scénarios (Wu et Goodman, 2018). Par exemple, l’encodeur haptique représente la probabilité d’un objet avec un certain degré d’incertitude. Les informations visuelles supplémentaires peuvent également présenter différents types d’incertitude. Mais nous devons toujours représenter la distribution combinée comme leur produit. Ainsi, chaque encodeur peut apprendre l’incertitude de manière indépendante, et on peut l’entraîner pour un produit spécifique. Pendant l’entraînement, même s’il n’y a pas de données d’entrée pour un sens, le sens manquant serait associé à sa propre incertitude dans un monde en 3D. Les autres capteurs fonctionneraient aussi indépendamment les uns des autres.
Dans cette étude, nous observons en outre que les implémentations standard de produits d’experts nécessitent une mémoire et des calculs importants, en particulier pour les modèles dont la taille est relativement importante. Pour composer avec cette complexité de calculs, nous intégrons l’amortissement, donc le produit d’experts amorti (APoE). Adoptez un seul modèle d’apprentissage qui fait tout!