Neural Multisensory Scene Inference


Jae Hyun Lim*, Pedro O. Pinheiro, Negar Rostamzadeh, Christopher Pal, Sungjin Ahn*

Element AI, Mila, Université de Montréal, Polytechnique Montréal, Rutgers University

*Correspondence to jae.hyun.lim@umontreal.ca and sungjin.ahn@cs.rutgers.edu

Le cerveau humain se représente un concept en se fondant sur plusieurs stimulus sensoriels. On peut ainsi imaginer le visage d’une personne à partir de sa voix, ou chercher des ciseaux dans un tiroir en explorant l’intérieur avec les mains. Pour que les agents animés puissent inférer des représentations du monde physique en 3D qu’ils habitent, ils doivent combiner efficacement des indices multisensoriels provenant de nombreux essais, réalisés par exemple en regardant et en touchant des objets. Malgré son importance, l’apprentissage multisensoriel de représentations de scènes en 3D a reçu moins d’attention que l’apprentissage unimodal. Dans cet article, nous proposons le réseau multisensoriel génératif (Generative Multisensory Network, ou GMN) pour l’apprentissage de représentations latentes de scènes en 3D partiellement observables par plusieurs modalités sensorielles. Nous présentons également une nouvelle méthode, appelée produit d’experts amorti, visant à améliorer l’efficacité computationnelle et la fiabilité avec des combinaisons de modalités invisibles au moment du test. Les résultats expérimentaux démontrent que le modèle proposé peut inférer efficacement des représentations efficaces de scènes en 3D à partir de combinaisons arbitraires de modalités, invariables selon la modalité, et qu’il permet une génération transmodale précise. Pour réaliser cette exploration, nous développons également le Multisensory Embodied 3D-Scene Environment (MESE).

Combinaison d’indices multisensoriels pour inférer une structure en 3D

L’une des tâches robotiques les plus intéressantes consiste à saisir ou à manipuler des objets avec la main d’un robot; consultez par exemple OpenAI et coll., 2018. Il est bien connu que pour réaliser cette tâche, la construction efficace d’une représentation pertinente à la tâche est importante. Comme il n’est pas facile de faire apprendre une telle représentation à partir de données, de nombreux travaux se concentrent sur les commandes, tout en utilisant des extracteurs de caractéristiques formés par apprentissage supervisé (Pinto et Gupta 2016; OpenAI et coll., 2018). Cependant, qu’est-ce qui rend difficile l’apprentissage de l’information pertinente à la tâche ici?

Learning-to-Grasp

(Pinto & Gupta 2016)

Learning Dexterous In-Hand Manipulation

(OpenAI et al., 2018)

Cette tâche donnée en exemple nécessite que les représentations pertinentes à la tâche présentent certaines propriétés complexes. (1) Les représentations sont censées abstraire l’information 3D. (2) L’environnement, ou le processus d’acquisition des données, peut avoir une propriété stochastique intrinsèque. (3) Les agents ont généralement besoin d’inférer ces informations 3D avec leurs mains ou à partir d’une caméra intégrée. Autrement dit, les capteurs des robots peuvent ne pas déjà contenir d’informations 3D. Dans des conditions courantes, ces capteurs ne peuvent observer que de petites parties de l’ensemble de la situation (partiellement observable). (4) En outre, toute représentation d’un tel environnement doit être indépendante du sens utilisé; elle doit donc être construite à partir d’informations multisensorielles, par exemple haptiques et visuelles.

Peut-on apprendre des représentations pour satisfaire les desiderata? Peut-on inférer une structure en 3D à partir d’informations haptiques une fois de telles représentations apprises? Quelles sont les autres difficultés associées aux environnements multisensoriels? Les travaux actuels tentent d’aborder ces questions et proposent une méthode d’apprentissage des représentations en 3D indépendantes du sens à partir de données d’entrée multisensorielles partiellement observables.

Peut-on inférer la forme d’un objet sans le voir?

Environnement intégré multisensoriel de scène en 3D (MESE)

Imaginez que vous avez une main et un œil. Si quelqu’un vous fait toucher une tasse de la main, pouvez-vous imaginer son apparence sans la voir? Pourriez-vous imaginer une façon de la saisir avec la main seulement en la voyant? Ce scénario simple résume les exigences mentionnées ci-dessus.

Pour ce faire, nous construisons un environnement de simulation, appelé Environnement intégré multisensoriel de scène en 3D (MESE). Au lieu d’une tasse, nous adoptons les objets de rotation mentale Shepard-Metzler, issus de travaux récents de DeepMind (Eslami et coll., 2018). Ces objets ont des formes en 3D non triviales, composées de plusieurs cubes. Lorsque chaque cube d’un objet unique est coloré au hasard, notamment, il n’est pas facile d’inférer la forme ou les couleurs de l’objet en utilisant des données visuelles ou haptiques partielles. Pour simuler la main, nous utilisons le modèle de la main MPL, de la bibliothèque Mujoco HAPTIX (Kumar et Todorov, 2015). Dans cet environnement, nous (1) générons au hasard un objet Shepard-Metzler unique et (2) simulons les interactions visuelles ou haptiques, et les données qui en résultent. Pour en savoir plus sur la conception de l’environnement, veuillez consulter notre article.

Un exemple de scénario de simulation est illustré ci-dessous. Imaginez un seul objet sélectionné de façon aléatoire. Si une caméra observe cet objet d’un seul point de vue, elle verra une image en 2D. Si une main saisit l’objet à partir d’une seule position en utilisant une politique prédéfinie, cette main obtiendra des informations haptiques. L’environnement MESE est conçu pour simuler ce processus; nous générons environ 1 million de ces objets et les interactions correspondantes afin de faire apprendre des représentations invariables selon la modalité.

Environnement intégré multisensoriel de scène en 3D (MESE)

Exemple de scène multisensorielle à objet unique dans un MESE

Generative Multisensory Network (GMN)

Notre objectif est maintenant de faire apprendre une représentation de l’objet en 3D invariable selon les modalités, grâce à des interactions visuelles et haptiques. Rappelez-vous l’exemple de la tasse. Vous pouvez faire l’expérience d’une tasse sur une table seulement en la touchant ou en la saisissant, la main dans certaines positions. Quelqu’un peut vous demander si vous arrivez à imaginer visuellement l’apparence de la tasse. Nous pouvons définir un modèle génératif pour un tel scénario, comme suit. Imaginez que vous avez déjà une certaine expérience en matière d’interaction (le contexte dans la figure ci-dessous). Si nous supposons avoir une représentation (représentation d’une scène) qui tient compte de toute l’expérience antérieure, nous pourrions arriver à prédire l’apparence de cet objet vu de derrière (sens d’observation) à l’aide de cette représentation. Mais il se pourrait aussi que notre supposition ne soit pas exacte, l’expérience antérieure n’étant pas suffisante. En utilisant des données de simulation générées à l’aide de l’environnement MESE, nous pouvons former ce modèle génératif conditionnel afin de maximiser les probabilités par la méthode de la variation de la constante. Notez que cette façon de formuler la représentation d’une scène en 3D est proposée à l’origine dans le modèle GQN de DeepMind (Eslami et coll., 2018). Pour en savoir plus sur les modèles et leur entraînement, consultez notre article!

Generation process of GMN

Inférence de la représentation latente en 3D à partir de données d’entrée sensorielles multimodales

Comment se comporteraient nos modèles? Peuvent-ils combiner des repères haptiques et visuels pour inférer une structure en 3D? Nous pouvons avoir un aperçu de leurs propriétés en observant comment les modèles entraînés prédisent les objets.

Examinons par exemple la figure de gauche ci-dessous. Nous fournissons une expérience visuelle et plusieurs renseignements haptiques à un modèle. Ici, l’expérience visuelle ne suffit pas à deviner la forme de l’objet. Ensuite, le modèle est invité à prédire des images en 2D à partir de positions prédéfinies. Étant donné que notre représentation d’une scène (« z ») est une variable aléatoire, nous pouvons l’échantillonner plusieurs fois. Quatre valeurs z sont échantillonnées. Même avec des valeurs de représentation différentes, toutes les représentations correspondent aux mêmes formes! Tout a l’air d’aller. Cependant, nous échantillonnons ce z en n’effectuant le conditionnement que sur une seule image avec un angle particulier. Les couleurs résultantes varient selon les différents z échantillonnés. D’autre part, nous pouvons également observer que la prédiction est relativement précise aux endroits où la couleur est visible, par rapport aux autres parties.

Inférence transmodale utilisant la représentation d’une scène (1)

(a) contexte visuel et (b) haptique. (c) observation de l’image générée, en fonction des requêtes d’image. (d) observations de l’image réelle.

Inférence transmodale utilisant la représentation d’une scène (2)

(a) axe des x : indices des paires données haptiques-requête en contexte. (b) observations de l’image réelle pour des requêtes données.

Nous pouvons également montrer que la prédiction s’améliore avec le nombre de contextes. Examinez la figure de droite ci-dessus. Imaginons un environnement similaire. Cette fois-ci, nous allons échantillonner des images avec des conditions contextuelles variables. Ici, l’axe des x montre les indices d’interaction haptique dans la rangée supérieure. Nous n’échantillonnons qu’un seul z par colonne. La première colonne montre le conditionnement par cette seule paire visuelle requête-sens et aucun autre contexte. Comme nous n’avons pas beaucoup de données, la forme générée est aléatoire. La deuxième colonne montre le conditionnement avec une expérience haptique de plus, en plus de l’expérience visuelle de la colonne précédente. La colonne suivante montre le conditionnement avec des données haptiques supplémentaires. On peut voir que certaines parties touchées par la main se précisent sur l’échantillon!

Entraînement avec les modalités manquantes

L’une des principales caractéristiques des environnements multisensoriels est que les données ne sont pas toujours observables conjointement, surtout pendant l’entraînement (modalités manquantes). Par exemple, nous voyons de nombreux nouveaux objets sans interaction haptique, mais nous pouvons quand même deviner ce que nous ressentirions en les saisissant. Ceci est lié à la façon dont nous pouvons regrouper plusieurs expériences contextuelles pour inférer notre représentation de scène z. Un choix simple pour un tel regroupement est la sommation (voir le « modèle de base » ci-dessous). On peut ainsi faire la somme de toutes les expériences, même si certains vecteurs sont cachés! Un avantage important de cette sommation est qu’il s’agit d’une opération qui ne varie pas selon l’ordre, alors les sommes résultantes sont censées être les mêmes, quel que soit l’ordre des expériences. Tant que l’encodeur qui lit cette représentation est assez puissant, notre modèle peut inférer correctement la structure en 3D.

Cependant, cette solution simple peut présenter un inconvénient potentiel pour un scénario d’entraînement avec modalité manquante. Si le modèle n’a pas expérimenté certaines combinaisons de modalités différentes pendant l’entraînement, l’encodeur peut ne pas être capable de gérer cette toute nouvelle combinaison au moment du test. À cet égard, il a été démontré que les produits d’experts (PoE) constituent une bonne solution dans de tels scénarios (Wu et Goodman, 2018). Par exemple, l’encodeur haptique représente la probabilité d’un objet avec un certain degré d’incertitude. Les informations visuelles supplémentaires peuvent également présenter différents types d’incertitude. Mais nous devons toujours représenter la distribution combinée comme leur produit. Ainsi, chaque encodeur peut apprendre l’incertitude de manière indépendante, et on peut l’entraîner pour un produit spécifique. Pendant l’entraînement, même s’il n’y a pas de données d’entrée pour un sens, le sens manquant serait associé à sa propre incertitude dans un monde en 3D. Les autres capteurs fonctionneraient aussi indépendamment les uns des autres.

Dans cette étude, nous observons en outre que les implémentations standard de produits d’experts nécessitent une mémoire et des calculs importants, en particulier pour les modèles dont la taille est relativement importante. Pour composer avec cette complexité de calculs, nous intégrons l’amortissement, donc le produit d’experts amorti (APoE). Adoptez un seul modèle d’apprentissage qui fait tout!

Modèle de référence, produit d’experts (PoE) et PoE amorti

Dans notre article, nous démontrons que le modèle avec APoE apprend de meilleures représentations indépendantes des modalités, ainsi que des représentations spécifiques aux modalités. Nous présentons également diverses expériences visant à comparer les caractéristiques du modèle de base et du modèle avec APoE (et PoE). Ils sont très intéressants à examiner :) Veuillez consulter notre article pour en savoir plus.

Conclusion

Dans cette étude, nous proposons le réseau multisensoriel génératif (GMN) pour la compréhension de scènes en 3D par l’apprentissage de représentations invariables selon les modalités. Dans le cadre du GMN, nous introduisons le produit d’experts amorti (APoE) afin de traiter le problème des modalités manquantes tout en résolvant le problème de la complexité spatiale posé par le produit d’experts standard. Grâce à des expériences portant sur des scènes en 3D avec des blocs de formes différentes et une main humanoïde, nous démontrons que le GMN peut générer n’importe quelle modalité à partir de n’importe quelle configuration de contexte. Nous démontrons également que le modèle avec APoE apprend de meilleures représentations indépendantes des modalités, ainsi que des représentations spécifiques aux modalités. À notre connaissance, il s’agit de la première exploration de l’apprentissage de la représentation multisensorielle avec données visuelles et haptiques pour la génération d’objets en 3D. De plus, nous avons créé un nouvel environnement de simulation multisensorielle, appelé Environnement intégré multisensoriel de scène en 3D (MESE), qui est essentiel pour réaliser ces expériences.

D’autre part, beaucoup de questions restent sans réponse. Par exemple, il est important de connaître le rendement de ce modèle dans des environnements plus complexes. Il est également intéressant de se demander si la représentation apprise est réellement utile pour les tâches en aval, comme la tâche de préhension d’un robot. Quelqu’un pourrait être intéressé par un environnement où le modèle proposé est appris conjointement au travail des bras robotiques.

Element AI © Element AI 2019 tous droits réservés