Microsoft veut doter ses agents IA d’une vision 3D

L’éditeur présente MindJourney, un framework IA conçu pour améliorer la visualisation spatiale en 3D des agents vidéo, avec des applications en robotique et réalité augmentée.

La recherche sur la reconnaissance d’image, longtemps centrée sur l’analyse d’images fixes (comme le fameux détecteur de chats de Google), entre désormais dans une phase axée sur la vidéo et la visualisation en 3D. Nvidia est déjà très actif sur ce front, avec ses modèles Cosmos et, plus récemment, le lancement du Jetson Thor, un ordinateur embarqué capable d’exécuter localement des VLM (video langage model) pour robots.

Pour répondre à ces défis, des chercheurs de Microsoft ont présenté un framework baptisé MindJourney, destiné à doter les agents IA pour la vidéo de capacités avancées d’exploration et de raisonnement spatial dans des environnements en trois dimensions. Dévoilé dans un billet de blog fin août, la solution combine plusieurs briques d’intelligence artificielle : modèles de langage visuel (VLM), systèmes de génération vidéo et algorithmes de raisonnement. Ensemble, ces composants s’appuient sur des « modèles de monde » capables de simuler des environnements réels et d’anticiper l’évolution des scènes.

Vers un raisonnement spatial en 3D

Les VLM analysent les pixels pour identifier objets et éléments visuels, puis en déduire des relations spatiales. Cette approche dépasse les limites des modèles centrés sur la 2D en offrant des perspectives multiples et dynamiques sur une scène. Concrètement, la plateforme d’exploration 3D génère divers scénarios visuels qu’un agent pourrait rencontrer selon sa trajectoire, à la manière des générateurs de texte prédictifs. « Cette amélioration autorise aux agents d’interpréter plus finement les relations spatiales et les dynamiques physiques, afin d’agir efficacement dans des environnements changeants », expliquent les chercheurs. MindJourney simule le déplacement d’une caméra dans un espace 3D et analyse toutes les vues générées afin de donner la possibilité à l’IA de mieux comprendre la disposition des objets et leurs relations on écrit les chercheurs dans un article sur leurs travaux.

Pour naviguer dans l’espace 3D, MindJourney utilise un modèle de monde entraîné sur une grande collection de vidéos capturées depuis des points de vue mobiles, afin de prédire comment une scène pourrait apparaître sous différents angles. Grâce à une recherche de faisceau spatial, l’agent priorise les chemins les plus prometteurs et se concentre sur les perspectives les plus informatives. Cette boucle d’imagination permet d’anticiper les mouvements, de tester plusieurs points de vue et de raisonner sur des relations spatiales complexes, bien au-delà d’une image 2D unique.

Dérives potentielles

Les applications envisagées vont des robots d’assistance et de l’inspection à distance jusqu’à l’enrichissement d’expériences immersives en réalité augmentée ou virtuelle. Mais les auteurs soulignent aussi des risques : un tel progrès pourrait renforcer les systèmes de surveillance autonomes, des usages militaires, ou encore accélérer l’automatisation de tâches manuelles.

Microsoft prévoit d’étendre MindJourney pour que les modèles de monde puissent non seulement prédire des points de vue supplémentaires, mais aussi anticiper comment les scènes évolueront dans le temps, améliorant ainsi la compréhension des relations spatiales et de la dynamique physique.

chevron_left
chevron_right