OpenAI améliore la génération de vidéo avec Sora 2

Face à la concurrence, OpenAI a présenté la deuxième version de Sora. Le générateur de vidéo propose des mouvements plus naturels et des scènes plus crédibles mêlant réalité et virtuel. Une application pour iOS est aussi en cours de test.

Après le lancement du premier modèle en février 2024, qui avait introduit des notions de cohérence visuelle et temporelle assurant la permanence des objets et de simuler des interactions simples entre éléments d’une scène, OpenAI vient de présenter la seconde version de son générateur de vidéo. La société situe ce modèle à un niveau équivalent au passage de GPT‑1 à GPT‑3.5 dans le domaine du texte.

Le modèle est désormais capable de rendre compte de la gravité, de la flottabilité, ou encore des erreurs humaines dans un mouvement, en s’appuyant sur une compréhension implicite des lois du monde réel. L’éditeur souligne par exemple qu’un joueur de basket-ball qui rate un tir verra désormais la balle rebondir sur le panneau, plutôt que de téléporter le ballon dans le panier, comme pouvaient le faire les versions antérieures. Ce respect accru des contraintes physiques représente selon OpenAI une étape clé pour bâtir des simulateurs de monde plus fiables et plus utiles à long terme.

Contrôle et intégration des éléments réels

Le système se distingue également par sa capacité de contrôle renforcée : il peut suivre des instructions complexes impliquant plusieurs plans de caméra tout en préservant la cohérence de l’environnement. De même, Sora 2 prend en charge différents styles visuels, du réalisme cinématographique à l’animation inspirée des films japonais, et génère simultanément sons d’ambiance, voix et effets sonores synchronisés avec la scène.

Ce dernier garantit par ailleurs l’intégration des éléments du monde réel. Par exemple, il peut insérer une personne filmée dans un environnement généré par IA, en restituant fidèlement son apparence et sa voix. Cette fonctionnalité expérimentale pourrait ouvrir la voie à des usages créatifs et immersifs dans la communication, le divertissement ou la formation.

Une application mobile en accès limité

En parallèle, OpenAI lance une application disponible sur iOS en accès limité aux États-Unis et au Canada. Elle facilite la génération de courtes vidéos d’une dizaine de secondes à partir d’un texte, puis de les partager. Les utilisateurs peuvent créer leurs propres vidéos, remixer celles des autres, découvrir des créations dans un flux personnalisé. Enfin, la fonctionnalité Caméo offre la possibilité de se placer directement dans n’importe quelle scène Sora avec un niveau de fidélité élevé, après un court enregistrement vidéo et audio destiné à vérifier l’identité et à capturer la ressemblance.

La société prévoit d’étendre l’accès à Sora à d’autres régions. Les utilisateurs de ChatGPT Pro pourront également tester le modèle expérimental Sora 2 Pro, offrant une qualité supérieure, disponible sur onsora.com (et prochainement dans l’application Sora). Une version de Sora 2 sera également intégrée à l’API pour les développeurs et éditeurs.