Percée dans l’interaction IA : Skywork AI lance Matrix-Game 3.0, permettant la « génération de mondes » HD en temps réel en 720p et 40 FPS
Skywork AI a lancé Matrix-Game 3.0, permettant la génération vidéo en temps réel à 40 images par seconde (fps) avec une résolution de 720p et résolvant la déficience persistante de « mémoire à long terme » dans la vidéo IA. Ce système génère des mondes interactifs hautement cohérents sur le plan spatio-temporel grâce à un mécanisme de mémoire basé sur la perception par caméra et un moteur de données à grande échelle.

L’équipe Skywork AI a publié un nouveau rapport technique annonçant une avancée majeure dans les modèles de mondes interactifs. Son dernier système, Matrix-Game 3.0, est le premier à atteindre une génération vidéo en temps réel en résolution HD 720p à 40 images par seconde (FPS), tout en résolvant avec succès la limitation de « mémoire à long terme » qui affecte depuis longtemps la génération vidéo par IA.

Avancée clé : résoudre le problème d’« amnésie » des vidéos IA
Depuis des années, les modèles de génération vidéo par IA rencontrent des difficultés avec les longues séquences interactives, souffrant souvent d’incohérences spatiales ou de dérive de style en raison de mécanismes de mémoire inefficaces. Matrix-Game 3.0 surmonte ce goulot d’étranglement en introduisant un mécanisme de récupération de mémoire sensible à la caméra.
Le système récupère avec précision les images historiques en fonction de la position actuelle de la caméra et utilise une architecture unifiée d’auto-attention pour modéliser conjointement la mémoire à long terme, l’historique récent et l’image prédite actuelle dans un espace partagé. Les expériences montrent que, même lors d’interactions complexes durant plusieurs minutes, le modèle maintient une forte cohérence spatio-temporelle — garantissant que lorsque les utilisateurs revisitent des lieux précédemment générés, les détails de la scène correspondent étroitement aux rendus d’origine.
Moteur de données à l’échelle industrielle : intégration massive de données de jeux 3A
Pour améliorer la compréhension par le modèle de la physique et de la logique du monde réel, l’équipe a construit une « usine de données » à grande échelle, alimentée par des sources synthétiques et réelles :
Génération virtuelle synchronisée : Propulsée par Unreal Engine 5 (UE5), la plateforme Unreal-Gen peut générer automatiquement des vidéos interactives cinématographiques avec plus de 100 millions de combinaisons de personnages.
Capture automatisée de jeux 3A : Prend en charge l’enregistrement automatisé à grande échelle de données interactives de haute qualité issues de titres majeurs tels que Grand Theft Auto V et Cyberpunk 2077.
Complémentation multidimensionnelle du monde réel : Intègre plus de 10 000 séquences vidéo 4K réelles, couvrant des environnements intérieurs, des scènes urbaines et des prises de vue aériennes.

Optimisation des performances : une réponse ultra-rapide grâce à l’allégement du modèle
Pour répondre aux exigences strictes de faible latence propres à l’interaction en temps réel, Matrix-Game 3.0 a subi d’importantes optimisations au niveau de l’architecture d’inférence :
Adoption d’une stratégie de distillation autorégressive en plusieurs étapes afin d’améliorer l’efficacité de l’inférence ;
Introduction d’une technologie d’élagage du décodeur VAE avec un taux d’élagage pouvant atteindre 75 %, augmentant la vitesse de décodage de plus de cinq fois ;
Combinaison avec une quantification INT8 pour réduire davantage la charge de calcul.
Même avec une échelle de 5 milliards de paramètres, le système offre des performances fluides tout en équilibrant qualité visuelle et réactivité en temps réel.
Vision future : vers un univers numérique « infiniment génératif »
En plus de la version 5B, l’équipe a également présenté un modèle Mixture-of-Experts (MoE) de 28 milliards de paramètres. À mesure que l’échelle du modèle augmente, le système démontre des capacités accrues en simulation dynamique, en transitions de scènes et en généralisation.
Les observateurs du secteur estiment que Matrix-Game 3.0 fournit une base technique essentielle pour l’entraînement en robotique, la XR (réalité étendue) et les divertissements immersifs de nouvelle génération — marquant le passage de l’IA de la « génération de clips » à la « construction de mondes entièrement interactifs en temps réel ».
Lien vers l’article : https://arxiv.org/pdf/2604.08995