Descoperire în interacțiunea AI: Skywork AI lansează Matrix-Game 3.0, permițând „generarea de lumi” HD în timp real la 720p și 40 FPS
Skywork AI a lansat Matrix-Game 3.0, permițând generarea video în timp real la 40 de cadre pe secundă (fps) cu rezoluție 720p și rezolvând deficiența de lungă durată privind „memoria pe termen lung” în video AI. Acest sistem generează lumi interactive cu o consistență spațio-temporală ridicată printr-un mecanism de memorie bazat pe percepția camerei și un motor de date la scară largă.

Echipa Skywork AI a publicat un nou raport tehnic care anunță un progres major în modelele de lume interactive. Cel mai recent sistem al său, Matrix-Game 3.0, este primul care realizează generare video în timp real la rezoluție HD 720p și 40 de cadre pe secundă (FPS), abordând totodată cu succes limitarea de lungă durată privind „memoria pe termen lung” în generarea video cu AI.

Progres fundamental: rezolvarea problemei „amneziei” în video AI
Timp de ani de zile, modelele de generare video cu AI s-au confruntat cu dificultăți în secvențele interactive lungi, suferind adesea de inconsistențe spațiale sau devieri de stil din cauza mecanismelor de memorie ineficiente. Matrix-Game 3.0 depășește acest blocaj prin introducerea unui mecanism de recuperare a memoriei conștient de poziția camerei.
Sistemul recuperează cu precizie cadrele istorice pe baza poziției actuale a camerei și utilizează o arhitectură unificată de auto-atenție pentru a modela în comun memoria pe termen lung, istoricul recent și cadrul curent prezis într-un spațiu comun. Experimentele arată că, chiar și în timpul unor interacțiuni complexe de câteva minute, modelul menține o consistență spațio-temporală puternică — asigurând că, atunci când utilizatorii revin în locații generate anterior, detaliile scenei corespund îndeaproape randărilor originale.
Motor de date la scară industrială: integrare masivă de date din jocuri 3A
Pentru a îmbunătăți înțelegerea modelului asupra fizicii și logicii din lumea reală, echipa a construit o „fabrică de date” la scară largă, alimentată atât din surse sintetice, cât și din lumea reală:
Generare virtuală sincronizată: Susținută de Unreal Engine 5 (UE5), platforma Unreal-Gen poate genera automat videoclipuri interactive cinematografice cu peste 100 de milioane de combinații de personaje.
Captură automatizată din jocuri 3A: Permite înregistrarea automată la scară largă a datelor interactive de înaltă calitate din titluri de succes precum Grand Theft Auto V și Cyberpunk 2077.
Completare multidimensională din lumea reală: Integrează peste 10.000 de secvențe video 4K din lumea reală, acoperind medii interioare, scene urbane și imagini aeriene.

Optimizarea performanței: obținerea unui răspuns ultra-rapid prin eficientizarea modelului
Pentru a îndeplini cerințele stricte de latență redusă ale interacțiunii în timp real, Matrix-Game 3.0 a fost supus unor optimizări ample la nivelul arhitecturii de inferență:
Adoptă o strategie de distilare autoregresivă în mai multe etape pentru a îmbunătăți eficiența inferenței;
Introduce tehnologia de tăiere (pruning) a decodorului VAE cu o rată de până la 75%, crescând viteza de decodare de peste cinci ori;
Combină cuantizarea INT8 pentru a reduce suplimentar costurile de calcul.
Chiar și la o scară de 5B parametri, sistemul oferă performanță fluidă, echilibrând calitatea vizuală și capacitatea de răspuns în timp real.
Viziune de viitor: către un univers digital „generativ infinit”
Pe lângă versiunea 5B, echipa a prezentat și un model Mixture-of-Experts (MoE) cu 28B parametri. Pe măsură ce dimensiunea modelului crește, sistemul demonstrează capabilități mai puternice în simularea dinamică, tranzițiile de scenă și generalizare.
Observatorii din industrie consideră că Matrix-Game 3.0 oferă o bază tehnică esențială pentru antrenarea roboților, XR (realitate extinsă) și divertismentul imersiv de nouă generație — marcând o tranziție a AI de la „generarea de clipuri” la „construirea de lumi complet interactive în timp real”.
Link către lucrare: https://arxiv.org/pdf/2604.08995