Svolta nell’interazione AI: Skywork AI lancia Matrix-Game 3.0, abilitando la “Generazione del Mondo” in HD in tempo reale a 720p e 40 FPS
Skywork AI ha lanciato Matrix-Game 3.0, consentendo la generazione video in tempo reale a 40 fotogrammi al secondo (fps) con risoluzione 720p e risolvendo la storica carenza di “memoria a lungo termine” nei video AI. Questo sistema genera mondi interattivi altamente coerenti dal punto di vista spazio-temporale attraverso un meccanismo di memoria basato sulla percezione della telecamera e un motore dati su larga scala.

Il team Skywork AI ha pubblicato un nuovo report tecnico annunciando un importante passo avanti nei modelli di mondo interattivi. Il suo ultimo sistema, Matrix-Game 3.0, è il primo a raggiungere la generazione video in tempo reale a risoluzione HD 720p e 40 fotogrammi al secondo (FPS), affrontando con successo il limite storico della “memoria a lungo termine” nella generazione video con IA.

Innovazione chiave: risolvere il problema dell’“amnesia” nei video AI
Per anni, i modelli di generazione video basati su IA hanno avuto difficoltà con sequenze interattive lunghe, spesso soffrendo di incoerenze spaziali o deriva stilistica a causa di meccanismi di memoria inefficaci. Matrix-Game 3.0 supera questo limite introducendo un meccanismo di recupero della memoria consapevole della telecamera.
Il sistema recupera con precisione i fotogrammi storici in base alla posizione corrente della telecamera e utilizza un’architettura unificata di self-attention per modellare congiuntamente la memoria a lungo termine, la cronologia recente e il fotogramma attualmente previsto all’interno di uno spazio condiviso. Gli esperimenti dimostrano che, anche durante interazioni complesse della durata di diversi minuti, il modello mantiene una forte coerenza spazio-temporale, garantendo che quando gli utenti tornano in luoghi precedentemente generati, i dettagli della scena corrispondano strettamente ai rendering originali.
Motore dati su scala industriale: integrazione massiva di dati da giochi 3A
Per migliorare la comprensione del modello della fisica e della logica del mondo reale, il team ha costruito una “fabbrica di dati” su larga scala attingendo sia a fonti sintetiche sia reali:
Generazione virtuale sincronizzata: Alimentata da Unreal Engine 5 (UE5), la piattaforma Unreal-Gen può generare automaticamente video interattivi cinematografici con oltre 100 milioni di combinazioni di personaggi.
Acquisizione automatizzata di giochi 3A: Supporta la registrazione automatizzata su larga scala di dati interattivi di alta qualità da titoli di punta come Grand Theft Auto V e Cyberpunk 2077.
Integrazione multidimensionale del mondo reale: Integra oltre 10.000 sequenze video 4K reali, coprendo ambienti interni, scene urbane e riprese aeree.

Ottimizzazione delle prestazioni: risposta ultra-rapida attraverso la semplificazione del modello
Per soddisfare i rigorosi requisiti di bassa latenza dell’interazione in tempo reale, Matrix-Game 3.0 è stato ampiamente ottimizzato a livello di architettura di inferenza:
Adotta una strategia di distillazione autoregressiva multi-fase per migliorare l’efficienza dell’inferenza;
Introduce una tecnologia di potatura del decoder VAE con un tasso di potatura fino al 75%, aumentando la velocità di decodifica di oltre cinque volte;
Combina la quantizzazione INT8 per ridurre ulteriormente il carico computazionale.
Anche con una scala di 5 miliardi di parametri, il sistema offre prestazioni fluide bilanciando qualità visiva e reattività in tempo reale.
Visione futura: verso un universo digitale “infinitamente generativo”
Oltre alla versione da 5B, il team ha anche presentato un modello Mixture-of-Experts (MoE) da 28 miliardi di parametri. Con l’aumentare della scala del modello, il sistema dimostra capacità più avanzate nella simulazione dinamica, nelle transizioni di scena e nella generalizzazione.
Gli osservatori del settore ritengono che Matrix-Game 3.0 fornisca una base tecnica cruciale per l’addestramento robotico, la XR (realtà estesa) e l’intrattenimento immersivo di nuova generazione, segnando il passaggio dell’IA dal “generare clip” al “costruire mondi completamente interattivi in tempo reale”.
Link al paper: https://arxiv.org/pdf/2604.08995