Durchbruch in der KI-Interaktion: Skywork AI stellt Matrix-Game 3.0 vor und ermöglicht HD-„Weltgenerierung“ in Echtzeit mit 720p und 40 FPS

Technology14.Apr.2026 06:333 min read

Skywork AI hat Matrix-Game 3.0 vorgestellt, das Echtzeit-Videogenerierung mit 40 Bildern pro Sekunde (fps) bei einer Auflösung von 720p ermöglicht und die langjährige „Langzeitgedächtnis“-Schwäche von KI-Videos behebt. Das System erzeugt hochgradig raum-zeitlich konsistente, interaktive Welten durch einen Kamera-Wahrnehmungs-Gedächtnismechanismus und eine großskalige Daten-Engine.

Durchbruch in der KI-Interaktion: Skywork AI stellt Matrix-Game 3.0 vor und ermöglicht HD-„Weltgenerierung“ in Echtzeit mit 720p und 40 FPS

Das Skywork-AI-Team hat einen neuen technischen Bericht veröffentlicht und darin einen bedeutenden Durchbruch bei interaktiven Weltmodellen angekündigt. Sein neuestes System, Matrix-Game 3.0, ist das erste, das eine Echtzeit-Videogenerierung in 720p HD-Auflösung mit 40 Bildern pro Sekunde (FPS) erreicht und gleichzeitig die langjährige Einschränkung des „Langzeitgedächtnisses“ in der KI-Videogenerierung erfolgreich überwindet.

Neuer Durchbruch bei KI-Interaktion: Skywork AI veröffentlicht Matrix-Game 3.0 und realisiert 720p 40 FPS Echtzeit-HD-„Weltgenerierung“

Kern-Durchbruch: Lösung des „Amnesie“-Problems von KI-Videos

Seit Jahren haben KI-Modelle zur Videogenerierung Schwierigkeiten mit langen interaktiven Sequenzen und leiden häufig unter räumlichen Inkonsistenzen oder Stilabweichungen aufgrund ineffektiver Speichermechanismen. Matrix-Game 3.0 überwindet diesen Engpass durch die Einführung eines kamera-bewussten Speicherabrufmechanismus.

Das System ruft historische Frames präzise basierend auf der aktuellen Kameraposition ab und verwendet eine vereinheitlichte Self-Attention-Architektur, um Langzeitgedächtnis, jüngere Verlaufsdaten und den aktuell vorhergesagten Frame gemeinsam in einem geteilten Raum zu modellieren. Experimente zeigen, dass das Modell selbst bei komplexen Interaktionen über mehrere Minuten hinweg eine starke räumlich-zeitliche Konsistenz beibehält – sodass bei der Rückkehr zu zuvor generierten Orten die Szenendetails eng mit den ursprünglichen Darstellungen übereinstimmen.

Industrielle Daten-Engine im großen Maßstab: Massive Integration von 3A-Game-Daten

Um das Verständnis des Modells für reale Physik und Logik zu verbessern, entwickelte das Team eine groß angelegte „Datenfabrik“, die sowohl synthetische als auch reale Quellen nutzt:

  • Synchronisierte virtuelle Generierung: Angetrieben von Unreal Engine 5 (UE5) kann die Unreal-Gen-Plattform automatisch filmreife interaktive Videos mit über 100 Millionen Charakterkombinationen erzeugen.

  • Automatisierte 3A-Game-Aufzeichnung: Unterstützt die groß angelegte automatisierte Erfassung hochwertiger interaktiver Daten aus Blockbuster-Titeln wie Grand Theft Auto V und Cyberpunk 2077.

  • Mehrdimensionale Ergänzung realer Daten: Integriert mehr als 10.000 reale 4K-Videosequenzen, die Innenräume, urbane Szenen und Luftaufnahmen abdecken.

Demobild des Matrix-Game 3.0-Systems

Leistungsoptimierung: Ultraschnelle Reaktionszeiten durch Modellverschlankung

Um die strengen Niedriglatenz-Anforderungen für Echtzeitinteraktion zu erfüllen, wurde Matrix-Game 3.0 auf Ebene der Inferenzarchitektur umfassend optimiert:

  • Einsatz einer mehrstufigen autoregressiven Destillationsstrategie zur Verbesserung der Inferenz-Effizienz;

  • Einführung einer VAE-Decoder-Pruning-Technologie mit einer Pruning-Rate von bis zu 75 %, wodurch sich die Dekodiergeschwindigkeit um mehr als das Fünffache erhöht;

  • Kombination mit INT8-Quantisierung zur weiteren Reduzierung des Rechenaufwands.

Selbst bei einem Umfang von 5B Parametern liefert das System eine flüssige Performance und schafft dabei ein ausgewogenes Verhältnis zwischen visueller Qualität und Echtzeit-Reaktionsfähigkeit.

Zukunftsvision: Auf dem Weg zu einem „unendlich generativen“ digitalen Universum

Neben der 5B-Version präsentierte das Team auch ein Mixture-of-Experts-(MoE)-Modell mit 28B Parametern. Mit zunehmender Modellgröße zeigt das System stärkere Fähigkeiten in dynamischer Simulation, Szenenübergängen und Generalisierung.

Branchenbeobachter sind der Ansicht, dass Matrix-Game 3.0 eine entscheidende technische Grundlage für Robotik-Training, XR (Extended Reality) und immersive Unterhaltung der nächsten Generation bietet – und einen Wandel der KI von der „Generierung einzelner Clips“ hin zum „Aufbau vollständig interaktiver Welten in Echtzeit“ markiert.

Link zum Paper: https://arxiv.org/pdf/2604.08995