Przełom w interakcji AI: Skywork AI wprowadza Matrix-Game 3.0, umożliwiając generowanie HD „świata” w czasie rzeczywistym w 720p i 40 FPS
Skywork AI wprowadziło Matrix-Game 3.0, umożliwiając generowanie wideo w czasie rzeczywistym z prędkością 40 klatek na sekundę (fps) w rozdzielczości 720p oraz rozwiązując długotrwały problem „pamięci długoterminowej” w wideo AI. System generuje wysoce spójne czasoprzestrzennie, interaktywne światy dzięki mechanizmowi pamięci opartemu na percepcji kamery oraz silnikowi danych na dużą skalę.

Zespół Skywork AI opublikował nowy raport techniczny, ogłaszając znaczący przełom w interaktywnych modelach świata. Najnowszy system, Matrix-Game 3.0, jako pierwszy osiąga generowanie wideo w czasie rzeczywistym w rozdzielczości 720p HD oraz z prędkością 40 klatek na sekundę (FPS), jednocześnie skutecznie rozwiązując długotrwałe ograniczenie „pamięci długoterminowej” w generowaniu wideo przez AI.

Kluczowy przełom: rozwiązanie problemu „amnezji” wideo AI
Przez lata modele generowania wideo oparte na AI miały trudności z długimi sekwencjami interaktywnymi, często cierpiąc na niespójności przestrzenne lub dryf stylu z powodu nieskutecznych mechanizmów pamięci. Matrix-Game 3.0 pokonuje to ograniczenie dzięki wprowadzeniu mechanizmu wyszukiwania pamięci zależnego od pozycji kamery.
System precyzyjnie odtwarza historyczne klatki na podstawie bieżącej pozycji kamery i wykorzystuje ujednoliconą architekturę self-attention do wspólnego modelowania pamięci długoterminowej, najnowszej historii oraz aktualnie przewidywanej klatki w jednej współdzielonej przestrzeni. Eksperymenty pokazują, że nawet podczas złożonych interakcji trwających kilka minut model utrzymuje wysoką spójność czasoprzestrzenną — zapewniając, że gdy użytkownicy wracają do wcześniej wygenerowanych lokalizacji, szczegóły sceny ściśle odpowiadają pierwotnym renderom.
Silnik danych na skalę przemysłową: integracja ogromnych zbiorów danych z gier klasy 3A
Aby zwiększyć zrozumienie fizyki i logiki świata rzeczywistego przez model, zespół stworzył wielkoskalową „fabrykę danych” opartą zarówno na źródłach syntetycznych, jak i rzeczywistych:
Zsynchronizowane generowanie wirtualne: Platforma Unreal-Gen, oparta na Unreal Engine 5 (UE5), może automatycznie generować filmowe interaktywne wideo z ponad 100 milionami kombinacji postaci.
Zautomatyzowane przechwytywanie gier 3A: Obsługuje masowe, zautomatyzowane nagrywanie wysokiej jakości danych interaktywnych z hitowych tytułów, takich jak Grand Theft Auto V oraz Cyberpunk 2077.
Wielowymiarowe uzupełnienie danymi ze świata rzeczywistego: Integruje ponad 10 000 sekwencji wideo 4K z rzeczywistego świata, obejmujących środowiska wewnętrzne, sceny miejskie i ujęcia lotnicze.

Optymalizacja wydajności: ultraszybka reakcja dzięki usprawnieniu modelu
Aby spełnić rygorystyczne wymagania niskich opóźnień w interakcji w czasie rzeczywistym, Matrix-Game 3.0 przeszedł szeroko zakrojoną optymalizację na poziomie architektury wnioskowania:
Wykorzystuje wieloetapową strategię destylacji autoregresyjnej w celu zwiększenia efektywności wnioskowania;
Wprowadza technologię przycinania dekodera VAE z poziomem redukcji do 75%, zwiększając prędkość dekodowania ponad pięciokrotnie;
Łączy kwantyzację INT8 w celu dalszego zmniejszenia obciążenia obliczeniowego.
Nawet przy skali 5 miliardów parametrów system zapewnia płynne działanie, zachowując równowagę między jakością wizualną a responsywnością w czasie rzeczywistym.
Wizja przyszłości: w kierunku „nieskończenie generatywnego” cyfrowego wszechświata
Oprócz wersji 5B zespół zaprezentował także model Mixture-of-Experts (MoE) o 28 miliardach parametrów. Wraz ze wzrostem skali modelu system wykazuje większe możliwości w zakresie symulacji dynamicznych, przejść między scenami oraz uogólniania.
Obserwatorzy branży uważają, że Matrix-Game 3.0 stanowi kluczową podstawę technologiczną dla szkolenia robotów, XR (rozszerzonej rzeczywistości) oraz rozrywki immersyjnej nowej generacji — wyznaczając przejście AI od „generowania klipów” do „budowania w pełni interaktywnych światów w czasie rzeczywistym”.
Link do artykułu: https://arxiv.org/pdf/2604.08995