Przełom w interakcji AI: Skywork AI wprowadza Matrix-Game 3.0, umożliwiając generowanie HD „świata” w czasie rzeczywistym w 720p i 40 FPS

Technology14.Apr.2026 06:333 min read

Skywork AI wprowadziło Matrix-Game 3.0, umożliwiając generowanie wideo w czasie rzeczywistym z prędkością 40 klatek na sekundę (fps) w rozdzielczości 720p oraz rozwiązując długotrwały problem „pamięci długoterminowej” w wideo AI. System generuje wysoce spójne czasoprzestrzennie, interaktywne światy dzięki mechanizmowi pamięci opartemu na percepcji kamery oraz silnikowi danych na dużą skalę.

Przełom w interakcji AI: Skywork AI wprowadza Matrix-Game 3.0, umożliwiając generowanie HD „świata” w czasie rzeczywistym w 720p i 40 FPS

Zespół Skywork AI opublikował nowy raport techniczny, ogłaszając znaczący przełom w interaktywnych modelach świata. Najnowszy system, Matrix-Game 3.0, jako pierwszy osiąga generowanie wideo w czasie rzeczywistym w rozdzielczości 720p HD oraz z prędkością 40 klatek na sekundę (FPS), jednocześnie skutecznie rozwiązując długotrwałe ograniczenie „pamięci długoterminowej” w generowaniu wideo przez AI.

Nowy przełom w interaktywnej AI: Skywork AI prezentuje Matrix-Game 3.0, umożliwiający generowanie świata w czasie rzeczywistym w 720p i 40 FPS

Kluczowy przełom: rozwiązanie problemu „amnezji” wideo AI

Przez lata modele generowania wideo oparte na AI miały trudności z długimi sekwencjami interaktywnymi, często cierpiąc na niespójności przestrzenne lub dryf stylu z powodu nieskutecznych mechanizmów pamięci. Matrix-Game 3.0 pokonuje to ograniczenie dzięki wprowadzeniu mechanizmu wyszukiwania pamięci zależnego od pozycji kamery.

System precyzyjnie odtwarza historyczne klatki na podstawie bieżącej pozycji kamery i wykorzystuje ujednoliconą architekturę self-attention do wspólnego modelowania pamięci długoterminowej, najnowszej historii oraz aktualnie przewidywanej klatki w jednej współdzielonej przestrzeni. Eksperymenty pokazują, że nawet podczas złożonych interakcji trwających kilka minut model utrzymuje wysoką spójność czasoprzestrzenną — zapewniając, że gdy użytkownicy wracają do wcześniej wygenerowanych lokalizacji, szczegóły sceny ściśle odpowiadają pierwotnym renderom.

Silnik danych na skalę przemysłową: integracja ogromnych zbiorów danych z gier klasy 3A

Aby zwiększyć zrozumienie fizyki i logiki świata rzeczywistego przez model, zespół stworzył wielkoskalową „fabrykę danych” opartą zarówno na źródłach syntetycznych, jak i rzeczywistych:

  • Zsynchronizowane generowanie wirtualne: Platforma Unreal-Gen, oparta na Unreal Engine 5 (UE5), może automatycznie generować filmowe interaktywne wideo z ponad 100 milionami kombinacji postaci.

  • Zautomatyzowane przechwytywanie gier 3A: Obsługuje masowe, zautomatyzowane nagrywanie wysokiej jakości danych interaktywnych z hitowych tytułów, takich jak Grand Theft Auto V oraz Cyberpunk 2077.

  • Wielowymiarowe uzupełnienie danymi ze świata rzeczywistego: Integruje ponad 10 000 sekwencji wideo 4K z rzeczywistego świata, obejmujących środowiska wewnętrzne, sceny miejskie i ujęcia lotnicze.

Demonstracja systemu Matrix-Game 3.0

Optymalizacja wydajności: ultraszybka reakcja dzięki usprawnieniu modelu

Aby spełnić rygorystyczne wymagania niskich opóźnień w interakcji w czasie rzeczywistym, Matrix-Game 3.0 przeszedł szeroko zakrojoną optymalizację na poziomie architektury wnioskowania:

  • Wykorzystuje wieloetapową strategię destylacji autoregresyjnej w celu zwiększenia efektywności wnioskowania;

  • Wprowadza technologię przycinania dekodera VAE z poziomem redukcji do 75%, zwiększając prędkość dekodowania ponad pięciokrotnie;

  • Łączy kwantyzację INT8 w celu dalszego zmniejszenia obciążenia obliczeniowego.

Nawet przy skali 5 miliardów parametrów system zapewnia płynne działanie, zachowując równowagę między jakością wizualną a responsywnością w czasie rzeczywistym.

Wizja przyszłości: w kierunku „nieskończenie generatywnego” cyfrowego wszechświata

Oprócz wersji 5B zespół zaprezentował także model Mixture-of-Experts (MoE) o 28 miliardach parametrów. Wraz ze wzrostem skali modelu system wykazuje większe możliwości w zakresie symulacji dynamicznych, przejść między scenami oraz uogólniania.

Obserwatorzy branży uważają, że Matrix-Game 3.0 stanowi kluczową podstawę technologiczną dla szkolenia robotów, XR (rozszerzonej rzeczywistości) oraz rozrywki immersyjnej nowej generacji — wyznaczając przejście AI od „generowania klipów” do „budowania w pełni interaktywnych światów w czasie rzeczywistym”.

Link do artykułu: https://arxiv.org/pdf/2604.08995