Avance en Interacción con IA: Skywork AI Lanza Matrix-Game 3.0, Permitendo la “Generación de Mundos” en HD en Tiempo Real a 720p y 40 FPS
Skywork AI ha lanzado Matrix-Game 3.0, permitiendo la generación de video en tiempo real a 40 fotogramas por segundo (fps) con resolución 720p y resolviendo la histórica deficiencia de “memoria a largo plazo” en el video con IA. Este sistema genera mundos interactivos altamente consistentes en el espacio y el tiempo mediante un mecanismo de memoria basado en percepción por cámara y un motor de datos a gran escala.

El equipo de Skywork AI ha publicado un nuevo informe técnico en el que anuncia un gran avance en los modelos interactivos de mundos. Su sistema más reciente, Matrix-Game 3.0, es el primero en lograr generación de video en tiempo real con resolución HD de 720p y 40 fotogramas por segundo (FPS), al tiempo que resuelve con éxito la histórica limitación de la “memoria a largo plazo” en la generación de video con IA.

Avance clave: Resolviendo el problema de la “amnesia” en el video con IA
Durante años, los modelos de generación de video con IA han tenido dificultades con secuencias interactivas largas, sufriendo a menudo inconsistencias espaciales o desviaciones de estilo debido a mecanismos de memoria ineficaces. Matrix-Game 3.0 supera este cuello de botella al introducir un mecanismo de recuperación de memoria consciente de la cámara.
El sistema recupera con precisión fotogramas históricos en función de la posición actual de la cámara y emplea una arquitectura unificada de autoatención para modelar conjuntamente la memoria a largo plazo, el historial reciente y el fotograma actual predicho dentro de un espacio compartido. Los experimentos muestran que, incluso durante interacciones complejas de varios minutos, el modelo mantiene una sólida coherencia espaciotemporal, garantizando que cuando los usuarios regresan a ubicaciones previamente generadas, los detalles de la escena coincidan estrechamente con los renderizados originales.
Motor de datos a escala industrial: Integración masiva de datos de juegos 3A
Para mejorar la comprensión del modelo sobre la física y la lógica del mundo real, el equipo construyó una “fábrica de datos” a gran escala a partir de fuentes sintéticas y reales:
Generación virtual sincronizada: Impulsada por Unreal Engine 5 (UE5), la plataforma Unreal-Gen puede generar automáticamente videos interactivos cinematográficos con más de 100 millones de combinaciones de personajes.
Captura automatizada de juegos 3A: Permite la grabación automatizada a gran escala de datos interactivos de alta calidad de títulos exitosos como Grand Theft Auto V y Cyberpunk 2077.
Complementación multidimensional del mundo real: Integra más de 10.000 secuencias de video 4K del mundo real, que abarcan entornos interiores, escenas urbanas y tomas aéreas.

Optimización del rendimiento: Logrando respuesta ultrarrápida mediante la simplificación del modelo
Para cumplir con los estrictos requisitos de baja latencia en la interacción en tiempo real, Matrix-Game 3.0 ha sido sometido a una amplia optimización a nivel de arquitectura de inferencia:
Adopta una estrategia de destilación autorregresiva en múltiples etapas para mejorar la eficiencia de inferencia;
Introduce tecnología de poda del decodificador VAE con una tasa de poda de hasta el 75%, aumentando la velocidad de decodificación en más de cinco veces;
Combina cuantización INT8 para reducir aún más la sobrecarga computacional.
Incluso con una escala de 5 mil millones de parámetros, el sistema ofrece un rendimiento fluido, equilibrando la calidad visual y la capacidad de respuesta en tiempo real.
Visión futura: Hacia un universo digital de “generación infinita”
Además de la versión de 5B, el equipo también presentó un modelo Mixture-of-Experts (MoE) de 28 mil millones de parámetros. A medida que aumenta la escala del modelo, el sistema demuestra mayores capacidades en simulación dinámica, transiciones de escena y generalización.
Observadores de la industria creen que Matrix-Game 3.0 proporciona una base técnica crítica para el entrenamiento de robots, XR (realidad extendida) y el entretenimiento inmersivo de próxima generación, marcando el paso de la IA de “generar clips” a “construir mundos completamente interactivos en tiempo real”.
Enlace al artículo: https://arxiv.org/pdf/2604.08995