Google aumenta la velocidad de inferencia de Gemma 4 hasta 3x con una mejora de decodificación especulativa

AI Models07.May.2026 10:054 min read

Google ha introducido un generador de predicción multitéoken (MTP) para sus modelos abiertos Gemma 4, utilizando decodificación especulativa para ofrecer una inferencia hasta tres veces más rápida sin sacrificar la calidad de salida, lo que marca un paso significativo hacia modelos de lenguaje de gran tamaño prácticos y sin conexión.

Google aumenta la velocidad de inferencia de Gemma 4 hasta 3x con una mejora de decodificación especulativa

Google ha implementado una importante mejora de rendimiento para sus modelos Gemma 4 de pesos abiertos, incorporando un generador de predicción multitéoken (MTP) diseñado para acelerar drásticamente la inferencia. Al aprovechar una arquitectura de decodificación especulativa, la compañía afirma que puede aumentar la velocidad de generación hasta tres veces manteniendo la calidad de salida y la coherencia lógica.

La actualización llega apenas unas semanas después de que Gemma 4 ganara popularidad en la comunidad de modelos abiertos, con descargas que, según informes, superan los 60 millones. La nueva versión se centra directamente en uno de los cuellos de botella más persistentes en la implementación de modelos de lenguaje de gran tamaño: la latencia de inferencia.

Cómo funciona la decodificación especulativa

Los modelos tradicionales basados en transformadores suelen estar limitados no por la capacidad de cómputo en bruto, sino por el ancho de banda de la memoria. Durante la inferencia, miles de millones de parámetros deben trasladarse repetidamente entre la memoria y las unidades de procesamiento. Esta transferencia de datos es significativamente más lenta que el propio cálculo, lo que deja el hardware infrautilizado e introduce retrasos en la respuesta.

El enfoque de Google combina un modelo “objetivo” de gran tamaño, como Gemma 4 31B, con un modelo generador MTP ligero. El generador utiliza la capacidad de cómputo que de otro modo permanecería inactiva para predecir múltiples tokens futuros por adelantado. El modelo más grande verifica luego estas predicciones en paralelo. Si las predicciones coinciden, secuencias completas de tokens pueden confirmarse en una sola pasada, reduciendo el cálculo redundante y acortando los ciclos de generación.

Esta configuración cooperativa de “borrador y verificación” permite un mayor rendimiento sin comprometer la fidelidad del modelo, lo que hace que la decodificación especulativa resulte cada vez más atractiva para implementaciones en el mundo real.

Mejoras significativas en hardware local

Según las pruebas comparativas de Google, las mejoras de rendimiento son especialmente notables en dispositivos locales. En sistemas con Apple Silicon, el modelo Gemma 4 26B logró una inferencia aproximadamente 2,2 veces más rápida con tamaños de lote entre cuatro y ocho. Se esperan beneficios similares en GPU de consumo.

Estas mejoras podrían hacer más práctico ejecutar asistentes avanzados de programación, chatbots y flujos de trabajo basados en agentes directamente en equipos personales. Una inferencia más rápida también reduce el consumo de energía por tarea, un factor importante para dispositivos en el borde y aplicaciones de IA móvil.

Implicaciones para aplicaciones de IA de baja latencia

La actualización es especialmente relevante para casos de uso sensibles a la latencia, como sistemas de chat en tiempo real, herramientas automatizadas de programación y agentes autónomos. Al reducir la compensación entre velocidad y precisión, Google posiciona a Gemma 4 como una opción más viable para implementaciones fuera de línea e híbridas.

A medida que mejora la eficiencia de la inferencia y los requisitos de hardware se vuelven menos restrictivos, modelos de pesos abiertos como Gemma 4 podrían acelerar la transición desde una IA dependiente de la nube hacia sistemas capaces en el propio dispositivo. Aunque la infraestructura en la nube seguirá siendo fundamental para cargas de trabajo a gran escala, los avances en decodificación especulativa sugieren que la era de los modelos de lenguaje de gran tamaño prácticos y fuera de línea está cada vez más cerca de hacerse realidad.