Google aumenta la velocità di inferenza di Gemma 4 fino a 3x con l’aggiornamento della decodifica speculativa

AI Models07.May.2026 10:053 min read

Google ha introdotto un generatore di multi-token prediction (MTP) per i suoi modelli open Gemma 4, utilizzando la decodifica speculativa per offrire un’inferenza fino a tre volte più veloce senza sacrificare la qualità dell’output, segnando un passo significativo verso modelli linguistici di grandi dimensioni offline realmente pratici.

Google aumenta la velocità di inferenza di Gemma 4 fino a 3x con l’aggiornamento della decodifica speculativa

Google ha introdotto un importante aggiornamento delle prestazioni per i suoi modelli open-weight Gemma 4, presentando un redattore di previsione multi-token (MTP) progettato per accelerare drasticamente l’inferenza. Sfruttando un’architettura di decodifica speculativa, l’azienda afferma di poter aumentare la velocità di generazione fino a tre volte mantenendo la qualità dell’output e la coerenza logica.

L’aggiornamento arriva poche settimane dopo che Gemma 4 ha guadagnato popolarità nella comunità dei modelli open, con download che avrebbero superato i 60 milioni. La nuova versione si concentra in modo deciso su uno dei colli di bottiglia più persistenti nell’implementazione dei modelli linguistici di grandi dimensioni: la latenza di inferenza.

Come funziona la decodifica speculativa

I modelli tradizionali basati su transformer sono spesso limitati non dalla potenza di calcolo pura, ma dalla larghezza di banda della memoria. Durante l’inferenza, miliardi di parametri devono essere ripetutamente trasferiti tra memoria e unità di elaborazione. Questo trasferimento di dati è significativamente più lento del calcolo stesso, lasciando l’hardware sottoutilizzato e introducendo ritardi nella risposta.

L’approccio di Google abbina un grande modello “target”, come Gemma 4 31B, a un leggero modello redattore MTP. Il redattore utilizza la capacità di calcolo altrimenti inattiva per prevedere in anticipo più token futuri. Il modello più grande verifica quindi queste previsioni in parallelo. Se le previsioni coincidono, intere sequenze di token possono essere confermate in un unico passaggio, riducendo i calcoli ridondanti e accorciando i cicli di generazione.

Questa configurazione cooperativa di “bozza e verifica” consente un throughput più elevato senza compromettere la fedeltà del modello, rendendo la decodifica speculativa sempre più interessante per le implementazioni nel mondo reale.

Notevoli miglioramenti su hardware locale

Secondo i benchmark di Google, i miglioramenti delle prestazioni sono particolarmente evidenti sui dispositivi locali. Sui sistemi Apple Silicon, il modello Gemma 4 26B ha raggiunto un’inferenza circa 2,2× più veloce con dimensioni di batch comprese tra quattro e otto. Benefici simili sono attesi anche su GPU di fascia consumer.

Questi miglioramenti potrebbero rendere più pratico eseguire assistenti di programmazione avanzati, chatbot e flussi di lavoro basati su agenti direttamente su macchine personali. Un’inferenza più rapida riduce inoltre il consumo energetico per attività, un fattore importante per i dispositivi edge e le applicazioni di IA mobile.

Implicazioni per le applicazioni di IA a bassa latenza

L’aggiornamento è particolarmente rilevante per i casi d’uso sensibili alla latenza, come sistemi di chat in tempo reale, strumenti di programmazione automatizzata e agenti autonomi. Riducendo il compromesso tra velocità e accuratezza, Google posiziona Gemma 4 come un’opzione più valida per implementazioni offline e ibride.

Con il miglioramento dell’efficienza dell’inferenza e requisiti hardware meno restrittivi, modelli open-weight come Gemma 4 potrebbero accelerare il passaggio da un’IA dipendente dal cloud verso sistemi on-device più capaci. Sebbene l’infrastruttura cloud rimarrà centrale per carichi di lavoro su larga scala, i progressi nella decodifica speculativa suggeriscono che l’era dei modelli linguistici di grandi dimensioni offline e realmente pratici si stia avvicinando alla realtà.