Google accélère l’inférence de Gemma 4 jusqu’à 3x grâce à une mise à niveau du décodage spéculatif

AI Models07.May.2026 10:054 min read

Google a introduit un générateur de prédiction multi‑jetons (MTP) pour ses modèles ouverts Gemma 4, utilisant le décodage spéculatif afin d’offrir une inférence jusqu’à trois fois plus rapide sans compromettre la qualité des résultats, marquant une étape importante vers des modèles de langage de grande taille hors ligne réellement exploitables.

Google accélère l’inférence de Gemma 4 jusqu’à 3x grâce à une mise à niveau du décodage spéculatif

Google a déployé une importante mise à niveau des performances pour ses modèles à poids ouverts Gemma 4, en introduisant un module de prédiction multi‑jetons (MTP) conçu pour accélérer considérablement l’inférence. En s’appuyant sur une architecture de décodage spéculatif, l’entreprise affirme pouvoir augmenter les vitesses de génération jusqu’à trois fois tout en maintenant la qualité des sorties et la cohérence logique.

Cette mise à jour intervient quelques semaines seulement après que Gemma 4 a gagné en popularité au sein de la communauté des modèles ouverts, avec des téléchargements qui auraient dépassé les 60 millions. La nouvelle version cible directement l’un des goulots d’étranglement les plus persistants dans le déploiement des grands modèles de langage : la latence d’inférence.

Comment fonctionne le décodage spéculatif

Les modèles traditionnels basés sur des transformeurs sont souvent limités non pas par la puissance de calcul brute, mais par la bande passante mémoire. Lors de l’inférence, des milliards de paramètres doivent être déplacés à plusieurs reprises entre la mémoire et les unités de traitement. Ce transfert de données est nettement plus lent que le calcul lui‑même, ce qui entraîne une sous‑utilisation du matériel et des délais de réponse.

L’approche de Google associe un grand modèle « cible », tel que Gemma 4 31B, à un modèle léger MTP chargé de l’ébauche. Ce dernier exploite une capacité de calcul autrement inutilisée pour prédire à l’avance plusieurs jetons futurs. Le modèle plus volumineux vérifie ensuite ces prédictions en parallèle. Si les prédictions correspondent, des séquences entières de jetons peuvent être validées en un seul passage, réduisant les calculs redondants et raccourcissant les cycles de génération.

Cette configuration coopérative « brouillon et vérification » permet d’augmenter le débit sans compromettre la fidélité du modèle, rendant le décodage spéculatif de plus en plus attractif pour les déploiements en conditions réelles.

Des gains significatifs sur le matériel local

Selon les benchmarks de Google, les gains de performance sont particulièrement visibles sur les appareils locaux. Sur les systèmes Apple Silicon, le modèle Gemma 4 26B a atteint une inférence environ 2,2 fois plus rapide pour des tailles de lot comprises entre quatre et huit. Des bénéfices similaires sont attendus sur les GPU grand public.

Ces améliorations pourraient rendre plus pratique l’exécution d’assistants de codage avancés, de chatbots et de flux de travail basés sur des agents directement sur des machines personnelles. Une inférence plus rapide réduit également la consommation d’énergie par tâche, un facteur important pour les appareils en périphérie et les applications d’IA mobiles.

Implications pour les applications d’IA à faible latence

La mise à jour est particulièrement pertinente pour les cas d’usage sensibles à la latence, tels que les systèmes de chat en temps réel, les outils de programmation automatisés et les agents autonomes. En réduisant le compromis entre vitesse et précision, Google positionne Gemma 4 comme une option plus viable pour des déploiements hors ligne et hybrides.

À mesure que l’efficacité de l’inférence s’améliore et que les exigences matérielles deviennent moins contraignantes, les modèles à poids ouverts comme Gemma 4 pourraient accélérer le passage d’une IA dépendante du cloud vers des systèmes performants embarqués sur les appareils. Bien que l’infrastructure cloud demeure essentielle pour les charges de travail à grande échelle, les avancées en décodage spéculatif suggèrent que l’ère des grands modèles de langage réellement utilisables hors ligne se rapproche de la réalité.