Google beschleunigt die Inferenz von Gemma 4 mit spekulativer Decodierung um das bis zu Dreifache

AI Models07.May.2026 10:053 min read

Google hat für seine offenen Gemma-4-Modelle einen Multi-Token-Prediction-(MTP)-Drafter eingeführt, der mittels spekulativer Decodierung eine bis zu dreifach schnellere Inferenz ohne Qualitätsverlust ermöglicht und damit einen bedeutenden Schritt hin zu praktikablen Offline-LLMs darstellt.

Google beschleunigt die Inferenz von Gemma 4 mit spekulativer Decodierung um das bis zu Dreifache

Google hat ein bedeutendes Leistungsupgrade für seine offenen Gemma-4-Modelle veröffentlicht und dabei einen Multi-Token-Prediction (MTP)-Drafter eingeführt, der die Inferenz deutlich beschleunigen soll. Durch den Einsatz einer spekulativen Decoding-Architektur kann die Generierungsgeschwindigkeit laut Unternehmen um bis zu das Dreifache erhöht werden, während Ausgabequalität und logische Kohärenz erhalten bleiben.

Das Update erfolgt nur wenige Wochen nachdem Gemma 4 in der Open-Model-Community an Dynamik gewonnen hat; Berichten zufolge haben die Downloads die Marke von 60 Millionen überschritten. Die neue Version konzentriert sich gezielt auf einen der hartnäckigsten Engpässe beim Einsatz großer Sprachmodelle: die Inferenzlatenz.

Wie spekulatives Decoding funktioniert

Traditionelle transformerbasierte Modelle sind häufig nicht durch reine Rechenleistung begrenzt, sondern durch die Speicherbandbreite. Während der Inferenz müssen Milliarden von Parametern wiederholt zwischen Speicher und Verarbeitungseinheiten verschoben werden. Dieser Datentransfer ist deutlich langsamer als die eigentliche Berechnung, wodurch Hardware-Ressourcen unzureichend genutzt werden und Antwortverzögerungen entstehen.

Googles Ansatz kombiniert ein großes „Ziel“-Modell, wie etwa Gemma 4 31B, mit einem leichten MTP-Drafter-Modell. Der Drafter nutzt ansonsten ungenutzte Rechenkapazität, um mehrere zukünftige Tokens im Voraus vorherzusagen. Das größere Modell überprüft diese Vorhersagen anschließend parallel. Stimmen die Vorhersagen überein, können ganze Token-Sequenzen in einem einzigen Durchlauf bestätigt werden, was redundante Berechnungen reduziert und Generierungszyklen verkürzt.

Diese kooperative „Draft-and-Verify“-Struktur ermöglicht einen höheren Durchsatz, ohne die Modelltreue zu beeinträchtigen, und macht spekulatives Decoding zunehmend attraktiv für reale Anwendungen.

Deutliche Leistungsgewinne auf lokaler Hardware

Laut Googles Benchmarks sind die Leistungssteigerungen insbesondere auf lokalen Geräten deutlich spürbar. Auf Apple-Silicon-Systemen erreichte das Modell Gemma 4 26B eine etwa 2,2-fach schnellere Inferenz bei Batch-Größen zwischen vier und acht. Ähnliche Vorteile werden auch auf GPUs im Consumer-Bereich erwartet.

Diese Verbesserungen könnten es praktikabler machen, fortschrittliche Coding-Assistenten, Chatbots und agentenbasierte Workflows direkt auf persönlichen Rechnern auszuführen. Schnellere Inferenz reduziert zudem den Energieverbrauch pro Aufgabe – ein wichtiger Faktor für Edge-Geräte und mobile KI-Anwendungen.

Implikationen für KI-Anwendungen mit geringer Latenz

Das Update ist besonders relevant für latenzsensitive Anwendungsfälle wie Echtzeit-Chat-Systeme, automatisierte Programmierwerkzeuge und autonome Agenten. Durch die Verringerung des Zielkonflikts zwischen Geschwindigkeit und Genauigkeit positioniert Google Gemma 4 als eine noch praktikablere Option für Offline- und Hybrid-Deployments.

Mit zunehmender Inferenz­effizienz und weniger restriktiven Hardwareanforderungen könnten offene Modelle wie Gemma 4 den Wandel von cloudabhängiger KI hin zu leistungsfähigen On-Device-Systemen beschleunigen. Während Cloud-Infrastruktur für großskalige Workloads weiterhin zentral bleiben wird, deuten Fortschritte im spekulativen Decoding darauf hin, dass das Zeitalter praxistauglicher Offline-Großsprachmodelle näher rückt.