Google accelerează viteza de inferență a Gemma 4 de până la 3 ori prin actualizarea cu decodare speculativă

AI Models07.May.2026 10:053 min read

Google a introdus un mecanism de redactare cu predicție multi-token (MTP) pentru modelele sale deschise Gemma 4, utilizând decodarea speculativă pentru a oferi o inferență de până la trei ori mai rapidă fără a compromite calitatea rezultatelor, marcând un pas important către modele lingvistice mari offline cu aplicabilitate practică.

Google accelerează viteza de inferență a Gemma 4 de până la 3 ori prin actualizarea cu decodare speculativă

Google a lansat o actualizare majoră de performanță pentru modelele sale Gemma 4 cu greutăți deschise, introducând un model MTP (multi-token prediction) conceput pentru a accelera semnificativ inferența. Prin utilizarea unei arhitecturi de decodare speculativă, compania afirmă că poate crește viteza de generare de până la trei ori, menținând în același timp calitatea rezultatelor și coerența logică.

Actualizarea vine la doar câteva săptămâni după ce Gemma 4 a câștigat popularitate în comunitatea modelelor deschise, descărcările depășind, potrivit rapoartelor, 60 de milioane. Noua versiune se concentrează în mod direct pe unul dintre cele mai persistente blocaje în implementarea modelelor lingvistice mari: latența inferenței.

Cum funcționează decodarea speculativă

Modelele tradiționale bazate pe transformere sunt adesea limitate nu de puterea brută de calcul, ci de lățimea de bandă a memoriei. În timpul inferenței, miliarde de parametri trebuie mutați în mod repetat între memorie și unitățile de procesare. Acest transfer de date este semnificativ mai lent decât calculul propriu-zis, lăsând hardware-ul subutilizat și generând întârzieri în răspuns.

Abordarea Google asociază un model „țintă” de mari dimensiuni, precum Gemma 4 31B, cu un model MTP mai ușor. Modelul MTP folosește capacitatea de calcul altfel neutilizată pentru a prezice în avans mai mulți tokeni viitori. Modelul mai mare verifică apoi aceste predicții în paralel. Dacă predicțiile corespund, secvențe întregi de tokeni pot fi confirmate într-o singură trecere, reducând calculele redundante și scurtând ciclurile de generare.

Această configurație cooperativă de tip „schițează și verifică” permite un randament mai mare fără a compromite fidelitatea modelului, făcând decodarea speculativă tot mai atractivă pentru implementări în lumea reală.

Câștiguri semnificative pe hardware local

Conform testelor de performanță realizate de Google, îmbunătățirile sunt deosebit de vizibile pe dispozitivele locale. Pe sistemele Apple Silicon, modelul Gemma 4 26B a atins o inferență de aproximativ 2,2× mai rapidă la dimensiuni ale lotului între patru și opt. Beneficii similare sunt așteptate și pe plăci grafice de consum.

Aceste îmbunătățiri ar putea face mai practică rularea asistenților avansați pentru programare, a chatbot-urilor și a fluxurilor de lucru bazate pe agenți direct pe computerele personale. O inferență mai rapidă reduce, de asemenea, consumul de energie per sarcină, un factor important pentru dispozitivele edge și aplicațiile mobile de inteligență artificială.

Implicații pentru aplicațiile AI cu latență redusă

Actualizarea este deosebit de relevantă pentru cazurile de utilizare sensibile la latență, precum sistemele de chat în timp real, instrumentele automate de programare și agenții autonomi. Prin reducerea compromisului dintre viteză și acuratețe, Google poziționează Gemma 4 ca o opțiune mai viabilă pentru implementări offline și hibride.

Pe măsură ce eficiența inferenței se îmbunătățește și cerințele hardware devin mai puțin restrictive, modelele cu greutăți deschise precum Gemma 4 ar putea accelera tranziția de la inteligența artificială dependentă de cloud către sisteme capabile care rulează direct pe dispozitive. Deși infrastructura cloud va rămâne esențială pentru sarcini la scară largă, progresele în decodarea speculativă sugerează că era modelelor lingvistice mari offline, cu adevărat practice, se apropie de realitate.