TikTok retrage funcția de rezumare video cu AI după erori de tip halucinație
TikTok a suspendat testarea funcției sale experimentale „AI Overviews” după erori repetate de tip halucinație care au generat rezumate video inexacte și înșelătoare, evidențiind provocările continue legate de fiabilitatea AI multimodale.

TikTok a oprit testarea funcției sale experimentale „AI Overviews” după ce instrumentul a generat în mod repetat rezumate inexacte și uneori lipsite de sens pentru videoclipuri scurte. Decizia evidențiază provocările continue legate de fiabilitate cu care se confruntă sistemele AI multimodale în medii cu volum mare de conținut nestructurat.
De la rezumate ambițioase la erori vizibile
Funcția AI Overviews a fost testată într-un cadru limitat timp de câteva luni, inclusiv pe piața din Statele Unite. Conceput pentru a genera automat rezumate text ale videoclipurilor, sistemul combina modele multimodale proprii TikTok și ale unor terți pentru a oferi explicații contextuale și recomandări de produse asociate conținutului video.
Cu toate acestea, utilizatorii au început să raporteze erori semnificative de tip halucinație—situații în care AI-ul producea descrieri plauzibile ca formulare, dar incorecte din punct de vedere factual. Printre exemplele mai notabile:
- Un videoclip cu creatoarea de top Charli D’Amelio a fost descris ca o „colecție de afine cu diferite ingrediente”.
- Un tutorial de dresaj canin a fost interpretat greșit drept „artă origami”.
- Un clip promoțional cu Shakira a fost etichetat „forme albastre în mișcare”.
Aceste tipuri de disfuncții semantice sunt caracteristice halucinațiilor AI generative, în care modelele inventează sau interpretează greșit detalii din cauza unei înțelegeri contextuale insuficiente.
TikTok își schimbă strategia
Ca răspuns la feedbackul utilizatorilor și la evaluările interne, TikTok a confirmat că a suspendat testările suplimentare ale funcției. În loc să încerce să rezume videoclipuri complexe în întregime, compania intenționează să se reorienteze către sarcini de recunoaștere mai restrânse și mai clar definite—cum ar fi identificarea unor produse specifice în cadrul videoclipurilor.
Această schimbare strategică reflectă o realizare mai amplă la nivelul industriei: limitarea sistemelor AI la sarcini bine delimitate, cu un grad ridicat de încredere, produce adesea rezultate mai fiabile decât solicitarea generării unor interpretări narative complete ale conținutului dinamic.
AI multimodal încă se confruntă cu limite de generalizare
Acest recul se adaugă unei liste tot mai lungi de incidente de halucinație AI intens mediatizate în industria tehnologică. Deși companiile au raportat îmbunătățiri ale metricilor de acuratețe pentru rezumatele generate de AI și pentru prezentările generale din căutări, experiența TikTok evidențiază dificultatea deosebită a aplicării modelelor multimodale de mari dimensiuni la videoclipuri scurte, dinamice și dense vizual.
Platformele de videoclipuri scurte prezintă provocări unice:
- Tranziții rapide între scene și indicii audio-vizuale suprapuse
- Dependență puternică de context cultural și de tendințe online
- Elemente vizuale ambigue sau stilizate
Aceste caracteristici pot pune presiune pe capacitatea modelelor de a menține coerența semantică, crescând riscul de halucinație.
Un tipar mai amplu în industrie
Această mișcare semnalează o ajustare pragmatică a strategiei produselor AI. În loc să urmărească descrieri AI „cu utilizare generală”, companiile restrâng tot mai mult implementarea la cazuri de utilizare verticale, cu limite mai clare și câștiguri de acuratețe măsurabile.
Pentru TikTok, aceasta înseamnă prioritizarea sarcinilor structurate de recunoaștere în detrimentul rezumării deschise. Pentru ecosistemul AI mai larg, reprezintă un memento că, deși modelele multimodale au avansat rapid, implementarea fiabilă la scară largă necesită în continuare o proiectare atentă a sarcinilor și domenii de aplicare bine delimitate.