Noul model Images 2.0 al ChatGPT este surprinzător de bun la generarea textului
Noul model ChatGPT Images 2.0 de la OpenAI demonstrează îmbunătățiri majore în redarea textului lizibil în imaginile generate de AI. Modelul poate crea elemente vizuale detaliate, materiale de marketing și chiar benzi desenate cu mai multe panouri, oferind o respectare mai bună a instrucțiunilor și suport pentru text multilingv.

Pe vremuri era ușor să faci diferența între imaginile create de oameni și cele generate de AI. În urmă cu doar doi ani, nu puteai folosi modele de generare a imaginilor pentru a crea un meniu pentru un restaurant mexican fără să inventezi noi delicii culinare precum „enchuita”, „churiros”, „burrto” și „margartas”.
Acum, atunci când i se cere un meniu cu mâncare mexicană, noul model ChatGPT Images 2.0 de la OpenAI produce ceva ce ar putea fi folosit imediat într-un restaurant, fără ca clienții să observe ceva neobișnuit. (Deși un ceviche la prețul de 13,50 dolari ar putea ridica întrebări despre pește.)
Credit imagine: ChatGPT Images 2.0
Pentru comparație, iată rezultatul generat de DALL-E 3 acum doi ani, când ChatGPT nu suporta încă generarea de imagini:
Credit imagine: Microsoft Designer (DALL-E 3)
De ce modelele AI pentru imagini aveau dificultăți cu textul
Generatoarele de imagini bazate pe AI au avut istoric dificultăți în a scrie corect, deoarece s-au bazat în general pe modele de difuzie, care reconstruiesc imaginile pornind de la zgomot.
„Modelele de difuzie […] reconstruiesc o anumită intrare”, a declarat pentru TechCrunch în 2024 Asmelash Teka Hadgu, fondator și CEO al Lesan AI. „Putem presupune că textele dintr-o imagine reprezintă o parte foarte, foarte mică, astfel încât generatorul de imagini învață tiparele care acoperă mai mulți dintre acești pixeli.”
Cercetătorii au explorat ulterior și alte mecanisme pentru generarea de imagini, precum modelele autoregresive, care prezic cum ar trebui să arate o imagine și funcționează mai asemănător cu modelele lingvistice de mari dimensiuni (LLM).
OpenAI a refuzat să precizeze în cadrul unei conferințe de presă ce tip de model alimentează ChatGPT Images 2.0.
Noi capabilități în Images 2.0
OpenAI afirmă că noul model are „capacități de gândire”, ceea ce îi permite să caute pe web, să genereze mai multe imagini dintr-un singur prompt și să își verifice rezultatele. Acest lucru permite Images 2.0 să creeze materiale de marketing în diverse dimensiuni și chiar benzi desenate cu mai multe panouri.
Compania mai spune că modelul are o înțelegere mai bună a redării textului non-latin în limbi precum japoneza, coreeana, hindi și bengaleza. Limita sa de cunoștințe este decembrie 2025, ceea ce poate afecta cât de precis răspunde la solicitări care implică evenimente recente.
„Images 2.0 aduce un nivel fără precedent de specificitate și fidelitate în crearea imaginilor. Nu doar că poate conceptualiza imagini mai sofisticate, dar reușește să dea viață acelei viziuni în mod eficient, fiind capabil să urmeze instrucțiuni, să păstreze detaliile solicitate și să redea elementele fine care adesea pun în dificultate modelele de imagini: text mic, iconografie, elemente UI, compoziții dense și constrângeri stilistice subtile, toate la rezoluții de până la 2K”, a declarat OpenAI într-un comunicat de presă.
Deși generarea imaginilor nu este la fel de instantanee ca tastarea unei întrebări în ChatGPT, crearea a ceva complex, precum o bandă desenată cu mai multe panouri, durează doar câteva minute.
Toți utilizatorii ChatGPT și Codex vor avea acces la Images 2.0 începând de marți, utilizatorii plătitori putând genera rezultate mai avansate. OpenAI va pune la dispoziție și API-ul gpt-image-2, cu prețuri bazate pe calitatea și rezoluția rezultatelor generate.