Il nuovo modello Images 2.0 di ChatGPT è sorprendentemente bravo a generare testo
Il nuovo modello ChatGPT Images 2.0 di OpenAI dimostra importanti miglioramenti nella resa di testo leggibile all’interno di immagini generate dall’IA. Il modello può creare immagini dettagliate, materiali di marketing e persino fumetti a più pannelli con una migliore capacità di seguire le istruzioni e supporto per testi multilingue.

Un tempo era facile distinguere tra immagini create dall’uomo e immagini generate dall’IA. Solo due anni fa, non era possibile usare modelli di generazione di immagini per creare un menu per un ristorante messicano senza inventare nuove delizie culinarie come “enchuita”, “churiros”, “burrto” e “margartas”.
Ora, quando gli si chiede un menu di piatti messicani, il nuovo modello ChatGPT Images 2.0 di OpenAI produce qualcosa che potrebbe essere utilizzato immediatamente in un ristorante senza che i clienti notino nulla di insolito. (Anche se un ceviche a 13,50 dollari potrebbe sollevare qualche domanda sul pesce.)
Crediti immagine: ChatGPT Images 2.0
Per confronto, ecco il risultato generato da DALL-E 3 due anni fa, quando ChatGPT non supportava ancora la generazione di immagini:
Crediti immagine: Microsoft Designer (DALL-E 3)
Perché i modelli di immagini IA avevano difficoltà con il testo
I generatori di immagini basati sull’IA hanno storicamente avuto difficoltà con l’ortografia perché in genere si basavano su modelli di diffusione, che ricostruiscono le immagini a partire dal rumore.
“I modelli di diffusione […] stanno ricostruendo un determinato input”, ha dichiarato a TechCrunch nel 2024 Asmelash Teka Hadgu, fondatore e CEO di Lesan AI. “Possiamo presumere che le scritte su un’immagine rappresentino una parte molto, molto piccola, quindi il generatore di immagini apprende i pattern che coprono una porzione maggiore di questi pixel.”
Da allora i ricercatori hanno esplorato altri meccanismi per la generazione di immagini, come i modelli autoregressivi, che prevedono come dovrebbe apparire un’immagine e funzionano in modo più simile ai grandi modelli linguistici (LLM).
OpenAI ha rifiutato di specificare, durante un briefing con la stampa, quale tipo di modello alimenti ChatGPT Images 2.0.
Nuove funzionalità in Images 2.0
OpenAI afferma che il nuovo modello possiede “capacità di ragionamento”, che gli consentono di effettuare ricerche sul web, generare più immagini a partire da un singolo prompt e ricontrollare i propri output. Questo permette a Images 2.0 di creare materiali di marketing in diverse dimensioni e persino fumetti a più pannelli.
L’azienda afferma inoltre che il modello ha una comprensione più solida della resa del testo non latino in lingue come giapponese, coreano, hindi e bengalese. Il suo limite di conoscenza è dicembre 2025, il che potrebbe influire sull’accuratezza delle risposte a prompt relativi a eventi recenti.
“Images 2.0 porta un livello senza precedenti di specificità e fedeltà nella creazione di immagini. Non solo è in grado di concepire immagini più sofisticate, ma riesce anche a dare vita a quella visione in modo efficace, seguendo le istruzioni, preservando i dettagli richiesti e rendendo gli elementi più minuti che spesso mettono in difficoltà i modelli di immagini: testi piccoli, iconografia, elementi di interfaccia utente, composizioni dense e vincoli stilistici sottili, il tutto fino a una risoluzione di 2K”, ha dichiarato OpenAI in un comunicato stampa.
Sebbene la generazione di immagini non sia istantanea come digitare una domanda in ChatGPT, creare qualcosa di complesso come un fumetto a più pannelli richiede solo pochi minuti.
Tutti gli utenti di ChatGPT e Codex avranno accesso a Images 2.0 a partire da martedì, con gli utenti a pagamento che potranno generare output più avanzati. OpenAI renderà inoltre disponibile l’API gpt-image-2, con prezzi basati sulla qualità e sulla risoluzione degli output.