ChatGPTs neues Images-2.0-Modell ist überraschend gut in der Textgenerierung

Technology21.Apr.2026 19:003 min read

OpenAIs neues ChatGPT-Images-2.0-Modell zeigt deutliche Verbesserungen bei der Darstellung gut lesbarer Texte in KI-generierten Bildern. Das Modell kann detaillierte Visuals, Marketingmaterialien und sogar mehrteilige Comics mit verbesserter Befolgung von Anweisungen und mehrsprachiger Textunterstützung erstellen.

ChatGPTs neues Images-2.0-Modell ist überraschend gut in der Textgenerierung

Früher war es leicht, zwischen von Menschen erstellten und KI-generierten Bildern zu unterscheiden. Noch vor zwei Jahren konnte man Bildmodelle nicht verwenden, um eine Speisekarte für ein mexikanisches Restaurant zu erstellen, ohne neue kulinarische Kreationen wie „enchuita“, „churiros“, „burrto“ und „margartas“ zu erfinden.

Heute erzeugt OpenAIs neues Modell ChatGPT Images 2.0 auf Anfrage nach einer mexikanischen Speisekarte etwas, das sofort in einem Restaurant verwendet werden könnte, ohne dass Kunden etwas Ungewöhnliches bemerken würden. (Obwohl ein Ceviche-Preis von 13,50 $ Fragen zum Fisch aufwerfen könnte.)

ChatGPT Images 2.0 generated Mexican restaurant menu

Bildnachweis: ChatGPT Images 2.0

Zum Vergleich sehen Sie hier das Ergebnis, das vor zwei Jahren von DALL-E 3 generiert wurde, als ChatGPT die Bildgenerierung noch nicht unterstützte:

DALL-E 3 generated Mexican restaurant menu with spelling errors

Bildnachweis: Microsoft Designer (DALL-E 3)

Warum KI-Bildmodelle Schwierigkeiten mit Text hatten

KI-Bildgeneratoren hatten historisch gesehen Probleme mit der Rechtschreibung, da sie in der Regel auf Diffusionsmodellen basierten, die Bilder aus Rauschen rekonstruieren.

„Die Diffusionsmodelle […] rekonstruieren eine gegebene Eingabe“, sagte Asmelash Teka Hadgu, Gründer und CEO von Lesan AI, 2024 gegenüber TechCrunch. „Wir können davon ausgehen, dass Schrift auf einem Bild nur einen sehr, sehr kleinen Teil ausmacht, sodass der Bildgenerator die Muster lernt, die mehr dieser Pixel abdecken.“

Forscher haben inzwischen andere Mechanismen zur Bildgenerierung untersucht, etwa autoregressive Modelle, die vorhersagen, wie ein Bild aussehen sollte, und stärker wie große Sprachmodelle (LLMs) funktionieren.

OpenAI lehnte es während einer Pressekonferenz ab, anzugeben, welche Art von Modell ChatGPT Images 2.0 antreibt.

Neue Funktionen in Images 2.0

OpenAI gibt an, dass das neue Modell über „Denkfähigkeiten“ verfügt, die es ihm ermöglichen, im Internet zu suchen, mehrere Bilder aus einer einzigen Eingabeaufforderung zu generieren und seine Ausgaben zu überprüfen. Dadurch kann Images 2.0 Marketingmaterialien in verschiedenen Größen und sogar mehrteilige Comicstrips erstellen.

Das Unternehmen erklärt außerdem, dass das Modell ein besseres Verständnis für die Darstellung nicht-lateinischer Schriftsysteme in Sprachen wie Japanisch, Koreanisch, Hindi und Bengalisch besitzt. Sein Wissensstand reicht bis Dezember 2025, was beeinflussen kann, wie genau es auf Eingaben zu aktuellen Ereignissen reagiert.

„Images 2.0 bringt ein beispielloses Maß an Spezifität und Detailtreue in die Bilderstellung. Es kann nicht nur anspruchsvollere Bilder konzipieren, sondern diese Vision auch effektiv umsetzen, indem es Anweisungen befolgt, gewünschte Details beibehält und feine Elemente rendert, an denen Bildmodelle oft scheitern: kleiner Text, Ikonografie, UI-Elemente, dichte Kompositionen und subtile stilistische Vorgaben – und das alles mit bis zu 2K-Auflösung“, erklärte OpenAI in einer Pressemitteilung.

Obwohl die Bildgenerierung nicht so unmittelbar erfolgt wie das Eintippen einer Frage in ChatGPT, dauert die Erstellung von etwas Komplexem wie einem mehrteiligen Comicstrip nur wenige Minuten.

Alle ChatGPT- und Codex-Nutzer erhalten ab Dienstag Zugriff auf Images 2.0, wobei zahlende Nutzer umfangreichere Ausgaben generieren können. OpenAI wird außerdem die gpt-image-2-API verfügbar machen, deren Preisgestaltung sich nach Qualität und Auflösung der Ausgaben richtet.