El nuevo modelo Images 2.0 de ChatGPT es sorprendentemente bueno generando texto

Tecnología21.Apr.2026 19:004 min read

El nuevo modelo ChatGPT Images 2.0 de OpenAI demuestra importantes mejoras en la representación de texto legible dentro de imágenes generadas por IA. El modelo puede crear visuales detallados, materiales de marketing e incluso cómics de múltiples paneles con mejor seguimiento de instrucciones y soporte de texto multilingüe.

El nuevo modelo Images 2.0 de ChatGPT es sorprendentemente bueno generando texto

Solía ser fácil distinguir entre imágenes creadas por humanos y generadas por IA. Hace apenas dos años, no se podían usar modelos de imagen para crear un menú para un restaurante mexicano sin inventar nuevas delicias culinarias como “enchuita”, “churiros”, “burrto” y “margartas”.

Ahora, cuando se le pide un menú de comida mexicana, el nuevo modelo ChatGPT Images 2.0 de OpenAI produce algo que podría usarse de inmediato en un restaurante sin que los clientes noten nada inusual. (Aunque un ceviche con un precio de $13.50 podría generar preguntas sobre el pescado).

ChatGPT Images 2.0 generated Mexican restaurant menu

Créditos de la imagen: ChatGPT Images 2.0

Para comparar, aquí está el resultado generado por DALL-E 3 hace dos años, cuando ChatGPT aún no admitía la generación de imágenes:

DALL-E 3 generated Mexican restaurant menu with spelling errors

Créditos de la imagen: Microsoft Designer (DALL-E 3)

Por qué los modelos de imagen de IA tenían dificultades con el texto

Los generadores de imágenes con IA históricamente han tenido dificultades para escribir correctamente porque, por lo general, se basaban en modelos de difusión, que reconstruyen imágenes a partir del ruido.

“Los modelos de difusión […] están reconstruyendo una entrada determinada”, dijo a TechCrunch en 2024 Asmelash Teka Hadgu, fundador y director ejecutivo de Lesan AI. “Podemos asumir que los textos en una imagen son una parte muy, muy pequeña, por lo que el generador de imágenes aprende los patrones que cubren una mayor cantidad de esos píxeles”.

Desde entonces, los investigadores han explorado otros mecanismos para la generación de imágenes, como los modelos autorregresivos, que predicen cómo debería verse una imagen y funcionan más como los modelos de lenguaje de gran tamaño (LLM).

OpenAI se negó a especificar durante una conferencia de prensa qué tipo de modelo impulsa ChatGPT Images 2.0.

Nuevas capacidades en Images 2.0

OpenAI afirma que el nuevo modelo tiene “capacidades de razonamiento”, lo que le permite buscar en la web, generar múltiples imágenes a partir de una sola indicación y verificar nuevamente sus resultados. Esto permite que Images 2.0 cree recursos de marketing en varios tamaños e incluso tiras cómicas de varios paneles.

La empresa también afirma que el modelo tiene una comprensión más sólida de la representación de texto no latino en idiomas como japonés, coreano, hindi y bengalí. Su fecha de corte de conocimiento es diciembre de 2025, lo que puede afectar la precisión con la que responde a indicaciones relacionadas con eventos recientes.

“Images 2.0 aporta un nivel sin precedentes de especificidad y fidelidad a la creación de imágenes. No solo puede conceptualizar imágenes más sofisticadas, sino que realmente da vida a esa visión de manera eficaz, siendo capaz de seguir instrucciones, preservar los detalles solicitados y representar los elementos de gran detalle que a menudo ponen en aprietos a los modelos de imagen: texto pequeño, iconografía, elementos de interfaz de usuario, composiciones densas y restricciones estilísticas sutiles, todo con una resolución de hasta 2K”, dijo OpenAI en un comunicado de prensa.

Aunque generar imágenes no es tan instantáneo como escribir una pregunta en ChatGPT, crear algo complejo como una tira cómica de varios paneles lleva solo unos minutos.

Todos los usuarios de ChatGPT y Codex tendrán acceso a Images 2.0 a partir del martes, y los usuarios de pago podrán generar resultados más avanzados. OpenAI también pondrá a disposición la API gpt-image-2, con precios basados en la calidad y resolución de los resultados.