Contexto técnico
He estado siguiendo de cerca los comentarios sobre ChatGPT image gen 2 porque este tipo de actualizaciones tienen un impacto práctico inmediato. Si un modelo realmente mantiene el texto y el estilo, deja de ser un juguete para convertirse en una capa viable para la automatización con IA en el diseño.
Esto es lo que he podido constatar. Desde que ChatGPT cambió de DALL·E 3 a su línea nativa de GPT Image, la calidad del texto en las imágenes ha mejorado de verdad. No es que "a veces acierte", sino que las etiquetas cortas, botones, títulos y elementos simples de UI se han vuelto notablemente más estables.
Y esto es más importante de lo que parece. Antes, casi automáticamente descartaba los modelos de imagen para tareas que requerían crear una pantalla con varios controles en un mismo ritmo visual. Ahora ya es posible obtener un borrador que no da vergüenza pasar a Figma como referencia, en lugar de como un meme.
No he visto benchmarks oficiales sobre la consistencia de la UI en múltiples generaciones. Pero con las capacidades actuales de ChatGPT, el panorama está claro: edición conversacional, iteraciones rápidas, ajustes naturales sin máscaras y un manejo decente del texto dentro de la imagen. Para conceptos rápidos, esto ya es suficiente.
La comparación con la "nanobanana" es, por supuesto, más anecdótica que científica. Pero entiendo el punto: si un modelo puede ensamblar un conjunto de controles en un estilo coherente y otro se deshace en cada segundo elemento, en el trabajo real gana el primero, incluso sin tablas elegantes.
¿Qué cambia esto para los negocios y la automatización?
Los primeros en beneficiarse son los equipos que necesitan probar hipótesis de UI rápidamente. Páginas de destino, paneles de administración, pantallas de onboarding, creatividades publicitarias con un aire de interfaz. En estos casos, la velocidad es más importante que la perfección a nivel de píxel.
El segundo punto se refiere a la implementación de la IA. Si el modelo escribe texto mejor directamente en el diseño, se pueden construir más rápido pipelines internos para previsualizar banners, tarjetas, historias y pantallas de producto sencillas sin la intervención de un diseñador en cada paso.
Aquí pierden quienes intenten construir un proceso de producción basándose en una sola generación. La UI final todavía no es un "generar y entregar a desarrollo". Pero como capa para la integración de la IA en el prototipado, ya es una herramienta muy potente.
Yo lo usaría exactamente donde se necesita velocidad, variabilidad y un tono visual unificado, y no un sistema de diseño perfecto desde el primer intento. Si estas tareas ya están sobrecargando a su equipo, podemos analizar juntos su flujo de trabajo: en Nahornyi AI Lab, precisamente construimos soluciones de IA a medida de los procesos reales, para que herramientas como ChatGPT ahorren horas en lugar de generar caos.