Cover Image for El modelo de texto a imagen Imagen 4 de Google promete 'mejoras significativas' en imágenes monótonas.

El modelo de texto a imagen Imagen 4 de Google promete 'mejoras significativas' en imágenes monótonas.

Google ha presentado sus nuevos modelos de generación de imágenes a partir de texto, denominados Imagen 4 e Imagen 4 Ultra, prometiendo una "mejora significativa en la representación del texto" en comparación con versiones anteriores.

Google ha presentado su nuevo modelo de texto a imagen, llamado Imagen 4, que promete una "mejora significativa en la representación del texto" en comparación con su predecesor, Imagen 3. Además, se ha lanzado una versión deluxe denominada Imagen 4 Ultra, diseñada para que cumpla con instrucciones textuales más precisas, aunque a un precio adicional. Ambos modelos están disponibles en una vista previa paga a través de la API de Gemini y se ofrecen pruebas gratuitas limitadas en Google AI Studio.

El modelo principal, Imagen 4, se describe como "el más adecuado para la mayoría de las tareas" y tiene un costo de 0.04 dólares por imagen. Por otro lado, Imagen 4 Ultra está destinado "cuando se necesita que las imágenes sigan instrucciones con precisión", con la promesa de ofrecer resultados "fuertes" en comparación con otros generadores de imágenes como Dall-E y Midjourney, aumentando el precio a 0.06 dólares por imagen.

En una demostración, se expusieron una serie de imágenes, incluyendo un cómic de tres paneles creado con Imagen 4 Ultra, el cual mostraba una pequeña nave espacial siendo atacada por un enorme "lagarto" espacial azul, con efectos sonoros como "¡Crack!" y, curiosamente, "¡Tuvo!". Esta imagen cumplió con el formato del mensaje exacto y tenía una apariencia similar a una representación en un programa 3D.

Otro ejemplo obtenida a partir de la instrucción "frente de una tarjeta postal vintage de Kyoto: pagoda icónica bajo flores de cerezo, montañas nevadas al fondo, cielo azul claro, colores vibrantes", se generó de manera precisa, aunque con un estilo genérico carente de encanto. También se mostró una imagen de una pareja de excursionistas saludando desde una roca y otra que representaba una falsa sesión de fotos de moda "avant-garde". Las imágenes eran de buena calidad y cumplían con los requisitos textuales, pero aún así transmitían una unión claramente generada por máquinas.

A pesar de que Imagen 4 representa una leve mejora respecto a las versiones anteriores, no resulta particularmente impresionante cuando se le compara con líderes de mercado como Dall-E 3 y Midjourney 7. Asimismo, tras un reciente entusiasmo inicial, el público parece estar perdiendo interés en el arte generado por inteligencia artificial, donde su principal uso parece ser la creación de anuncios poco auténticos en redes sociales o en el pie de artículos.