Pongo a prueba Bing Chat, Adobe Firefly, Stable Diffusion: ¿quién crea mejores imágenes con IA?
El número de Inteligencias Artificiales que nos permiten crear imágenes en base a una descripción es muy amplio y variado. Sin embargo, no todas son iguales ni nos ofrecen los mismos resultados, y no podemos perder tiempo probando que es lo que nos ofrece cuando tenemos la necesidad de crear una imagen artificial.
DALL-E (de los creadores de ChatGPT, y usada por Bing Chat), Stable Diffusion y Adobe Firefly son algunas de las IAs más conocidas y populares a la hora de generar imágenes. Si bien es cierto que podemos encontrar excelentes opciones menos conocidas, como Lexica, que también ofrece interesantes resultados, estas otras opciones tienen una serie de limitaciones a la hora de generar imágenes fotorrealistas, por lo que, por ahora, no son una opción que contemplar si lo que buscamos es una IA lo más completa posible que abarque cualquier necesidad.
Cómo hemos puesto a prueba las IAs
La mejor forma de probar las bondades de cada una de las IAs disponibles en el mercado es utilizando el mismo prompt, la misma descripción, en todos. Nosotros hemos querido poner cara a cara las IAs antes mencionadas, y este es el prompt que vamos a utilizar para ver qué tal son capaces estas Inteligencias Artificiales para crear imágenes:
Retrato de un niño jugando con una pelota con un disfraz de payaso en medio de la calle
Una prueba sencilla que podríamos haber complicado mucho más, pero que nos va a permitir sacar muchas conclusiones. A grandes rasgos, lo importante de este prompt es la palabra «retrato», ya que con ella estamos invitando a la IA a crear una imagen fotorrealista, alejada completamente de las imágenes que generaban las primeras IAs.
Además, debemos tener claro que, en base a una descripción, siempre vamos a obtener imágenes diferentes cada vez que lo ejecutemos. Nunca se creara la misma imagen dos veces, por mucho que lo intentemos utilizando la misma plataforma.
Otro aspecto que debemos tener en cuenta es que cuanta más completa sea la descripción, siempre vamos a obtener mejores resultados. Si queremos controlar todos los elementos que se formarán en una imagen, debemos considerarlos en la descripción.
DALL-E (Bing Chat)
DALL-E es la plataforma Inteligencia Artificial de OpenAI, el creador del popular ChatGPT. Para poder utilizar DALL-E es necesario contratar créditos que nos permite generar un número limitado de imágenes. Si no queremos pagar, podemos utilizar el Generador de imágenes de Bing, que se basa en la última versión de DALL-E, por lo que vamos a obtener resultados muy similares, ya que ambos se basan en la misma versión.
Como podemos ver en la imagen superior, el resultado que obtenemos con el prompt que hemos utilizado es fotorrealista y cuesta muchísimo diferenciarlo de una captura real. La IA ha tenido en cuenta todas las especificaciones que hemos detallado en el prompt, mostrando una imagen tipo retrato con el fondo desenfocado de un niño con una pelota en las manos y disfrazado de payaso.
El hándicap de esta IA es que no podemos especificar en el prompt que la imagen no sea 16:9 o 4:3, siendo todas las imágenes que se crean en formato 1:1 (cuadrado). Las imágenes generadas tienen una resolución de 1024×1024 píxeles e incluyen una marca de agua en la esquina inferior izquierda.
El generador de imágenes de Bing basado en DALL-E está disponible a través de este enlace.
Adobe Firefly
La solución que Adobe pone a nuestra disposición para crear imágenes ha sido la última en llegar al mercado. Sin embargo, nos ofrece resultados realmente sorprendentes y que no tienen nada que ver con otras opciones tal y como podemos ver a continuación. FireFly interpreta mejor el prompt que hemos especificado ya que muestra al niño realmente jugando y no sujetando la pelota sobre sus manos como si hace la solución de DALL-E.
Además de interpretar correctamente la descripción de la imagen, Adobe Firefly nos permite realizar modificaciones sobre cualquiera de las imágenes que crea, permitiéndonos utilizar la función Relleno generativo y la posibilidad de reemplazar objetos de la imagen, funciones que están integradas en Photoshop. También nos permite cambiar el formato de la imagen para que no sea la proporción 1:1, sino que también podemos crear imágenes en formato 16:9, 4:3 y 3:4. Incluso nos permite elegir si queremos crear una fotografía o una ilustración. La resolución de las imágenes que genera es de 2048×2048 en el formato 1:1.
Podemos acceder a Adobe Firefly desde aquí. La versión gratuita está limitada a la creación de 25 créditos y si queremos seguir generando imágenes, tendremos que pasar por caja.
Stable Diffusion
La principal ventaja que nos ofrece Stable Diffusion, además de tratarse de una IA de código abierto, es que tenemos la posibilidad de instalarla en nuestro ordenador, lo que nos permite generar todo tipo de imágenes usando nuestro propio hardware, sin ningún tipo de limitación. Pero, si lo preferimos, también podemos utilizar la versión web disponible a través de su página web. Si queremos utilizarlo de forma local, sin conexión a Internet, es necesario disponer de una tarjeta gráfica potente, ya que, de lo contrario, el tiempo para generar cualquier imagen puede llevarnos muchos minutos.
A través de Stable Diffusion, vía web, obtenemos una sola imagen a diferencia de otras opciones que, si muestran más resultados, sin embargo, la imagen que nos ofrece es muy realista, aunque no ha interpretado correctamente «jugando» ya que tiene la pelota sujeta en una mano y no jugando con ella.
El formato de la imagen que nos ofrece Stable Diffusion es 768×768 con relación de aspecto 1:1. No podemos cambiar esta ni la resolución a través de las opciones de personalización que nos ofrece.
Podemos acceder a la versión web de Stable Diffusion a través de este enlace y podemos utilizarla sin ningún tipo de límite.
¿Cuál es la mejor?
Después de analizar las mejores IAs para generar imágenes en base a una descripción, llegamos fácilmente a la conclusión de que la mejor de todas es la que nos ofrece Adobe Firefly por muchos motivos. El primero es que nos ofrece la mayor resolución 2048, una resolución que nos permite trabajar fácilmente con la imagen. La segunda, nos permite utilizar las funciones de IA generativa disponibles en Photoshop para cambiar elementos de la imagen o reemplazar el fondo. Además, también ofrece la posibilidad de seleccionar la proporción que queremos que tenga la fotografía, sin limitarse a la escala 1:1 de la mayoría.
De todas formas, tampoco desmereceríamos a Dall-E, ya que, como opción gratuita, está más que a la altura.