Generar imágenes con Inteligencia Artificial es algo que ya está al alcance de todos. Desde la llegada de ChatGPT, en 2022, son muchas las compañías que han decidido lanzar sus propias IAs. Y, como no podía ser menos, los gigantes de la tecnología, como Google o Microsoft, han puesto sus propias Inteligencias Artificiales al alcance de todos. Pero, con tanta variedad, nos viene una pregunta a la cabeza, ¿cuál de todas es mejor?
Aunque hay muchas IAs que nos permiten generar imágenes, una de las más usadas es Bing Chat. La Inteligencia Artificial de Microsoft utiliza los modelos de lenguaje de OpenAI que permiten a los usuarios acceder a las últimas versiones de GPT, así como a otras funciones como, por ejemplo, Dall-E para generar imágenes. No es la mejor (Midjourney está a años luz), pero es la más fácil y rápida de usar, además de ser totalmente gratis (la propia Dall-E de OpenAI tiene un coste). Y, por ello, ha ganado una gran popularidad en poco tiempo.
Sin embargo, este éxito está a punto de acabarse. Google, quien ya tiene su propia IA llamada «Bard», acaba de lanzar un nuevo modelo de lenguaje llamado «Gemini». Este modelo es mucho más preciso y eficaz que su predecesor, además de añadir otras funciones que, hasta ahora, no estaban disponibles en la IA de Google. Por ejemplo, la posibilidad de generar imágenes.
Ahora, con Bing Chat de una mano, y Google Gemini de la otra, ¿cuál de las dos IAs genera mejores imágenes? Vamos a verlo.
Imagen generada por la IA de Bing Chat
Lo primero que hemos hecho ha sido entrar en este enlace para poder empezar a usar la IA de Microsoft. Una vez dentro, hemos seleccionado el modo equilibrado, y le hemos introducido el siguiente prompt:
Genera una imagen de dos niños jugando con una pelota amarilla en la plaza de un pueblo. En el fondo hay un montón de gente viendo a los niños jugar. Uno de los niños es rubio, y el otro tiene el pelo moreno. Un niño lleva una camiseta del Real Madrid, y otro de la Real Sociedad.
Automáticamente, Bing Chat ha empezado a generar la imagen usando el modelo de lenguaje Dall-E 3, y en pocos segundos nos ha devuelto los siguientes resultados.
El resultado, la verdad, ha sido muy preciso. hay dos niños, juegan con una pelota (o balón) amarillo, uno es rubio, el otro moreno, hay gente viéndolos y están en una plaza. Lo único que no ha cumplido ha sido lo de las camisetas de fútbol, ya que si bien es cierto que la del Real Madrid sí la ha puesto, la de la Real Sociedad no.
Imagen generada por la IA de Google Bard con Gemini
La IA de Google para generar imágenes, gemini, está disponible en este enlace. Sin embargo, en este caso nos hemos encontrado con varios hándicaps. El más importante es que Gemini aún no está disponible en España, por lo que nos hemos tenido que conectar a través de una VPN, saliendo por Estados Unidos. Y la segunda, que en español no quiere generar la imagen, por lo que nos ha tocado hacerlo en inglés.
Actualización: Google ha introducido algún cambio en Bard que ha hecho que, aunque siga sin generar imágenes en español, ahora al menos no es necesario conectarnos a través de una VPN. Basta solo con darle la orden en inglés para que la procese (o, al menos, haga amago de ello) y empiece a trabajar. En inglés, también podemos aprovecharnos de las últimas mejoras que ha introducido Gemini Pro, como el reconocimiento de imágenes, o las nuevas respuestas mejoradas.
Hemos traducido el prompt anterior, el cual queda de la siguiente manera:
Certainly! Here’s the translation to English:
Generate an image of two children playing with a yellow ball in the town square. In the background, there are people watching the children play. One of the children is blond, and the other has brown hair. One child is wearing a Real Madrid shirt, and the other is wearing a Real Sociedad shirt.
Bard no ha querido generar la imagen, ya que le ha debido parecer demasiado compleja. Ha hecho algún amago de crearla, pero ha dado error. Lo hemos intentado varias veces, pero ninguna de ellas ha tenido éxito. Hemos probado con algunos prompts similares, pero más sencillos, y Bard no los ha creado.
Sin embargo, si le pedimos que cree otra imagen, como la del robot que hemos usado como imagen destacada de este artículo, sí que la ha creado a la primera.
¿Cuál es mejor?
Creo que está claro. Bing Chat está a años luz de Google Bard, incluso con Gemini Pro sobre la mesa. Google llegó tarde, y mal, al mercado de los asistentes personales, y lo está haciendo igual de mal al mercado de las IAs. A parte del absurdo bloqueo regional que tiene, Bard no termina de despegar, ya que no solo tiene problemas a la hora de generar imágenes, sino también a la hora de hacerle consultas.
Si tuviéramos un ranking, Bing Chat ocuparía los primeros puestos de la lista, mientras que Bard, tal como está ahora, los últimos. Cuando esta IA llegue a España, y tenga ganas de trabajar para generar las imágenes que le pedimos, volveremos a ponerlo a prueba. Mientras tanto, Google Bard con Gemini Pro es un completo FAIL.