Generar contenidos de forma automática con los diferentes modelos de lenguaje de IA se ha convertido en algo habitual para millones de usuarios en todo el mundo. De ahí los enormes esfuerzos que los principales actores en forma de empresas tecnológicas que se centran en estos desarrollos están poniendo ahora mismo.
Desde hace tiempo tenemos la oportunidad de utilizar diferentes plataformas inteligentes para crear todo tipo de contenidos de forma automática. Todo empezó con los textos y las conversaciones fluidas con los diferentes chatbots centrados en la inteligencia artificial. Pero como no podía ser de otro modo, todo esto ha ido mucho más allá.
Ahora tenemos la oportunidad de generar componentes mucho más complejos como imágenes, vídeos o incluso código de programación. Por descontado, todo ello a partir de una serie de caracteres que le indicamos a la plataforma en forma de prompt. Lo cierto es que tenemos al alcance de la mano multitud de modelos de este tipo para utilizar de manera rápida y sencilla y crear espectaculares imágenes en cuestión de segundos.
Quizá las propuestas más populares en estos momentos son los modelos de IA DALL·E 3 que podemos utilizar en el popular asistente ChatGPT de OpenAI, y Nano Banana 2 que usamos en Gemini de Google. Pero por lo que acabamos de saber, a estos dos modelos de IA para generar imágenes, se acaba de sumar un serio contendiente.
Microsoft lanza el nuevo modelo de IA, MAI-Image-2
Os contamos todo esto porque el gigante tecnológico desarrollador de Windows acaba de lanzar el modelo de IA, MAI-Image-2. Se trata de la nueva solución de la firma para la generación de imágenes a través de inteligencia artificial.
Esto se produce cinco meses después de lanzar la primera versión y la firma nos indica que esta segunda versión se ha desarrollado con la ayuda de fotógrafos, diseñadores y creativos visuales. Entre sus virtudes, hay que destacar que mejora la generación de textos dentro de las imágenes y cuenta con una mayor capacidad para crear escenas complejas.
Así, podremos obtener composiciones más elaboradas y conceptos realistas con más detalle. Así, la firma quiere competir de tú a tú con los mencionados DALL·E 3 y Nano Banana 2. Y es que no cabe duda de que Microsoft quiere ser una de las empresas más representativas en todo aquello relacionado con la inteligencia artificial. Y para ello debe competir de manera directa con otras firmas como Google o la propia OpenAI que nos ofrece ChatGPT, como la mayoría ya sabéis.
Quizá el único inconveniente que nos vamos a encontrar en estos momentos para probar el nuevo modelo MAI-Image-2 es que ahora mismo no está disponible en nuestro país. Podremos hacer uso del mismo utilizando, por ejemplo, un servicio de VPN en el navegador y a través de este enlace oficial de la propia Microsoft.
También es importante saber que podremos utilizarlo, de momento, solo en las regiones donde se ha lanzado de forma oficial, a través de Copilot y en Bing Image Creator.
MAI-Image-2 vs. Nano Banana 2 vs. DALL·E 3
Es por todo ello por lo que a continuación vamos a comparar la generación automática de una imagen compleja haciendo uso de los 3 modelos mencionados. Así tendremos la oportunidad de comparar la calidad, tiempo empleado, o detalles ofrecidos por las tres propuestas mencionadas: MAI-Image-2 vs. Nano Banana 2 vs. DALL·E 3.
Son varios los apartados que podemos tener en consideración a la hora de valorar estas tres propuestas inteligentes para generar imágenes. Todo ello partiendo de la base de que en estos momentos, los modelos de IA actuales nos ofrecen resultados realmente espectaculares en la mayoría de las ocasiones.
Y eso que, según los expertos, esto no ha hecho más que empezar, ya que esta es una tecnología que tendrá que crecer de manera sustancial a lo largo de los próximos años. Con todo y con ello, y si nos fijamos en los detalles, podemos ver algunas interesantes diferencias al utilizar un mismo prompt complejo para generar una imagen llena de detalles que nos permitan valorar el funcionamiento de estos modelos de IA comentados. Evidentemente hemos utilizado el mismo equipo y texto a modo de prompt para generar la misma foto en los tres asistentes inteligentes.
- Velocidad de respuesta. Hay que tener en consideración que, uno de los aspectos que más se valoran a la hora de generar contenidos mediante la inteligencia artificial, es el tiempo de respuesta de cada plataforma. Esto es algo que se hace especialmente patente a la hora de generar imágenes, como es el caso. Pues bien, con diferencia DALL·E 3 a través de CharGPT, ha presentado en pantalla la imagen resultante mucho más rápido. Ha empleado en torno a 12 segundos respecto a las otras dos plataformas que se han ido hasta superar los 35 segundos.
- Resolución y apariencia de la descarga. Lo cierto es que las tres propuestas obtenidas nos ofrece una definición excepcional y un nivel de detalle muy alto. En cuanto a la resolución de la imagen final, merece la pena destacar que la propuesta de Google Gemini y su Nano Banana 2, es la única imagen en formato panorámico y además con mayor resolución que el resto, una vez descargada.
- Realismo obtenido. Este es otro apartado muy importante a la hora de medir el rendimiento de estas plataformas inteligentes. Lo cierto es que basándonos en el prompt que hemos subido a las IA, la imagen resultante más realista es de nuevo la ofrecida por Nano Banana 2. Las otras propuestas, aun siendo bastante realistas, tienen más visos de creación artificial que la imagen obtenida en la plataforma de Google.
- Adaptación al prompt establecido. Como no podía ser de otro modo, que la foto resultante se adapte al máximo al prompt establecido es algo clave. Aquí pocos defectos vamos a encontrar en ninguna de las plataformas donde se ha realizado la prueba. Las tres son muy fidedignas en cuanto a los términos introducidos.
- Composición y estética. Lo cierto es que la estética obtenida es muy similar a pesar de tratarse de tres soluciones diferentes. Podemos afirmar que la profundidad de campo y nivel de detalle obtenido por el modelo MAI-Image-2 de Microsoft, le sitúa un punto por encima de sus competidoras.
- Originalidad de la imagen. Partamos de la base de que el prompt aquí establecido es muy detallista. Por tanto el estilo obtenido como la originalidad del entorno generado son muy similares en todos los casos. Ninguna desentona respecto al resto, ni a favor ni en contra.
Imágenes obtenidas en las plataformas IA y cuál es mejor
Antes de nada y para que os hagáis una idea de lo que queríamos obtener, este el prompt que hemos establecido, por supuesto, siempre el mismo, para generar las imágenes con la IA.
Escena interior ultra detallada de una biblioteca brutalista abandonada, parcialmente reclamada por la naturaleza, capturada durante la hora dorada de la mañana. Enormes estructuras de hormigón visto dominan el espacio, con envejecimiento visible, grietas, crecimiento de musgo y manchas de humedad. Paneles de vidrio de suelo a techo están fracturados y cubiertos de polvo, permitiendo que haces volumétricos de luz solar atraviesen partículas suspendidas de polvo, polen y humedad en el aire. Vegetación densa (helechos, hiedra, pequeños árboles) crece de forma orgánica entre baldosas rotas y estanterías colapsadas.
Atención extrema al realismo de materiales: microimperfecciones en el hormigón (grano fino, bordes desconchados, gradientes sutiles de decoloración), dispersión de luz físicamente precisa a través de hojas translúcidas, y mapas de rugosidad variables entre superficies húmedas y secas. Libros esparcidos por el suelo con páginas curvadas, tinta desvanecida y daños por agua, con tipografía parcialmente legible pero deteriorada.
Interacción ambiental dinámica: una brisa suave mueve sutilmente las enredaderas colgantes y fragmentos de papel suspendidos en el aire. Los rayos de luz generan patrones complejos de oclusión y caústicas sobre geometrías irregulares. Reflejos en pequeños charcos de agua muestran ligera distorsión y aberración cromática.
Capturado con una cámara full-frame, lente de 24mm, perspectiva en ángulo bajo para exagerar la escala, gran profundidad de campo (f/11), distancia hiperfocal que garantiza nitidez desde los escombros en primer plano hasta los detalles arquitectónicos del fondo. Iluminación global, sombras trazadas por rayos, renderizado físicamente basado (PBR), alto rango dinámico, gradación de color cinematográfica con verdes apagados y tonos cálidos.
Sin presencia humana, sin estilización, sin apariencia CGI — fotorrealismo llevado al límite, resolución 16K, fidelidad extrema de texturas, ciencia de color natural, imperfecciones sutiles de lente (viñeteado, mínima distorsión, ligero ruido de sensor)
Para ver los resultados que hemos obtenido, en primer lugar os mostramos la imagen que nos ha ofrecido la plataforma Gemini de Google usando Nano Banana 2.
En primera instancia aquí destaca la luminosidad general de la imagen respecto a sus competidoras, y es la única que se ofrece en modo panorámico. Además, el realismo de los detalles y objetos está un punto por encima del resto.
Por otro lado, también hemos establecido el mismo prompt en la plataforma mencionada de ChatGPT usando su modelo DALL·E 3.
En este caso concreto podemos detectar que los objetos incluidos son algo menos realistas, algo que por ejemplo podemos ver claramente en los libros incluidos. Al mismo tiempo los diferentes niveles de luminosidad y sombreado están menos logrados y son algo más artificiales.
Y por último nos encontramos con la imagen resultante obtenida a través de la plataforma de Microsoft utilizando el nuevo modelo del lenguaje de IA MAI-Image-2.
Tal y como os mencionamos antes, aquí nos encontramos con una imagen cuya profundidad resulta más espectacular y el nivel de detalle obtenido se encuentra un punto por encima de las otras dos. También merece la pena destacar la luminosidad y contraste que nos ofrece esta foto generada a través de la inteligencia artificial del gigante tecnológico.
Si tenemos en cuenta todo lo comentado, quizá la alternativa de Google y su modelo Gemini esté algo por encima del resto. Pero esto es algo un tanto subjetivo y la elección también depende del modo de uso que vayamos a hacer de la imagen resultante, de lo que estemos buscando, de los diferentes prompt que indiquemos, y muchos más factores relevantes.
