Google sigue avanzando sin cesar en la multifunción de Gemini. Y es que con Imagen 4, tenemos un potente motor de generación de imágenes. Ahora, además, disponible a través de la API de Gemini y de Google AI Studio. Este movimiento es un salto también para desarrolladores y empresas de todo el mundo.
Y es que ahora vamos a poder incorporar de manera sencilla las mejores capacidades de Imagen 4. De esta manera, podremos convertir texto en imágenes siempre que se lo pidamos. Pero siempre bajo varios grados de calidad, velocidad y precio. Gracias a esta integración, ya no es siquiera necesario que recurramos a una interfaz visual. Basta con una línea de código para que cualquier web, app móvil o backend empresarial pueda generar ilustraciones, carteles, bocetos o cualquier contenido gráfico a partir de una mera instrucción.
La API nos deja, además, elegir entre tres variantes: Fast, Standart y Ultra. Dependerá de la necesidad de resolución, fidelidad o coste la elección. Por lo tanto, tenemos una plataforma mucho más flexible y lista para integrarse por completo en servicios digitales.
Novedades de la API: tres variantes pensadas para cada necesidad
La nueva API de Gemini pone en manos de cualquier desarrollador -siempre con cuenta de pago- tres variantes novedosas y específicas:
- Imagen 4 Fast. El cual podemos dedicar a procesos de alto volumen cualquier necesidad urgente. Prioriza la rapidez de respuesta y el bajo coste, y tiene un preciso estimado de 2 centavos por imagen (USD).
- Imagen 4 Estándar. Es el modelo específicamente pensado para encontrar un equilibrio entre la calidad visual y el rendimiento. Posee un precio estimado de 4 centavos por imagen.
- Imagen 4 Ultra. El más avanzado de los tres. Es capaz de captar las instrucciones y generar resultados de «fidelidad extrema». Por lo tanto, estamos ante una herramienta perfecta para campañas de marketing o diseño exigente. Su precio alcanzará los 6 centavos por imagen.
Este enfoque creado por distintos módulos nos permitirá adaptar tanto el coste como la calidad de los resultados dependiendo del proyecto que estemos llevando a cabo. En cualquier caso, se adapta perfectamente a una generación masiva de contenido para e-commerce e incluso a educación. Pero en contextos menos profesionales, puede crear memes o ilustraciones artísticas.
Parámetros de la API: personalización y control real
Con la documentaciónoficial ya accesible, la API de Gemini nos permite integrar Imagen 4 en cualquier sistema de trabajo, bajo vía código. Y para cada creación de contenido, podemos definir parámetros como:
- Número de imágenes por solicitud, que encontraremos de 1 a 4 por cada una.
- Tamaño de imágenes que variará entre 1k O 2K px.
- Relación de aspecto. El cual podremos configurar como 1:1, 3:4, 4:3, 9:16, 16:9.
- Instrucciones de inclusión/exclusión de personas. Por ejemplo, encontramos opciones para adultos, todos o ningún humano. Algo útil en cuanto a la política de una IA responsable.
Además, una nueva mejora es la capacidad de crear texto legible dentro de la propia imagen. Lo que aporta más profundidad a la hora de generar cartelería, publicidad o contenido para redes sociales.
Por último, no nos podemos olvidar de la seguridad. Todas las imágenes cuentan con SynthID. Una marca de agua digital invisible de Google que garantiza la autoría de una imagen sin que afecte a su calidad visual. Algo muy valorado tanto por la seguridad de los usuarios como por aquellos creadores que quieran asegurarse de la autoría de sus obras.
