En su último macroevento de este pasado mes de mayo, el I/O 2025, Google anunció la llegada de Gemma 3n, su nuevo modelo de IA pensado para ejecutarse por completo solo en dispositivos móviles, tablets y portátiles. Todo sin depender de ninguna nube ni de conexión a internet. Pero entrando un poco más en profundidad, ¿Qué tiene que ofrecernos este nuevo modelo?
Con hasta 5 B y 8 B de parámetros, Gemma 3n hace uso de innovaciones como «Per-Layer Embeddings» y de una arquitectura MatFormer para reducir el uso de memoria. Esto quiere decir que, aunque se han aumentado los billones de parámetros, funcionará a nivel de memoria como si fuera un modelo de 2 B – 4 B. Lo que en definitiva, nos lleva a la conclusión de que puede funcionar incluso con tan solo 2 GB de RAM.
Aparte de ello, también es una propuesta multimodal: es capaz de entender y generar texto, audio, imágenes e incluso vídeo. Y ofrece reconocimiento de voz, transcripción, traducción y análisis visual. Y recordemos: todo a nivel local.
Pues pasado poco más de un mes, por fin podemos decir que ya se encuentra disponible en Google AI Studio, y próximamente lo hará en Google AI Edge.
Así es Gemma 3n
Memoria optimizada y eficiencia local
Gemma 3n trae una tecnología puntera conocida como Per-Layer Embeddings, la cual reduce enormemente la memoria necesaria para un funcionamiento óptimo. Así que, a pesar de las mejoras de rendimiento, tan solo se necesitan, en la práctica, 2-3 GB de RAM para que funcione perfectamente. Pero aparte de eso, también cuenta con mejoras como KVC sharing y cuantización avanzada, lo que acelera la velocidad de las respuestas aproximadamente en un 50% con respecto a Gemma 3.
Además, su arquitectura MatFormer permite que se creen submodelos de carácter dinámico que se van a adaptar a nuestras necesidades de velocidad, precisión y ahorro energético.
Multimodalidad
Gemma 3n también tiene la capacidad de procesar texto, imágenes, audio y vídeo. Y todo desde tu propio móvil, sin acudir a la nube o servidores especializados. Por lo tal, esto nos permite ejecutar funciones como:
- Reconocimiento de voz y transcripción local.
- Traducción instantánea sin necesidad de conexión.
- Análisis visual de imágenes y vídeos.
- Comprensión e interacción de varios formatos de archivo al mismo tiempo.
Privacidad y disponibilidad
Al funcionar de manera completamente offline, todos tus datos van a permanecer en tu dispositivo siempre. Algo de agradecer con respecto a nuestra privacidad y el historial de Google en este apartado. Debes saber que está disponible en Google AI Studio y llegará también a Google AI Edge para desarrolladores.
Gemma 3n vs otras IA móviles
Gemma 3n, de Google, es multimodal, por lo que reconoce y trabaja con texto, imágenes, audio y vídeo. Peor además funciona de manera offline con tan solo 2 GB de RAM. Además, es de código abierto y supone una privacidad total para el usuario.
En este caso, hemos puesto la vista en su competencia directa para hacer una comparativa al respecto:
- Apple Neural Engine + Siri+: Esta IA está enfocada en voz e imagen, pero no cuenta con un soporte multimodal al completo aún. Está muy integrado en los dispositivos de Apple, pero aún tiene mucho que evolucionar.
- Samsung Gauss. La IA para los móviles Galaxy. Se centra en productividad y traducción, pero no todas sus funciones son offline.
- Meta Llama 3 Mobile. Funciona de manera local en las apps de Meta, como Instagram o WhatsApp. Y es capaz de trabajar solo con texto e imagen, pero no es de código abierto.
- Microsoft Phi-3 Mini. Posee un buen rendimiento en móviles, pero solo funciona mediante órdenes por texto en lenguaje natural. La gran pega es que carece de multimodalidad.
Para que lo puedas visualizar de una manera más comparable, te dejamos por aquí la siguiente tabla:
Modelo (Compañía) | Multimodalidad Principal | Funcionamiento Offline | Código Abierto | RAM Mínima (Aprox.) | Fuente de Datos |
---|---|---|---|---|---|
Gemma 3n (Google) | Texto, imagen, audio, vídeo | Sí (Completo) | Sí | 2 GB | Google AI Dev Blog |
Apple Intelligence (Apple) | Texto, imagen, contexto app | Sí (Parcial) | No | 8 GB | Apple Newsroom |
Samsung Gauss (Samsung) | Productividad, traducción | No (Parcial) | No | No especificado | Comunicados de Samsung |
Llama 3 Mobile (Meta) | Texto, imagen | Sí | Sí | No especificado | Meta AI Blog |
Phi-3 Mini (Microsoft) | Solo texto | Sí | No | ~2 GB | Microsoft Research / arXiv |