Google ha detectado un nuevo y sofisticado ataque que pone en jaque la seguridad de los sistemas de inteligencia artificial multimodales. En este caso, Gemini. Los ciberdelincuentes han desarrollado una técnica que les permite ocultar comandos maliciosos dentro de imágenes mediante marcas de agua. Pero lo peor de todo es que son invisibles al ojo humano.
Cuando estas imágenes se cargan en los sistemas de IA que escalan automáticamente las imágenes para el análisis, los comandos ocultos se activan sin que el usuario sea consciente. Es esto lo que puede provocar la filtración de datos privados e incluso ejecutar acciones peligrosas para los usuarios, como el envío de nuestra información a terceros actores.
Este método aprovecha las vulnerabilidades dentro de algoritmos de escalado utilizados y usa herramientas especializadas para insertar estos comandos en zonas oscuras de las imágenes. De hecho, la amenaza es tan real que puede propagarse incluso a través de memes, redes sociales o correos electrónicos. Por ello, los expertos en ciberseguridad aconsejan extremar las precauciones al subir imágenes que procedan de fuentes desconocidas. Y de igual manera, controlar los permisos que otorgamos a las aplicaciones de IA para no caer en esta trampa.
El peligro real en las imágenes que compartimos con la IA
Según la publicación en el blog de The Trail of Bits, los investigadores en seguridad han revelado un nuevo tipo de ataque dirigido a sistemas de IA multimodales como Gemini, que combina el procesamiento de texto e imágenes. Esta técnica consiste en insertar prompts maliciosos dentro de imágenes mediante marcas de agua invisibles. Y dichas imágenes, cuando se procesan por la IA, se redimensionan para ajustarse a un formado estándar. Es durante este escalado cuando los comandos ocultos se vuelven visibles para los sistemas de IA, que los interpreta como órdenes válidas y las ejecuta sin la intervención de los usuarios.
Tras la divulgación de la investigación, un portavoz de Google ha declarado que se trata de un desafío importante para toda la industria, pero que la compañía no ha detectado casos de explotación en entornos reales. Aun así, reconoce la utilidad y la veracidad de la investigación. Dicha vulnerabilidad fue comunicada a Google de manera privada a través del programa 0Din de Mozilla, especializado en la recompensa por fallos de seguridad en IA generativa.
El ataque se basa en aprovechar vulnerabilidades en los tres algoritmos de escalado más utilizados:
- Vecino más cercano: un método que copia el valor del píxel más cercano sin hacer interpolaciones. Es rápido, pero puede producir imágenes pixeladas.
- Interpolación bilineal: calcula el valor de un píxel nuevo promediando los valores de los cuatro píxeles vecinos más cercanos, lo que produce una imagen más suave.
- Interpolación cúbica: utiliza 16 píxeles vecinos para calcular el valor de un píxel nuevo aplicando una función cúbica. Ofreciendo resultados más suaves que los dos anteriores.
Los atacantes insertan prompts manejando las zonas oscuras de las imágenes para camuflar el contenido malicioso. Y para ello, utilizan herramientas de código abierto como Anamorpher, que permite analizar y adaptar las instrucciones de manera oculta, según el método de escalado que se emplee.
| Algoritmo de Escalado | Vulnerabilidad Explotada | Herramienta Utilizada |
|---|---|---|
| Vecino más cercano | La asignación directa de píxeles al ampliar la imagen revela los comandos ocultos. | Anamorpher |
| Interpolación bilineal | El promedio de los 4 píxeles vecinos activa el código malicioso integrado en zonas de baja luminosidad. | Anamorpher |
| Interpolación cúbica | La función cúbica aplicada sobre 16 píxeles vecinos hace visible la marca de agua con el prompt. | Anamorpher |
Consecuencias del método
Dentro de los experimentos realizados, los investigadores demostraron que con esta técnica era posible filtrar datos de Google Calendar y enviarlos a direcciones de correo externas sin que el usuario fuera capaz de detectarlo. Además, también se pueden activar herramientas de automatización como Zapier para realizar acciones más profundar. Lo que extiende el poder de este ataque a más servicios.
Esto supone un riesgo, sobre todo por la imprevisibilidad y la novedad del ataque. Por el momento, los expertos aconsejan limitar los permisos y el acceso que nuestras apps de IA tienen a nuestros datos y herramientas. Además, debemos supervisar las funciones que se activan durante el procesamiento de datos.
| Plataforma Afectada | Acción Maliciosa Demostrada | Nivel de Riesgo |
|---|---|---|
| Gemini (Web) + Google Calendar | Extracción de eventos del calendario y envío a un email externo. | Alto |
| Gemini (Web) + Zapier | Activación de automatizaciones no autorizadas para interactuar con otros servicios. | Crítico |
| Vertex AI Studio | Ejecución de prompts no deseados en un entorno de desarrollo profesional. | Alto |
| Google Assistant (Android) | Potencial ejecución de comandos a nivel de sistema operativo a través de la IA. | Crítico |
