Todos aquellos que hagan uso de Claude, el chatbot de IA perteneciente a la empresa de Anthropic, se enfrentan a una nueva amenaza de seguridad. Los investigadores han descubierto una vulnerabilidad potencial que permite a los atacantes acceder a conversaciones privadas y datos personales mediante el robo de API.
Este grave fallo ha sido descubierto por el investigador de seguridad Johann Rehberger, alias «wunderwuzzi». Y así lo ha notificado a través de su web personal «Embrace the Red». El mecanismo se basa en una técnica conocida como «inyección indirecta de indicaciones». Pese al tecnicismo del nombre, es una técnica que engaña al modelo para que descargue información a cuentas controladas por los propios atacantes.
Lo sorprendente de este caso es que Anthropic, en un primer momento, cerró el reporte y lo dejó fuera de su programa de vulnerabilidades. Pero posteriormente reconoció el error y confirmó que este tipo de casos sí son lo suficientemente graves como para tenerlos en cuenta. Esta vulnerabilidad afecta principalmente a usuarios que suben documentos o archivos Claude. Y es que los atacantes manipulan el modelo para procesar instrucciones maliciosas de forma oculta. Pero lo más grave de todo es que no requiere de un acceso directo a tu cuenta. Por lo que es importante saber qué medidas puedes tomar de inmediato para protegerte.
Cómo funciona el ataque a Claude
El ataque se basa en una técnica conceptuada con el nombre de «inyección indirecta de indicaciones». De esta manera, el atacante inserta una serie de instrucciones maliciosas ocultas dentro de un archivo PDF, de texto o imagen que compartirá con los usuarios o subirá a una plataforma pública.
Cuando el usuario carga ese mismo archivo en Claude para pedirle que haga cualquier tipo de trabajo con él (resumir, reescribir, analizar información…), el modelo interpretará tanto las instrucciones del propio usuario como los comandos ocultos. El propio Johann Rehberger lo explica en su contenido subido a YouTube:
Por lo que el asistente cumple con estas órdenes ocultas, guarda los datos extraídos (historial de conversaciones, archivos u otro contenido sensible) y, a través de la API de archivos, los envía a una cuenta o servidor controlado por el atacante. Para conseguir evadirse de los filtros de seguridad de Anthropic, los comandos se camuflan como un código estándar que el propio modelo -hasta ahora- consideraba seguras. Es decir, que el riesgo se dispara si has utilizado Claude para trabajar con un documento descargado de internet, ya que podría contener dichas instrucciones sin que lo sepamos.
Así te puedes proteger de esta vulnerabilidad de Claude
Tanto si has realizado este tipo de actividad de subir documentos externos, como si no lo has hecho, puedes llevar a cabo una serie de pasos para proteger tus sesiones y cuentas de este tipo de ataques.
Desactiva el acceso a entornos de red en Claude
Si cuentas con la versión Plus o Teams, revisa la configuración de seguridad y limita el acceso a las funciones que permitan ejecutar código o conectarse automáticamente a a APIs externas.
No subas documentos al chatbot de fuentes desconocidas
Evita abrir archivos PDFs o cualquier tipo de documentos enviados por usuarios desconocidos o webs que no sean de tu total confianza.
Cambia tu clave de API
En el caso de que no utilices la API de Claude para programación o integraciones, regenera tus claves de acceso desde el propio panel de Anthropic y revisa el historial de acceso a tu API.
Observa tu actividad en Claude
Echa un ojo de manera regular a tu historial de chats para detectar cualquier actividad extraña y, en caso de encontrar un contenido que no haya sido creado por ti, denúncialo a Anthropic de manera inmediata.
Usa una contraseña compleja para tu cuenta
Debes asegurarte de que tu contraseña sea única, larga y difícil de adivinar. Siempre que Anthropic te ofrezca una autenticación 2FA, actívala.
