Perplexity AI, el motor de búsqueda basado en inteligencia artificial, se ha convertido en el centro de atención tras ser señalada por la empresa de Cloudflare, uno de los principales proveedores de servicios de internet. Esta acusa a la empresa de IA de ignorar intencionadamente directivas no-crawl (robots.txt) en miles de sitios web.
Esto quiere decir que accede a sitios web y extrae contenido a pesar de estar bloqueada. La propia Cloudflare ha denunciado que Perplexity utiliza técnicas de camuflaje, como cambiar el identificador del usuario, para hacerse pasar por un navegador común. También la acusa de utilizar direcciones IP temporales para ocultar cualquier tipo de este rastreo.
Ante dichas acusaciones, Perplexity ha negado estas prácticas y ha afirmado que algunos de los datos que se le atribuyen no corresponden a su actividad, e incluso que la propia Cloudflare ha malinterpretado las acciones de la IA.
Las técnicas tras el supuesto rastreo de Perplexity
Cloudflare es conocido por ser uno de los principales proveedores de servicios de red y protección web a nivel mundial. Y ahora, ha denunciado públicamente a Perplexity AI, la startup de búsqueda por IA valorada en más de 1.000 millones de dólares, que centra su actividad en motores de búsqueda por IA. En este caso, la acusa de ignorar intencionadamente las reglas que los dueños de las páginas webs establecen para evitar que sus sitios sean revisados o copiados.
Según la propia Cloudflare a través de su blog oficial, Perplexity estaría utilizando trucos para ocultar su verdadera identidad y entrar en páginas donde se le habría prohibido el acceso. Esta práctica implicaría la vulneración de las directivas del fichero robots.txt, un estándar reconocido que se considera una expresión de consentimiento clave.
Entre las prácticas que Cloudflare dice detectar encontramos:
- Alteración de su identificador de usuario, o «user-agent» para hacerse pasar por un navegador común. Como puede ser Mozilla o Chrome.
- Uso de direcciones IP temporales provenientes de rangos no declarados oficialmente por Perplexity. Estas son 54.176.188.0/25, alojado en AWS, que no está oficialmente asociado a Perplexity.
Estas prácticas permitirían a la herramienta de IA evadir los firewalls y las reglas específicas de bloqueos aplicadas por los sitios web o incluso por la propia Cloudflare. De esta manera, extraería contenido para obtener información para su motor de búsqueda y ofrecer respuestas detalladas a los usuarios.
| Técnica Denunciada por Cloudflare | Descripción de la Acusación | Respuesta/Argumento de Perplexity |
|---|---|---|
| Suplantación de User-Agent | El bot se identifica como un navegador Chrome en lugar de 'PerplexityBot' para saltarse reglas. | Los patrones detectados no corresponden a su bot oficial; podrían ser imitadores. |
| Uso de IPs no declaradas | Utiliza el rango de AWS 54.176.188.0/25, no asociado oficialmente a la empresa. | No se ha pronunciado específicamente sobre este rango de IPs. |
| Ignorar robots.txt | Accede a contenido a pesar de las directivas explícitas de 'Disallow'. | Su rastreador oficial respeta el protocolo robots.txt. |
La respuesta oficial de Perplexity
Frente a tales acusaciones, Perplexity AI ha negado cualquier práctica de rastreo encubierto o violaciones de las normativas de bloqueo. De hecho, a través de un comunicado en la red social X, alegan que Cloudflare ha malinterpretado o ha responsabilizado a Perplexity erróneamente de ciertas actividades.
En la cadena de comunicados, Perplexity cuestiona la capacidad de los sistemas de detección en vigor, como los de Cloudflare. De hecho, pone en duda la capacidad de estos para distinguir entre asistentes digitales de inteligencia artificial y bots maliciosos o imágenes falsas. Por lo que pone en práctica toda la metodología que usa Cloudflare para denunciar dicha práctica.
Por el momento, Cloudflare mantiene sus medidas de seguridad para bloquear a Perplexity en toda su infraestructura mientras la disputa en el entorno web continúa. La propia empresa de seguridad recomienda a sus clientes activar filtros y reglas para controlar el acceso de bots, y en ellos, incluyen a los asociados a las tecnologías de IA.
