
Perplexity enfrenta acusaciones por extraer información de sitios que prohibieron el uso de inteligencia artificial para el raspado de datos.
La empresa tecnológica Cloudflare ha informado que identificó a Perplexity rastreando y recopilando información de sitios web, a pesar de que los clientes habían implementado bloqueos técnicos para impedir que Perplexity accediera a sus páginas.
La startup de inteligencia artificial Perplexity ha sido acusada de rastrear y extraer contenido de sitios web que han indicado explícitamente su deseo de no ser analizados. Esta información fue publicada por un proveedor de infraestructura de internet, que destacó que Perplexity parece ignorar las restricciones establecidas y se oculta para llevar a cabo estas actividades de forma encubierta.
Según el estudio realizado por esta empresa de infraestructura de redes, Perplexity ha estado alterando su identidad digital al intentar extraer datos de páginas, lo cual se considera una forma de eludir las preferencias de los sitios web. Los productos de inteligencia artificial, como los que ofrece Perplexity, dependen de enormes cantidades de datos obtenidos de internet. Sin embargo, a menudo estas startups han raspado textos, imágenes y vídeos sin obtener los permisos necesarios, lo que ha provocado que muchos sitios web busquen soluciones para defenderse.
Una de estas medidas ha sido el uso de archivos Robots.txt, los cuales indican a los motores de búsqueda y a las empresas de IA qué páginas se pueden indexar y cuáles no. Sin embargo, los resultados de esta estrategia han sido variados. Perplexity parece estar eludiendo estas restricciones mediante la modificación del "user agent" de sus bots. Este "user agent" indica el tipo de dispositivo y versión que utiliza un visitante de un sitio web, además de cambiar sus redes autónomas, que identifican grandes segmentos de internet.
Cloudflare informó que esta actividad ha sido observada en decenas de miles de dominios y millones de solicitudes diarias. A través de una combinación de aprendizaje automático y señales de red, pudieron identificar a este rastreador. La empresa contó que recibió quejas de sus clientes sobre la actividad de Perplexity en sus sitios, incluso después de implementar reglas en su archivo Robots para bloquear a los bots conocidos de esta startup.
Perplexity, por su parte, descalificó el informe de Cloudflare, sugiriendo que era más un intento de venta que un análisis objetivo. Un portavoz de la empresa afirmó que las capturas de pantalla presentadas no mostraban acceso a contenido y en correspondencia adicional, sostuvo que el bot mencionado no pertenece a su compañía.
Además, Cloudflare observó que Perplexity no solo utilizaba su “user agent” declarado, sino también un navegador genérico diseñado para imitar Google Chrome en macOS, cuando su rastreador declarado era bloqueado. Recientemente, Cloudflare ha decidido eliminar a los bots de Perplexity de su lista verificada y ha implementado nuevas técnicas para bloquear su acceso.
La empresa ha tomado una postura pública en contra de los rastreadores de IA, lanzando un mercado que permite a propietarios de sitios web cobrar a los scrapers que acceden a sus plataformas. Su CEO advirtió que la IA está afectando gravemente el modelo de negocio de internet, en particular el de los editores. Este no es el primer incidente en el que Perplexity enfrenta acusaciones de scraping no autorizado; anteriormente, se reportó que la empresa estaba plagiando contenido de medios de comunicación.
Desde entonces, el CEO de Perplexity no ha respondido de manera concluyente a preguntas sobre cómo la empresa define el plagio.