Las empresas de IA generativa están tomando datos sin permiso y también están saboteando los sitios de los que roban.

Las empresas de IA generativa están empezando a causar un daño real a Internet. Uno de los principales propósitos de la red de redes es servir como una red global para la comunicación e intercambio de información libre y abierta entre científicos, académicos y el público, y ser un lugar no censurable para el desarrollo de la libertad de expresión.
La expresión más pura del propósito de Internet es que constituye el conjunto de los sitios web de acceso abierto que proporcionan acceso gratuito y sin restricciones a información académica como artículos de investigación, libros, datos y recursos educativos. Dicho acceso permite a los usuarios obtener contenidos sin barreras técnicas; proporciona permisos legales para leer, descargar, copiar, distribuir y reutilizar contenidos con la atribución adecuada; y forma parte del movimiento más amplio de la ciencia abierta.
¿Qué está ocurriendo ahora? Los sitios de acceso abierto están siendo atacados. Son el objeto de deseo de los bots de IA, o rastreadores de IA, que buscan datos con ansia para añadirlos a los conjuntos de datos de entrenamiento para los chatbots de IA generativa y servicios relacionados. Esto, además de agotar los recursos, también provoca interrupciones en el servicio.
Está claro que existen muchos tipos diferentes de bots, que en conjunto generan más tráfico en Internet que los humanos. DesignRush dice que aquéllos representan ahora el 80% de todas las visitas a la web.
Entre ellos se incluyen motores de búsqueda, de SEO y análisis, de redes sociales, maliciosos y de web scraping.
Sin embargo, los rastreadores de IA son, con diferencia, el tipo de bot que más crece. Según DesignRush, los rastreadores de una empresa, los bots GPT de OpenAI, representan ahora alrededor del 13% de todo el tráfico web y realizan cientos de millones de solicitudes al mes.
Su misión es tomar datos y, básicamente, reemplazar la fuente original. Por ejemplo, en lugar de usar Google para encontrar artículos científicos sobre un tema, los rastreadores de IA toman estos artículos y presentan uno nuevo al usuario a partir de otros muchos y de diversos sitios. Pero, además, esto incentiva al usuario a ignorar los sitios de origen y sacar la información de los chatbots.
Por simplificar, la recolección de más datos de los sitios de OA hace que los chatbots sean más rápidos y cómodos de usar. No obstante, el proceso en sí mismo hace que los sitios de OA sean más lentos y difíciles de usar.
Si bien se ha escrito mucho a la hora de denunciar la apropiación de contenidos, también conviene recordar que las empresas de chatbots se dedican a saturar muchos de los sitios de los que copian contenidos, de modo similar a un ataque DDOS diario.
Los diferentes tipos de bots afectan a diferentes tipos de sitios web de diferentes maneras, pero pueden tener un gran impacto en los sitios de OA.
Contraatacar
Cloudflare ha decidido contratacar, y lo hace envenenando de manera deliberada los datos de entrenamiento de grandes modelos de lenguaje (LLM). De esta manera golpea a las empresas de IA que están tomando datos de sitios web sin permiso. A modo de información, la empresa ofrece redes de entrega de contenidos, ciberseguridad, mitigación de DDoS y optimización del rendimiento web.
Así que éste es el problema que Cloudflare trata de resolver: empresas como Open AI, Anthropic y Perplexity han sido acusadas de recopilar datos de sitios web, ignorar los archivos robots.txt de los sitios (diseñados originalmente para indicar a los motores de búsqueda qué archivos están prohibidos para la indexación) y tomar datos sí o sí. Además de estos grandes nombres, existe un amplio rango de empresas más pequeñas que se dedican a capturar datos sin permiso de los legítimos propietarios.
La solución de Cloudflare es una función disponible para todos los clientes llamada “AI Labyrinth”. Lo que hace es redirigir los bots entrantes a sus propios sitios web llenos de enormes cantidades de información generada por IA, pero que resulta irrelevante para el sitio web de destino.
¿Qué consigue con esto? Primero, hacer perder el tiempo a las empresas que controlan los bots. En segundo lugar, AI Labyrinth es también un honeypot, lo que permite a Cloudflare añadir esas empresas a una lista negra.
Se trata de una idea parecida al proyecto “Nightshade” de la Universidad de Chicago. Éste fue diseñado para proteger el trabajo de los artistas envenenando los datos de las imágenes. El proyecto permitía a los artistas de imágenes digitales descargar Nightshade de forma gratuita y convertir los píxeles de sus obras de arte de manera que la gente viera la misma imagen, pero los modelos de IA malinterpretaran por completo su aspecto.
También existe otra forma de detener los rastreadores de IA, y es mediante los viejos pero siempre útiles archivos robots.txt. Sin embargo, como ya se ha señalado, aquéllos pueden ignorarlos. De hecho, suelen hacerlo, lo que ha llevado a muchos a pedir sanciones, como demandas por infracción, por esta práctica.
Otro enfoque es utilizar un cortafuegos de aplicaciones web (WAF) con el propósito de bloquear el tráfico no deseado, incluidos los rastreadores de IA, al tiempo que permite a los usuarios legítimos acceder a un sitio. Al configurar el WAF con objeto de reconocer y bloquear firmas específicas de bots de IA, los sitios web pueden, en teoría, proteger su contenido. Los rastreadores de IA más avanzados pueden eludir la detección imitando el tráfico legítimo o usando direcciones IP rotativas. Esta protección lleva su tiempo, lo que obliga a actualizar con frecuencia las reglas y las listas de reputación de IP, lo que no deja de ser otra carga para los sitios de origen.
La limitación de velocidad también se utiliza para evitar la recuperación excesiva de datos por parte de los bots de IA. Con esto se establecen límites en el número de solicitudes que una sola IP puede realizar en un plazo determinado. De esta manera se reduce la carga del servidor, y con ello los riesgos de uso indebido de los datos.
Las soluciones avanzadas de gestión de bots también son cada vez más populares. Lo que hacen es utilizar el aprendizaje automático y el análisis del comportamiento para identificar y bloquear los bots de IA no deseados. Así, ofrecen una protección más completa que los métodos tradicionales.
Por último, hay que constatar los cambios en la defensa y las políticas que ya se están llevando a cabo para garantizar que los creadores de contenidos tengan más control sobre el uso de su trabajo.
Mientras tanto, algo hay que hacer con respecto al impacto de los rastreadores de IA en los sitios web de acceso abierto, que ofrecen algunas de las mejores fuentes de información en Internet tanto para las personas como para los chatbots basados en LLM.
Porque lo que no se puede permitir es que, mientras se discute en Internet, en los tribunales y en el Gobierno acerca de la legalidad o aceptabilidad que supone tomar contenido sin más, las empresas que lo hacen saboteen, ataquen y aplasten los mismos sitios de los que toman los datos.