por Mike Elgan

Contributing Columnist

Un análisis dentro de la guerra entre la IA generativa e Internet

Noticia

3 abr. 20257 minutos

Las empresas de IA generativa están tomando datos sin permiso y también están saboteando los sitios de los que roban.

Las empresas de IA generativa están empezando a causar un daño real a Internet. Uno de los principales propósitos de la red de redes es servir como una red global para la comunicación e intercambio de información libre y abierta entre científicos, académicos y el público, y ser un lugar no censurable para el desarrollo de la libertad de expresión.

La expresión más pura del propósito de Internet es que constituye el conjunto de los sitios web de acceso abierto que proporcionan acceso gratuito y sin restricciones a información académica como artículos de investigación, libros, datos y recursos educativos. Dicho acceso permite a los usuarios obtener contenidos sin barreras técnicas; proporciona permisos legales para leer, descargar, copiar, distribuir y reutilizar contenidos con la atribución adecuada; y forma parte del movimiento más amplio de la ciencia abierta.

¿Qué está ocurriendo ahora? Los sitios de acceso abierto están siendo atacados. Son el objeto de deseo de los bots de IA, o rastreadores de IA, que buscan datos con ansia para añadirlos a los conjuntos de datos de entrenamiento para los chatbots de IA generativa y servicios relacionados. Esto, además de agotar los recursos, también provoca interrupciones en el servicio.

Está claro que existen muchos tipos diferentes de bots, que en conjunto generan más tráfico en Internet que los humanos. DesignRush dice que aquéllos representan ahora el 80% de todas las visitas a la web.

Entre ellos se incluyen motores de búsqueda, de SEO y análisis, de redes sociales, maliciosos y de web scraping.

Sin embargo, los rastreadores de IA son, con diferencia, el tipo de bot que más crece. Según DesignRush, los rastreadores de una empresa, los bots GPT de OpenAI, representan ahora alrededor del 13% de todo el tráfico web y realizan cientos de millones de solicitudes al mes.

Su misión es tomar datos y, básicamente, reemplazar la fuente original. Por ejemplo, en lugar de usar Google para encontrar artículos científicos sobre un tema, los rastreadores de IA toman estos artículos y presentan uno nuevo al usuario a partir de otros muchos y de diversos sitios. Pero, además, esto incentiva al usuario a ignorar los sitios de origen y sacar la información de los chatbots.

Por simplificar, la recolección de más datos de los sitios de OA hace que los chatbots sean más rápidos y cómodos de usar. No obstante, el proceso en sí mismo hace que los sitios de OA sean más lentos y difíciles de usar.

Si bien se ha escrito mucho a la hora de denunciar la apropiación de contenidos, también conviene recordar que las empresas de chatbots se dedican a saturar muchos de los sitios de los que copian contenidos, de modo similar a un ataque DDOS diario.

Los diferentes tipos de bots afectan a diferentes tipos de sitios web de diferentes maneras, pero pueden tener un gran impacto en los sitios de OA.

Contraatacar

Cloudflare ha decidido contratacar, y lo hace envenenando de manera deliberada los datos de entrenamiento de grandes modelos de lenguaje (LLM). De esta manera golpea a las empresas de IA que están tomando datos de sitios web sin permiso. A modo de información, la empresa ofrece redes de entrega de contenidos, ciberseguridad, mitigación de DDoS y optimización del rendimiento web.

Así que éste es el problema que Cloudflare trata de resolver: empresas como Open AI, Anthropic y Perplexity han sido acusadas de recopilar datos de sitios web, ignorar los archivos robots.txt de los sitios (diseñados originalmente para indicar a los motores de búsqueda qué archivos están prohibidos para la indexación) y tomar datos sí o sí. Además de estos grandes nombres, existe un amplio rango de empresas más pequeñas que se dedican a capturar datos sin permiso de los legítimos propietarios.

La solución de Cloudflare es una función disponible para todos los clientes llamada “AI Labyrinth”. Lo que hace es redirigir los bots entrantes a sus propios sitios web llenos de enormes cantidades de información generada por IA, pero que resulta irrelevante para el sitio web de destino.

¿Qué consigue con esto? Primero, hacer perder el tiempo a las empresas que controlan los bots. En segundo lugar, AI Labyrinth es también un honeypot, lo que permite a Cloudflare añadir esas empresas a una lista negra.

Se trata de una idea parecida al proyecto “Nightshade” de la Universidad de Chicago. Éste fue diseñado para proteger el trabajo de los artistas envenenando los datos de las imágenes. El proyecto permitía a los artistas de imágenes digitales descargar Nightshade de forma gratuita y convertir los píxeles de sus obras de arte de manera que la gente viera la misma imagen, pero los modelos de IA malinterpretaran por completo su aspecto.

También existe otra forma de detener los rastreadores de IA, y es mediante los viejos pero siempre útiles archivos robots.txt. Sin embargo, como ya se ha señalado, aquéllos pueden ignorarlos. De hecho, suelen hacerlo, lo que ha llevado a muchos a pedir sanciones, como demandas por infracción, por esta práctica.

Otro enfoque es utilizar un cortafuegos de aplicaciones web (WAF) con el propósito de bloquear el tráfico no deseado, incluidos los rastreadores de IA, al tiempo que permite a los usuarios legítimos acceder a un sitio. Al configurar el WAF con objeto de reconocer y bloquear firmas específicas de bots de IA, los sitios web pueden, en teoría, proteger su contenido. Los rastreadores de IA más avanzados pueden eludir la detección imitando el tráfico legítimo o usando direcciones IP rotativas. Esta protección lleva su tiempo, lo que obliga a actualizar con frecuencia las reglas y las listas de reputación de IP, lo que no deja de ser otra carga para los sitios de origen.

La limitación de velocidad también se utiliza para evitar la recuperación excesiva de datos por parte de los bots de IA. Con esto se establecen límites en el número de solicitudes que una sola IP puede realizar en un plazo determinado. De esta manera se reduce la carga del servidor, y con ello los riesgos de uso indebido de los datos.

Las soluciones avanzadas de gestión de bots también son cada vez más populares. Lo que hacen es utilizar el aprendizaje automático y el análisis del comportamiento para identificar y bloquear los bots de IA no deseados. Así, ofrecen una protección más completa que los métodos tradicionales.

Por último, hay que constatar los cambios en la defensa y las políticas que ya se están llevando a cabo para garantizar que los creadores de contenidos tengan más control sobre el uso de su trabajo.

Mientras tanto, algo hay que hacer con respecto al impacto de los rastreadores de IA en los sitios web de acceso abierto, que ofrecen algunas de las mejores fuentes de información en Internet tanto para las personas como para los chatbots basados en LLM.

Porque lo que no se puede permitir es que, mientras se discute en Internet, en los tribunales y en el Gobierno acerca de la legalidad o aceptabilidad que supone tomar contenido sin más, las empresas que lo hacen saboteen, ataquen y aplasten los mismos sitios de los que toman los datos.

Por Mike Elgan

Contributing Columnist

Follow Mike Elgan on LinkedIn

Mike Elgan is a technology journalist, author, and podcaster who explores the intersection of advanced technologies and culture through his Computerworld column, Machine Society newsletter, Superintelligent podcast, and books.

He was the host of Tech News Today for the TWiT network and was chief editor for the technology publication Windows Magazine. His columns appeared in Cult of Android, Cult of Mac, Fast Company, Forbes, Datamation, eWeek and Baseline. His Future of Work newsletter for Computerworld won a 2023 AZBEE award.

Mike is a self-described digital nomad and is always traveling because he can. His book Gastronomad is a how-to book about living nomadically.

Más temas de este autor

Más

Cisco Talos advierte de una nueva campaña de ‘ransomware’ desarrollada por el grupo “Chaos”

Por Víctor Manuel Fernández

24 jul. 20253 minutos

Seguridad

World Leaks asalta la plataforma Customer Solution Centers de Dell Technologies

Por Gyana Swain

24 jul. 20254 minutos

Seguridad

Palo Alto Networks cierra la adquisición de Protect AI para reforzar su papel en seguridad integral para la IA

Por Víctor Manuel Fernández

24 jul. 20252 minutos

Seguridad

Juan Antonio Denia (Trend Micro): “La tendencia marcha hacia servicios gestionados, modelos de recurrencia, o como los queramos llamar”

30 may. 202511 minutos

Canal de TI

Antonio Budia (Microsoft): “El canal es nuestro ingrediente secreto”

30 abr. 202515 minutos

Canal de TI

Plataformas 'cloud'

30 abr. 202521 minutos

Canal de TI

Karina Rojas (CyberArk): “Cuidamos la relación y trabajamos codo con codo con los ‘partners”

2 jun. 20255 minutos

Canal de TI

Carlos Vieira (Hornetsecurity): “Los ‘partners’ que están con nosotros han escogido el caballo ganador”

26 may. 202520 minutos

Canal de TI

Miguel del Moral (Vertiv): “Es fundamental generar alianzas para ofrecer a los clientes una solución conjunta”

12 may. 20256 minutos

Canal de TI

América

Asia

Europa

Oceanía

Temas

Nuestra compañía

Políticas

Nuestra red

Más

Un análisis dentro de la guerra entre la IA generativa e Internet

Las empresas de IA generativa están tomando datos sin permiso y también están saboteando los sitios de los que roban.

Contraatacar

Más temas de este autor

Los drones son el futuro del cibercrimen

Los drones ya transforman los negocios

El “momento ChatGPT” llega a los robots

La inteligencia artificial y la realidad aumentada pueden potenciar la computación ambiental

Es hora de llevar las habilidades de inteligencia artificial generativa al siguiente nivel

El futuro del trabajo es remoto y mejorado por la IA

Oficinas abiertas: un desastre para las empresas

Llega el “lugar de trabajo de destino”

Más

Cisco Talos advierte de una nueva campaña de ‘ransomware’ desarrollada por el grupo “Chaos”

World Leaks asalta la plataforma Customer Solution Centers de Dell Technologies

Palo Alto Networks cierra la adquisición de Protect AI para reforzar su papel en seguridad integral para la IA

Juan Antonio Denia (Trend Micro): “La tendencia marcha hacia servicios gestionados, modelos de recurrencia, o como los queramos llamar”

Antonio Budia (Microsoft): “El canal es nuestro ingrediente secreto”

Plataformas 'cloud'

Karina Rojas (CyberArk): “Cuidamos la relación y trabajamos codo con codo con los ‘partners”

Carlos Vieira (Hornetsecurity): “Los ‘partners’ que están con nosotros han escogido el caballo ganador”

Miguel del Moral (Vertiv): “Es fundamental generar alianzas para ofrecer a los clientes una solución conjunta”

Un análisis dentro de la guerra entre la IA generativa e Internet

Las empresas de IA generativa están tomando datos sin permiso y también están saboteando los sitios de los que roban.

Contraatacar

Directamente de nuestro equipo de periodistas a su bandeja de entrada

Más temas de este autor

Los drones son el futuro del cibercrimen

Los drones ya transforman los negocios

El “momento ChatGPT” llega a los robots

La inteligencia artificial y la realidad aumentada pueden potenciar la computación ambiental

Es hora de llevar las habilidades de inteligencia artificial generativa al siguiente nivel

El futuro del trabajo es remoto y mejorado por la IA

Oficinas abiertas: un desastre para las empresas

Llega el “lugar de trabajo de destino”

Más

Cisco Talos advierte de una nueva campaña de ‘ransomware’ desarrollada por el grupo “Chaos”

World Leaks asalta la plataforma Customer Solution Centers de Dell Technologies

Palo Alto Networks cierra la adquisición de Protect AI para reforzar su papel en seguridad integral para la IA

Juan Antonio Denia (Trend Micro): “La tendencia marcha hacia servicios gestionados, modelos de recurrencia, o como los queramos llamar”

Antonio Budia (Microsoft): “El canal es nuestro ingrediente secreto”

Plataformas 'cloud'

Karina Rojas (CyberArk): “Cuidamos la relación y trabajamos codo con codo con los ‘partners”

Carlos Vieira (Hornetsecurity): “Los ‘partners’ que están con nosotros han escogido el caballo ganador”

Miguel del Moral (Vertiv): “Es fundamental generar alianzas para ofrecer a los clientes una solución conjunta”