Skip to main content

5 Juil, 2024

Cloudflare prend position contre les « scrapers » de sites Web IA

Cloudflare prend position contre les « scrapers » de sites Web IA

Cette mesure pourrait endiguer la vague d’IA générative qui recherche légalement (et illégalement) du contenu.

Cloudflare a publié un nouvel outil gratuit qui empêche les robots des entreprises d’IA de récupérer le contenu des sites Web de ses clients pour former de grands modèles linguistiques. Le fournisseur de services cloud met cet outil à la disposition de l’ensemble de sa clientèle, y compris ceux qui bénéficient d’un forfait gratuit. « Cette fonctionnalité sera automatiquement mise à jour au fil du temps à mesure que nous verrons de nouvelles empreintes de robots incriminés que nous identifions comme parcourant largement le Web pour former des modèles », a déclaré la société.

Dans un article de blog annonçant cette mise à jour, l’équipe de Cloudflare a également partagé certaines données sur la façon dont ses clients réagissent à l’essor des robots qui récupèrent du contenu pour former des modèles d’IA génératifs. Selon les données internes de l’entreprise, 85,2 % des clients ont choisi de bloquer même les robots d’IA qui s’identifient correctement pour les empêcher d’accéder à leurs sites.

Cloudflare a également identifié les bots les plus actifs de l’année écoulée. Le bot Bytespider, propriété de Bytedance, a tenté d’accéder à 40 % des sites Web sous la responsabilité de Cloudflare, et Le GPTBot d’OpenAI a essayé d’accéder à 35 % d’entre eux. Avec Amazonbot et Claudebot, ils constituent la moitié des quatre premiers robots d’exploration d’IA en termes de nombre de requêtes sur le réseau de Cloudflare.

Il s’avère très difficile de bloquer complètement et systématiquement l’accès au contenu par les robots d’IA. La course aux armements pour créer des modèles plus rapidement a conduit à des cas où des entreprises contournent ou enfreignent complètement les règles existantes concernant le blocage des scrapers. Perplexity AI a récemment été accusé de scraper des sites Web sans les autorisations requises. Mais avoir une entreprise back-end de l’envergure de Cloudflare qui s’efforce sérieusement de mettre un terme à ce comportement pourrait conduire à certains résultats.

« Nous craignons que certaines entreprises d’IA qui cherchent à contourner les règles pour accéder au contenu s’adaptent constamment pour échapper à la détection des robots », a déclaré la société. « Nous continuerons de surveiller et d’ajouter davantage de blocs de robots à notre règle AI Scrapers and Crawlers et de faire évoluer nos modèles d’apprentissage automatique pour aider à faire d’Internet un endroit où les créateurs de contenu peuvent prospérer et garder un contrôle total sur les modèles sur lesquels leur contenu est utilisé pour s’entraîner ou exécuter des inférences. »

https://www.engadget.com/cloudflare-is-taking-a-stand-against-ai-website-scrapers-220030471.html