Skip to main content

7 Mar, 2024

Google Search s’attaque à la production massive de « boue » générée par l’IA

Google Search s’attaque à la production massive de « boue » générée par l’IA

Ce n’est pas rien.

Il semblerait que Google en ait également assez de voir ses résultats de recherche remplis de boue générée par l’IA.

Le géant de la technologie a annoncé cette semaine une révision substantielle de sa politique de lutte contre le spam dans les résultats de recherche, introduisant de nouveaux changements qui, selon la plateforme, réduiront de 40 % la prévalence des « contenus de faible qualité et non originaux dans les résultats de recherche ».

De plus, ce projet d’envergure semble être une réponse à la marée montante de contenus générés en masse par l’IA qui envahit rapidement le web ouvert, polluant et érodant la qualité de ses résultats de recherche.

La gestion de l’IA dans ses résultats de recherche s’est révélée être un défi pour le géant de la recherche. Au cours de l’année écoulée, nous avons vu des images générées par l’IA se hisser au sommet des classements de Google, remplaçant de vraies images de personnages réels et des faits historiques déroutants.

Par ailleurs, un récent rapport de 404 Media a révélé que du contenu généré par l’IA s’insinuait dans Google News, à la veille d’une élection lourde de conséquences, rien de moins. Entre-temps, Google a été contraint de jouer de plus en plus au chat et à la souris avec le spam généré par l’IA, qui va des fausses nouvelles à la prolifération de faux sites d’annonces nécrologiques.

Conformément à la politique modifiée de Google en matière de spam, la répression semble se concentrer fortement sur le contenu généré par l’IA.

L’entreprise technologique s’inquiète notamment des « abus de contenu à grande échelle », c’est-à-dire des sites web et des créateurs qui produisent en grande quantité du matériel de mauvaise qualité destiné à obtenir des clics lucratifs. Comme l’a reconnu Elizabeth Tucker, directrice de la recherche chez Google, dans le blog d’annonce de Google hier, l’utilisation de l’automatisation pour alimenter ce type d’opérations de spam n’a rien de nouveau.

Mais les chatbots génératifs alimentés par l’IA comme ChatGPT d’OpenAI – et Gemini-anciennement-Bard de Google – ont rendu plus économique et plus facile que jamais la production en masse de contenu conçu pour jouer avec le référencement, au lieu de fournir du matériel utile ou utile.

En outre, selon Google, il devient de plus en plus difficile de déterminer si les opérations de contenu à grande échelle « plus sophistiquées » d’aujourd’hui sont entièrement automatisées, ce qui complique considérablement la tâche des algorithmes de recherche de Google pour passer au crible la boue numérique produite en masse.

Google « renforce sa politique pour se concentrer sur ce comportement abusif – la production de contenu à grande échelle pour améliorer le classement des recherches », écrit Elizabeth Tucker dans le billet de blog, « qu’il s’agisse d’automatisation, d’humains ou d’une combinaison des deux ».

Lorsqu’il a été demandé à Google ce qui, selon lui, rendrait un contenu généré par l’IA réellement utile, Elizabeth Tucker a donné quelques exemples d' »applications positives » : des personnes dont l’anglais n’est pas la langue maternelle utilisent l’IA générative pour « créer du contenu pour le site web de leur entreprise locale », par exemple, « ou des créateurs de contenu qui utilisent l’IA comme « éditeur » pour améliorer leur travail et non le détériorer ».

Il convient de noter que ces objectifs sont très limités. Elle ne mentionne nulle part le fait de broyer des articles entiers à l’aide de l’IA, ce que des publications sur CNET ont tenté et échoué à faire cette année.

« En général, les contenus de meilleure qualité générés ou assistés par l’IA se caractérisent par le fait qu’ils impliquent des personnes produisant un contenu original à valeur ajoutée, a déclaré Mme Tucker, et que l’IA est utilisée pour accroître la créativité ou la perspicacité. Et « même avec l’intérêt croissant pour l’IA générative », a-t-elle poursuivi, « nous pouvons dire que le niveau de spam dans le domaine de la recherche est resté très bas et stable ».

Mme Tucker a également fait remarquer que « comme tout outil », l’IA peut être « mal utilisée ». Cela illustre une tension au cœur des nouveaux efforts de Google pour contrer l’IA : la société développe activement des produits d’IA générative et s’efforce même d’intégrer l’IA créatrice de contenu dans la recherche, alors même que son équipe chargée de la recherche s’occupe de tous les déchets générés en ligne par cette technologie.

Un autre domaine dans lequel Google concentre sa révision du spam est celui de l' »abus de réputation des sites ». Dans ses nouvelles règles, Google définit ce type de contenu comme des pages tierces « publiées avec peu ou pas de supervision ou d’implication de la part de la première partie » et conçues pour « manipuler les classements de recherche en tirant profit des signaux de classement du site de la première partie ».

En d’autres termes, pour tirer parti de sa solide position en matière de référencement et obtenir quelques clics supplémentaires, un éditeur de renom peut autoriser un prestataire tiers à publier du contenu – qui peut être lié ou non au rythme du site web – sous le titre de sa marque.

Dans la mise à jour de ses règles, Google donne quelques exemples de ce que pourrait être ce type de contenu tiers. L’une de ces hypothèses est cependant très familière :
Un site sportif hébergeant une page rédigée par un tiers sur des « tests de compléments alimentaires », où l’équipe éditoriale du site sportif n’a que peu ou pas participé au contenu et où l’objectif principal de l’hébergement de la page est de manipuler le classement dans les moteurs de recherche.

Si cela vous dit quelque chose, c’est parce qu’il s’agit exactement du type de contenu tiers de mauvaise qualité trouvé sur Sports Illustrated – vous savez, le célèbre « site sportif » – en train de publier sous la signature de faux rédacteurs dont les photos de profil ont été générées par l’intelligence artificielle. Pourquoi Google trouve-t-il ce contenu si offensant ? Selon le billet de Mme Tucker, « un tel contenu bien classé dans le moteur de recherche peut troubler ou induire en erreur les visiteurs qui peuvent avoir des attentes très différentes en ce qui concerne le contenu d’un site web donné ». C’est tout à fait juste !

Google s’attaque également à l' »abus de domaine expiré », une escroquerie bien connue qui consiste pour les spammeurs à faire tourner de vieux sites web ayant une présence établie dans les moteurs de recherche afin de produire du contenu. Il s’agit d’une pratique qui existe depuis un certain temps, bien que nous ayons certainement vu de nombreuses opérations de ce type apparaître dans notre Internet chargé d’IA, et parfois avec des conséquences bizarres. L’année dernière, par exemple, nous avons découvert un site web rempli de pages de citations fabriquées par l’IA et attribuées à des personnes tout à fait réelles, qui s’emparait de l’autorité de domaine d’une URL abandonnée depuis.

Il ne s’agit là que de quelques-uns des nombreux changements apportés par Google et, dans l’ensemble, ils semblent très importants. Auparavant, à la grande joie des spammeurs SEO, Google semblait ignorer le problème de la boue d’IA qui remplissait ses pages de résultats. Mais à partir d’aujourd’hui, selon les experts en référencement qui font le buzz en ligne, Google prend déjà des mesures à l’encontre de ceux qui sont nouvellement considérés comme des spammeurs.

« Je vois des sites de spam d’IA se faire désindexer à gauche et à droite en ce moment », a écrit Gaël Breton, cofondateur d’une société de référencement appelée Authority Hacker, dans un message X-formerly-Twitter ce matin. « Cela va devenir intéressant.

En fin de compte, l’impact total de ces changements reste à voir. Et ne nous méprenons pas : ils nous semblent être des pas en avant positifs dans la quête pour protéger le web de succomber à un tas de boue toxique et automatisée. Cependant, si nous sommes heureux de voir Google s’adapter à un nouveau paysage en ligne, il est important de se rappeler que Google lui-même continue de jouer un rôle prépondérant dans la promotion de l’IA qu’il combat dans ses résultats de recherche.

https://futurism.com/google-cracking-down-ai

https://blog.google/products/search/google-search-update-march-2024/