Pourquoi les médias accusent le robot d’OpenAI de piller leurs données ?

Par Nick Olaizola1 septembre 20233 MinutesAucun commentaireMis à jour le3 novembre 2023

Le 8 août dernier, OpenAI a lancé GPTBot, un programme dont le but est de collecter des informations pour entrainer son modèle d’IA générative. Mais aux dernières nouvelles, plusieurs médias internationaux ont refusé l’accès de celui-ci à leur site.

GPTBot : les médias accusent le robot d’OpenAI de piller leurs données

En laissant GPTBot accéder à votre site, vous aidez la plateforme californienne à rendre son IA plus performante et précise. Toutefois, il y a quelques risques. Selon les experts, il est possible que le robot puisse collecter des informations personnelles ou payantes. Les futures IA génératives comme GPT-4 pourraient alors les afficher publiquement, voire les associer à de fausses informations.

Les médias ferment leur porte à GPTBot d’OpenAI

Originality.ai, un outil de détection de plagiats, a réalisé une étude statistique de la réaction des médias internationaux à l’annonce d’OpenAI. Selon les résultats, près de 10% des 1.000 sites les plus importants au monde ont refusé l’accès du robot à leur plateforme deux semaines après son lancement.

Selon les prévisions d’Originality.ai, ce taux de fermeture à GPTBot devrait augmenter de 5% par semaine. Amazon.com, Wikihow.com, Quora.com et la banque d’images Shutterstock ont été parmi les premières plateformes à refuser l’accès. Ensuite, il y a eu des médias comme The New York Times, CNN, ABC, Reuters et Bloomberg.

La vague de boucliers numériques s’est d’ailleurs étendue en France. En effet, des médias de renom comme France Médias Monde (dont France 24 et la radio RFI), Mediapart, Radio France et TF1 sont venus renforcer les rangs.

Un problème de rémunération et de transparence

Juste après l’annonce du lancement de GPTBot, dix groupes de médias internationaux ont exhorté les dirigeants politiques et responsables du secteur à définir un cadre légal sur l’usage de l’IA dans l’information. Des sites ont d’ailleurs accusé le robot d’OpenAI de littéralement “piller” leurs données.

VOIR AUSSI : « L’IA rendra beaucoup de personnes riches », d’après le PDG d’OpenAI

“ Il n’y a pas de raison qu’ils viennent apprendre sur nos contenus sans contrepartie et sans savoir comment ces contenus seraient utilisés.”
Laurent Frisch, directeur du numérique et de la stratégie d’innovation du groupe public à l’AFP

Une solution serait de conclure des accords de licence et de rémunération avec OpenAI.

« Les plateformes doivent sourcer tous les médias, sous peine d’absence de neutralité et de possible manipulation. »
Bertrand Gié, directeur chez Le Figaro

Certaines plateformes ont déjà frayé le chemin

Certains médias, dont l’agence de presse Associated Press (AP), n’ont pas perdu du temps pour conclure un accord avec OpenAI. En juillet, le site a accepté que la firme californienne utilise ses archives depuis 1985. En échange, AP est autorisé à accéder à sa technologie et à utiliser son expertise en matière d’IA.

D’ailleurs, il n’y a pas qu’AP. OpenAI a déjà montré sa disposition à s’engager dans des accords gagnant-gagnant. Son partenariat avec l’American Journalism Project, une organisation qui soutient de nombreux médias locaux, où la firme s’est engagée à verser 5 millions de dollars, illustre cette volonté.

Dans tous les cas, OpenAI a expliqué comment interdire à GPTBot l’accès en l’ajoutant au fichier robots.txt de votre site avec ce code : User-agent: GPTBot ; Disallow: /. Vous pouvez également le personnaliser via celui-ci : User-agent: GPTBot ; Allow: /directory-1/ ; Disallow: /directory-2/.