Monde. Les énormes pipelines de données qui alimentent les principaux systèmes d’IA générative reposent intrinsèquement sur des intrusions massives dans la vie privée

Des entreprises extraient des quantités astronomiques de précieuses données en ligne en moissonnant illégalement le web pour élaborer leurs produits d’intelligence artificielle (IA) générative, ce d’une manière qui permet des intrusions massives dans la vie privée, rendant ces systèmes illégaux par leur conception même, a déclaré Amnesty International dans un nouveau rapport ce jeudi 28 mai.

Ce rapport, intitulé Unlawful by Design: Exposing the Human Rights Costs of Generative AI, fait état des graves risques liés au moissonnage et au traitement de données à grande échelle qui servent à mettre au point et entraîner ces systèmes, notamment les atteintes au droit à la vie privée inhérentes à la conception des outils concernés et les conséquences négatives pour l’environnement et les populations marginalisées de longue date.

« Des entreprises du monde entier proposent des produits d’IA générative mais, derrière l’image d’efficacité et de modernité qui est mise en avant, ces systèmes perpétuent les intrusions massives dans la vie privée par le moissonnage illégal de données sur le web – processus automatisé qui consiste à extraire des données, y compris personnelles, à partir de sites Internet, notamment des images et des traces laissées par les activités sur les réseaux sociaux, pour entraîner les modèles d’IA, a déclaré Likhita Banerji, responsable de l’Algorithmic Accountability Lab (Laboratoire pour la reddition de comptes quant à l’utilisation des algorithmes).

« Les pipelines de données d’extraction, les choix inhérents à la conception faits par les entreprises technologiques et les chaînes d’approvisionnement reposant sur l’exploitation qui servent à élaborer les systèmes d’IA générative ont permis la création d’un modèle de développement technologique qui s’accompagne d’un risque d’atteintes massives aux droits humains. »

Amnesty International a mené des recherches sur les modèles qui alimentent certains des outils autonomes d’IA générative les plus prisés du grand public, dont GPT 3 (OpenAI), Gemini (Google), Llam (Meta), DeepSeek et les outils mis au point par Midjourney et Stable Diffusion.

Ces systèmes reposent sur l’extraction d’informations issues de milliards de messages et d’images publics en ligne, souvent sans le consentement explicite des personnes qui apparaissent dans ces contenus ou en sont à l’origine. Non seulement cela porte intrinsèquement atteinte au droit à la vie privée mais, à mesure que les ensembles de données alimentant les modèles d’IA se développent, les contenus haineux et discriminatoires qui figurent dans leurs résultats s’en trouvent également amplifiés, de même que les stéréotypes et les préjugés négatifs, en particulier ceux fondés sur la race ou le genre.

Ces choix ne sont pas une fatalité. Nous devons remettre en cause les choix de conception faits par les entreprises qui élaborent des systèmes d’IA générative à partir de données d’entraînement, notamment de données personnelles, qui sont extraites sans le consentement des personnes intéressées et à grande échelle

Likhita Banerji, responsable de l’Algorithmic Accountability Lab, Amnesty International

Les biais liés à la race, au genre et à la culture sont des caractéristiques récurrentes des systèmes d’IA générative ; ils découlent du fait que les données d’entraînement sont extraites en grande partie du web et sont par conséquent polluées par les préjugés réels que subissent les populations marginalisées de longue date. En outre, les systèmes d’IA générative comportent des risques pour le droit à la liberté de pensée car ils sont capables d’influencer les opinions des utilisateurs·trices et de façonner leurs convictions personnelles au moyen de suggestions prédictives. Cela est d’autant plus vrai pour les modèles de grande ampleur, qui reposent sur un énorme volume de données d’entraînement.

« Ces choix ne sont pas une fatalité. Nous devons remettre en cause les choix de conception faits par les entreprises qui élaborent des systèmes d’IA générative à partir de données d’entraînement, notamment de données personnelles, qui sont extraites sans le consentement des personnes intéressées et à grande échelle, a déclaré Likhita Banerji.

« Il s’agit de l’une des pratiques les plus scandaleuses des entreprises d’IA qui agissent au mépris des droits humains, et ce problème doit être pris à bras-le-corps sans tarder. Il est encore possible d’impulser une autre trajectoire au développement technologique si les autorités prennent de toute urgence des mesures correctives. »

Un coût environnemental élevé

Le développement des entreprises d’IA générative s’amplifie et s’accélère, de même que les besoins en matière d’infrastructures et les coûts environnementaux qui en découlent.

Pour fonctionner, les modèles à grande échelle ont des besoins de traitement élevés qui nécessitent des puces à plus forte concentration d’énergie, des centres de données de plus grande envergure et, par conséquent, davantage d’énergie et d’eau. La production d’IA générative a souvent des conséquences néfastes pour les populations marginalisées de longue date étant donné que les terres et les ressources qui leur appartiennent sont exploitées pour construire des centres de données et satisfaire les besoins de traitement.

Le rapport sur la durabilité publié par l’entreprise Google elle-même en 2024 indiquait une hausse stupéfiante de 48 % de ses émissions de gaz à effet de serre depuis 2019, imputable aux centres de données et aux chaînes d’approvisionnement. De même, les émissions de Microsoft ont augmenté de 29 % entre 2020 et 2024 du fait des processus opérés par les centres de données à l’appui de l’IA.

L’utilisation intensive de ressources pour la production d’IA générative a amené plusieurs communautés, de Cerrillos (Chili) à Querétaro (Mexique), en passant par l’Arizona (États-Unis d’Amérique), à s’opposer à l’installation de centres de données dans des zones déjà gravement touchées par des sécheresses et des pénuries d’électricité.

Dans le cadre de son processus de recherche, Amnesty International a écrit à Google, OpenAI, Meta, Stability AI, Midjourney et DeepSeek pour que ces entreprises puissent exercer leur droit de réponse face aux conclusions du rapport de recherche, selon lequel leurs modèles reposent sur le moissonnage illégal de données en ligne, outre de nombreuses autres préoccupations quant aux droits humains.

Amnesty International a également écrit à Intel et VMware à propos des risques de discrimination et à Google, Microsoft et Amazon au sujet des préjudices environnementaux associés à leurs systèmes d’IA générative et aux infrastructures sur lesquelles ils s’appuient. Au moment de la publication du rapport, seuls Microsoft, Amazon, Intel, OpenAI et Meta avaient répondu à Amnesty International. Leurs réponses sont résumées dans le rapport.

Amnesty International appelle les États à interdire les systèmes autonomes d’IA générative dont la création repose sur le moissonnage illégal de données en ligne – activité qui consiste à collecter en bloc et à grande échelle des données d’entraînement sur Internet. Les entreprises doivent cesser sans délai de moissonner illégalement et sans le consentement des personnes concernées des données personnelles sur le web aux fins de l’entraînement de l’IA, et les États doivent amener les entreprises à répondre de leur participation à de quelconques atteintes aux droits humains liées à leurs choix de conception et leur modèle d’activité.

Complément d’information

Le rapport fournit une analyse, sous l’angle des droits humains, des pipelines de données qui alimentent les produits d’IA générative, notamment les étapes de collecte, d’analyse et de traitement des données, qui sont cruciales pour le fonctionnement général de ces systèmes. Plus particulièrement, il décrit dans le détail les paramètres et les incidences des choix de conception liés aux données d’entraînement des modèles d’IA générative, en mettant l’accent sur les méthodes et les sources concernant la collecte et le traitement des données, la transposition du modèle à plus grande échelle et les résultats issus des données.

Amnesty International entend par outils autonomes d’IA générative les produits conçus, déployés et commercialisés exclusivement et spécifiquement dans l’optique de leurs capacités d’IA générative, comme les robots conversationnels, les générateurs d’image/de vidéo/d’audio/de texte, etc. Elle n’y inclut pas les suites de produits dans lesquelles l’IA générative n’est qu’une caractéristique ou une fonctionnalité additionnelle, telles que les logiciels de traitement de texte comprenant une option d’IA générative.