Sans les données qui font sa force, l’intelligence artificielle générative n’est rien. Et s’il n’y a plus de données, et surtout de qualité, que deviendrait l’IA ? Un tonneau vide ! ?
Depuis l’avènement de ChatGPT, le monde a connu une véritable révolution dans le domaine de l’intelligence artificielle. Cette technologie a supplanté toutes celles qui émergeaient à l’époque et fait désormais la une des journaux. Déjà, elle a changé les habitudes et est insérée dans de nombreux processus qui impliquaient autrefois l’humain. Mais les choses en seront-elles ainsi pour toujours ? Cela dépend ! Ce qui fait la force de cette IA aujourd’hui constitue sa plus grande faiblesse.
Dans cet article :
Au commencement étaient les données, et rien de ce qui a été fait en IA n’a été fait sans elles
Le développement de l’IA s’apparente à celui de l’humain. Ce dernier se développe et améliore son intelligence au contact de ceux qui l’entourent. Sans ces derniers, il stagnerait et se verrait dépasser.
Si nous sommes tous fascinés par les prouesses des modèles de langages tels que GPT et Gemini, c’est à cause des données. Ce sont des systèmes qui ont en effet été construits sur une quantité faramineuse de données. Par exemple, la version la plus avancée de GPT a été entraînée sur 300 milliards de mots, soit 570 gigaoctets de données. Pour ce qui est des générateurs d’images tels que Midjourney et DALL-E, on parle de 5,8 milliards de données.
Mais si l’on parle de la quantité des données mises à contribution, il faut également mentionner que la qualité de ces dernières est essentielle. Des données de mauvaise qualité entrainent de mauvaises performances, des hallucinations et des biais. On se souvient à cet effet de Microsoft qui avait entraîné son chatbot sur les données de Twitter. La technologie s’est malheureusement rendue célèbre par des propos racistes, homophobes, etc.
VOIR AUSSI : Aucune IA n’arrive à répondre à cette question de logique élémentaire : qu’en est-il de vous ?
L’IA est arrivée grâce aux données et pourrait s’en aller à cause des données
Le plus gros défi de l’IA est la pénurie des données et le risque de données de mauvaise qualité.
L’homme évolue en apprenant de nouvelles choses. De même, de nouvelles données sont nécessaires pour faire évoluer les modèles de langage existants et améliorer leurs performances. Ainsi, le besoin en données, et en données de qualité, s’accroit chaque année. Malheureusement, les volumes de données de qualité semblent régresser année après année. Il pourrait même considérablement baisser d’ici à quelques années.
Selon une étude publiée sur arXiv en 2022, nous serons probablement en pénurie de données textuelles en 2026. Pour ce qui est des données en images, la pénurie pourrait arriver entre 2030 et 2060.
OpenAI semble avoir vu le problème de loin et a noué des partenariats avec quelques gros médias afin d’utiliser leurs articles pour l’entraînement de ses modèles. Cependant, la quantité est aussi importante et ces quelques médias ne pourront pas en générer suffisamment. Ceci étant, une nouvelle forme de génération de revenus pourrait arriver bientôt pour les auteurs de blogs et créateurs de contenus.
Plus une IA dispose de données variées et riches, meilleure est sa capacité à produire des résultats de qualité et diversifiés. Les données permettent à l’IA de comprendre des patterns, des contextes et des nuances. Cela lui permet de grandir.
La pénurie des données fait référence à une situation où il y a un manque de nouvelles données de qualité disponibles pour l’entraînement des modèles d’IA. Cela peut limiter les capacités de l’IA à s’améliorer et à produire de bons résultats.
S’il n’y a plus assez de données pour entrainer les IA, il peut y avoir plusieurs problèmes : l’apprentissage qui n’évolue plus, les mauvaises réponses, des biais ou des hallucinations, manque d’innovation, etc.
L’une des causes de la pénurie des données est l’arrivée de l’IA elle-même : les gens sont tentés d’utiliser l’IA générative pour produire. En conséquence, il n’y a plus de nouvelles données pour l’entraînement. Les autres causes sont : les restrictions éthiques et légales, la saturation des données actuelles, etc.
Utiliser les données qu’elle a elle-même produites pour continuer son apprentissage est une mauvaise approche. Et il n’y aura pas réellement d’évolution, notamment à cause du manque de nouveauté. Aussi, cela met l’IA dans une boucle fermée et renforce ses erreurs.
BuzzWebzine est un média indépendant. Soutiens-nous en nous ajoutant à tes favoris sur Google Actualités :