La grande illusion de l'IA : pourquoi « plus de données » ne nous sauvera pas.

L'illusion du trillion de paramètres

Une course se déroule dans l'IA. Pas une course pour construire de meilleurs systèmes. Pas une course pour résoudre de vrais problèmes. Une course pour construire de plus grands nombres.

Cent milliards de paramètres. Cinq cents milliards. Un trillion. Dix trillions. Chaque annonce est accueillie par des communiqués de presse haletants et des cours boursiers en flèche. Chaque modèle est présenté comme la prochaine percée en intelligence artificielle.

Sauf que ce ne sont pas des percées. Ils sont juste plus grands.

Et quelque part en chemin, toute l'industrie s'est convaincue que plus grand équivaut à mieux. Que plus de paramètres signifie plus d'intelligence. Que si nous continuons à augmenter l'échelle, à ajouter des zéros, à consommer plus de données et plus de calcul, nous finirons par tomber sur l'intelligence artificielle générale.

C'est la plus grande illusion de la technologie moderne. Et elle est en train de se fissurer.

L'évangile de la loi de mise à l'échelle

En 2020, des chercheurs ont découvert ce qu'ils ont appelé des "lois de mise à l'échelle". Alimentez un réseau neuronal avec plus de paramètres et plus de données, et ses performances s'améliorent de manière prévisible. Doublez les paramètres, réduisez de moitié le taux d'erreur. C'était magnifique. Mathématique. Répétable.

Les lois de mise à l'échelle sont devenues un évangile. Planifier la recherche en IA ? Il suffit d'augmenter l'échelle. Vous voulez de meilleures performances ? Ajoutez plus de paramètres. Besoin de rivaliser ? Construisez de plus grands modèles.

Chaque grand laboratoire a adopté la même stratégie : des modèles plus grands, plus de données, plus de calcul. GPT-3 avait 175 milliards de paramètres. GPT-4 est devenu plus grand. Gemini a poussé plus loin. Des modèles avec un trillion de paramètres ont été annoncés. Dix trillions ont été discutés.

La logique semblait inattaquable : si la mise à l'échelle a fonctionné jusqu'à présent, pourquoi s'arrêterait-elle ?

Sauf qu'elle s'arrête. En ce moment même.

Le mur que personne n'avait prédit

Fin 2024, quelque chose d'inattendu s'est produit. La prochaine génération de modèles phares n'a pas montré les améliorations attendues.

Deux fois plus de paramètres. Trois fois plus de données d'entraînement. Dix fois plus de calcul. Et les performances ont à peine bougé. Dans certains cas, elles ont empiré.

Les lois de mise à l'échelle, qui avaient tenu si fiablement pendant des années, s'effondraient. Les rendements décroissants n'étaient plus théoriques. Ils étaient là.

TechCrunch a rapporté en novembre 2024 que les lois de mise à l'échelle de l'IA "montrent des rendements décroissants, forçant les laboratoires d'IA à changer de cap". DeepLearning.AI a documenté comment les grandes entreprises ont reconnu que "la prochaine génération de modèles de haut niveau n'a pas montré les améliorations attendues malgré des architectures plus grandes, plus de données d'entraînement et plus de puissance de traitement".

La preuve est claire : la mise à l'échelle a heurté un mur. Plusieurs murs, en fait.

Le mur des données

Premier mur : nous manquons de données d'entraînement de qualité.

Les grands modèles linguistiques consomment Internet. Littéralement. GPT-3 a été entraîné sur des centaines de milliards de mots extraits de sites web, de livres, d'articles, de forums. Chaque morceau de texte humain raisonnablement accessible en ligne.

Mais il n'y a qu'un certain Internet. Des recherches publiées en 2022 prévoyaient que nous épuiserions les données textuelles de haute qualité entre 2026 et 2032 si les tendances actuelles se poursuivent. L'analyse d'Epoch AI a révélé que si les estimations précédentes suggéraient un épuisement d'ici 2024, une méthodologie affinée indique maintenant que cela pourrait se produire d'ici 2028.

Quoi qu'il en soit, le temps presse. Le texte de haute qualité généré par l'homme est fini.

La réponse ? Les données synthétiques. Des modèles générant du texte pour entraîner d'autres modèles. Cela semble intelligent jusqu'à ce que vous réalisiez que c'est comme faire des photocopies de photocopies. Chaque génération se dégrade. Les erreurs se multiplient. Les biais s'amplifient.

Nature a publié des recherches en 2024 démontrant que les modèles entraînés sur des données générées de manière récursive subissent un "effondrement du modèle". L'étude a montré qu'un entraînement indiscriminé sur du contenu synthétique conduit à une détérioration des performances, à une réduction de la diversité et, finalement, à des modèles d'IA qui produisent des résultats de plus en plus génériques.

Vous ne pouvez pas évoluer à l'infini lorsque votre source de carburant est finie. Et les données de qualité – la vraie connaissance humaine – sont en effet très finies.

L'effondrement de la qualité

Deuxième mur : plus de données ne signifie pas de meilleures données.

L'article Chinchilla de 2022 a révélé quelque chose de crucial : le modèle optimal n'est pas le plus grand modèle. C'est celui qui a le meilleur rapport entre les paramètres et les jetons d'entraînement. Pour chaque augmentation de 4x du calcul, vous avez besoin d'une augmentation de 2x de la taille du modèle ET d'une augmentation de 2x de la qualité des données.

Mais que se passe-t-il lorsque vous avez déjà utilisé toutes les bonnes données ? Vous commencez à extraire des sources de moindre qualité. Des forums avec de la désinformation. Du contenu traduit automatiquement. Du spam généré par l'IA. Les fonds de tiroir d'Internet.

Plus de données d'entraînement. Moins bonnes performances. Parce que "garbage in, garbage out" ne cesse pas d'être vrai juste parce que vous avez un trillion de paramètres.

Une étude de 2024 a révélé que la qualité des données est plus importante que la quantité pour les petits modèles linguistiques. Une autre a constaté que des ensembles de données soigneusement organisés d'un million d'exemples surpassent des ensembles de données collectés aléatoirement de 100 millions d'exemples.

La réponse de l'industrie ? Continuer à augmenter l'échelle de toute façon. Jeter plus de calcul sur le problème. Espérer que la force brute surmonte les mauvaises données.

Ce n'est pas le cas.

Le plafond de calcul

Troisième mur : la physique du calcul.

L'entraînement d'un modèle à un trillion de paramètres nécessite des quantités de calcul incroyables. Nous parlons de dizaines de milliers de GPU fonctionnant pendant des mois. Une consommation d'énergie qui rivalise avec celle de petits pays. Des coûts d'infrastructure de centaines de millions.

Et pour quoi faire ? Des améliorations marginales. Des gains de performance qui justifient à peine l'augmentation exponentielle des coûts.

Une estimation suggère que l'entraînement d'un modèle hypothétique de 10 trillions de paramètres consommerait plus d'électricité que certains pays européens n'en utilisent annuellement. Pour une seule exécution d'entraînement. Qui devra probablement être répétée des dizaines de fois avant de fonctionner.

Les retours économiques ne supportent plus les coûts de calcul. Les lois de mise à l'échelle promettaient des améliorations linéaires avec un investissement linéaire. La réalité offre des améliorations logarithmiques avec un investissement exponentiel.

Ce n'est pas un modèle économique. C'est une bulle qui attend d'éclater.

L'illusion de l'intelligence

Mais voici le problème plus profond : même lorsque la mise à l'échelle fonctionnait, elle ne créait pas d'intelligence. Elle créait une correspondance de motifs statistiques à une échelle énorme.

Un trillion de paramètres ne pensent pas. Ils ne raisonnent pas. Ils ne comprennent pas. Ils prédisent le jeton suivant en fonction des motifs des données d'entraînement. C'est une chose profondément différente de l'intelligence.

L'illusion est convaincante car l'échelle peut approximer la compréhension. Alimentez un modèle avec suffisamment d'exemples, et il peut faire correspondre des motifs pour obtenir des réponses apparemment intelligentes. Mais c'est de l'imitation, pas de la compréhension.

C'est pourquoi les modèles échouent sur des problèmes nouveaux. Pourquoi ils ne peuvent pas faire de raisonnement en plusieurs étapes de manière fiable. Pourquoi ils hallucinent des faits incorrects avec confiance. Ils ne pensent pas. Ils récupèrent et recombinent des motifs.

Et aucune quantité de mise à l'échelle ne résout cela. Ajouter plus de paramètres à un détecteur de motifs vous donne juste un plus grand détecteur de motifs.

Le piège européen

Pour l'Europe, le paradigme de la mise à l'échelle crée une situation impossible.

Les géants technologiques américains ont la puissance de calcul. Ils ont les données. Ils ont l'infrastructure pour entraîner des modèles à un trillion de paramètres. Les entreprises européennes n'en ont pas.

Tenter de rivaliser dans la course à la mise à l'échelle signifie que l'IA européenne sera toujours à la traîne. Toujours une génération derrière. Toujours dépassée en calcul et dépensant moins pour la collecte de données.

C'est un jeu truqué dès le départ. Les règles favorisent ceux qui ont le plus de ressources, pas ceux qui ont les meilleures idées.

Et maintenant, alors que les lois de mise à l'échelle s'effondrent, le désavantage de l'Europe dans cette course devient sans importance. Parce que la course elle-même touche à sa fin.

L'alternative plus intelligente

Alors, quelle est l'alternative ? Si plus grand n'est pas mieux, qu'est-ce qui l'est ?

La réponse est l'élégance. L'efficacité. La rigueur mathématique.

Chez Dweve, nous n'avons jamais cru à l'illusion de la mise à l'échelle. Nous n'avons pas essayé de construire des modèles plus grands. Nous en avons construit de plus intelligents.

Des réseaux neuronaux binaires avec 456 experts spécialisés. Chaque expert se concentre sur des types de raisonnement spécifiques. L'activation clairsemée signifie que seuls les experts pertinents s'engagent pour chaque tâche. Pas de calcul gaspillé. Pas de paramètres inutiles.

Le résultat ? Des performances de pointe avec une fraction des paramètres. Un meilleur raisonnement avec moins de données. Des systèmes déployables qui ne nécessitent pas d'infrastructure à l'échelle d'un centre de données.

Loom 456 n'essaie pas de mémoriser Internet. Il est conçu pour raisonner avec des contraintes, pour réfléchir aux problèmes, pour réellement comprendre la structure.

C'est l'intelligence par l'architecture, pas par l'accumulation.

La qualité plutôt que la quantité

L'article Chinchilla a eu raison sur un point : le rapport compte plus que les chiffres bruts.

Mais la véritable perspicacité va plus loin : des modèles soigneusement conçus avec des régimes d'entraînement organisés surpassent les modèles massifs avec un stockage de données indiscriminé.

Pensez à l'apprentissage humain. Vous ne devenez pas intelligent en lisant tout. Vous devenez intelligent en lisant les bonnes choses, dans le bon ordre, avec les bons conseils. La qualité de l'apprentissage compte plus que la quantité d'informations.

L'IA n'est pas différente. Un modèle entraîné sur des données bien structurées et soigneusement organisées surpassera un modèle noyé dans du texte Internet aléatoire. Même si le second modèle a 100 fois plus de paramètres.

C'est là que l'Europe peut rivaliser. Non pas en construisant plus grand, mais en construisant mieux. Non pas en collectant plus de données, mais en utilisant des régimes d'entraînement plus intelligents.

Dweve Core démontre ce principe. Notre cadre de réseau neuronal binaire atteint des performances compétitives avec des ordres de grandeur moins de paramètres que les modèles standard. Parce que nous nous sommes concentrés sur l'élégance mathématique au lieu de la mise à l'échelle par la force brute.

L'avantage de l'architecture

Voici ce que la foule de la mise à l'échelle manque : l'architecture compte plus que la taille.

Vous pouvez avoir un trillion de paramètres arrangés stupidement, ou un milliard de paramètres arrangés intelligemment. L'arrangement intelligent gagne à chaque fois.

Les architectures Mixture of Experts (MoE) le prouvent. Au lieu d'activer tous les paramètres pour chaque tâche, n'activez que le sous-ensemble pertinent. Soudain, vous obtenez des performances de trillion de paramètres avec des coûts de calcul de milliard de paramètres.

Les réseaux neuronaux binaires vont plus loin. Chaque opération est mathématiquement plus simple, mais l'architecture globale est plus sophistiquée. Raisonnement basé sur les contraintes au lieu de l'approximation probabiliste. Logique discrète au lieu de l'approximation en virgule flottante.

Le résultat est des systèmes qui raisonnent plutôt que de récupérer. Qui comprennent la structure plutôt que de mémoriser des motifs. Qui fonctionnent de manière fiable au lieu d'halluciner de manière plausible.

C'est l'avenir que les lois de mise à l'échelle ne peuvent pas atteindre : une intelligence réelle, pas seulement une imitation plus grande.

Au-delà de l'illusion

L'ère de la mise à l'échelle touche à sa fin. Non pas avec un crash spectaculaire, mais avec une lente reconnaissance que jeter plus de calcul sur le problème ne fonctionne plus.

Murs de données. Effondrement de la qualité. Plafonds de calcul. Rendements décroissants. Ce ne sont pas des revers temporaires. Ce sont des limites fondamentales au paradigme de la mise à l'échelle.

Mais pour ceux qui n'ont jamais cru à l'illusion, ce n'est pas une crise. C'est une opportunité.

Une opportunité de construire une IA basée sur des principes d'intelligence réels plutôt que sur la corrélation statistique. De créer des systèmes qui fonctionnent efficacement plutôt que de manière gaspilleuse. De développer une technologie accessible plutôt que de nécessiter des budgets de milliards de euros.

La course au trillion de paramètres a toujours été une impasse. Il suffisait d'attendre que tout le monde heurte le mur pour le prouver.

La véritable percée

Voici l'ironie : la véritable percée en IA ne sera pas un modèle plus grand. Ce sera la réalisation que nous avons optimisé pour la mauvaise chose.

Pas plus de paramètres. Une meilleure architecture.

Pas plus de données. Un meilleur apprentissage.

Pas plus de calcul. Des mathématiques plus intelligentes.

Les réseaux neuronaux binaires représentent ce changement. De l'accumulation à l'élégance. De la force brute à la rigueur mathématique. Des monstres à un trillion de paramètres aux systèmes à un milliard de paramètres qui pensent réellement.

La plateforme de Dweve prouve que cela fonctionne : Core comme cadre d'algorithme binaire, Loom comme modèle d'intelligence à 456 experts, Nexus comme cadre d'intelligence multi-agents, Aura comme plateforme d'orchestration d'agents autonomes, Fabric comme tableau de bord et centre de contrôle unifiés, Mesh comme couche d'infrastructure décentralisée.

Tout est construit sur le principe que l'intelligence vient de la structure, pas de la taille.

Le choix à venir

L'industrie de l'IA est confrontée à un choix. Continuer à poursuivre l'illusion de la mise à l'échelle, jeter de l'argent par les fenêtres, en espérant que le prochain ordre de grandeur franchira d'une manière ou d'une autre les murs. Ou accepter que le paradigme a des limites et passer à quelque chose de mieux.

Les données disent que la mise à l'échelle est terminée. La physique dit que les coûts de calcul sont insoutenables. Les mathématiques disent qu'il existe des approches plus intelligentes.

L'Europe n'a pas besoin de gagner la course à la mise à l'échelle. L'Europe a besoin de la rendre obsolète. Construire une IA qui ne nécessite pas de modèles à un trillion de paramètres. Créer des systèmes qui fonctionnent efficacement au lieu de manière gaspilleuse. Développer une technologie basée sur la compréhension, pas sur la mémorisation.

La grande illusion de l'IA se brise. Plus de données ne la sauveront pas. Des modèles plus grands ne la sauveront pas. Plus de calcul ne la sauveront pas.

Qu'est-ce qui brise l'illusion ? Reconnaître que l'intelligence n'a jamais été une question de taille en premier lieu.

L'avenir de l'IA n'est pas un trillion de paramètres. Ce sont des architectures intelligentes, un calcul efficace et une élégance mathématique. Ce sont des systèmes conçus pour la compréhension, pas pour la mémorisation. L'intelligence par la structure, pas par l'accumulation.

Le paradigme de la mise à l'échelle a rempli son rôle. Il nous a montré ce que la force brute peut accomplir. Mais maintenant, nous avons atteint ses limites. Le prochain chapitre de l'IA exige une pensée différente : la précision plutôt que l'échelle, l'architecture plutôt que les paramètres, l'intelligence plutôt que la taille.

Cet avenir est en train d'être construit. Par des chercheurs qui se concentrent sur l'efficacité. Par des ingénieurs qui privilégient l'explicabilité. Par des entreprises qui développent une IA qui fonctionne sans nécessiter d'infrastructure de centre de données. L'Europe a l'opportunité de mener ce changement – non pas en gagnant la course à la mise à l'échelle, mais en la rendant sans objet.

La grande illusion de l'IA se brise. Plus de données ne la sauveront pas. Ce qui vient ensuite sera plus intelligent.

Dweve construit l'IA sur des réseaux de contraintes binaires et des architectures de mélange d'experts. Loom utilise 456 experts spécialisés pour un raisonnement efficace. Développement aux Pays-Bas, au service des organisations européennes. L'avenir de l'IA est élégant, pas seulement grand.

La grande illusion de l'IA : pourquoi « plus de données » ne nous sauvera pas.

L'illusion du trillion de paramètres

L'évangile de la loi de mise à l'échelle

Le mur que personne n'avait prédit

Le mur des données

L'effondrement de la qualité

Le plafond de calcul

L'illusion de l'intelligence

Le piège européen

L'alternative plus intelligente

La qualité plutôt que la quantité

L'avantage de l'architecture

Au-delà de l'illusion

La véritable percée

Le choix à venir

Étiquettes

À propos de l’auteur

Bouwe Henkelman

Articles connexes

Le risque d'atrophie des compétences : l'IA va-t-elle nous rendre stupides ?

Le manifeste de l'IA honnête : pourquoi nous avons besoin d'une intelligence transparente

Le véritable avenir de l'IA : au-delà du battage médiatique

Suivez l’actualité Dweve