La crise du « Model Collapse » : pourquoi l'endogamie de l'IA tuera l'intelligence
Les chercheurs avertissent que l'entraînement de l'IA sur du contenu généré par l'IA conduit à un « effondrement du modèle ». Alors que le web se remplit de déchets synthétiques, comment garder l'IA saine d'esprit ?
L'IA des Habsbourg
Dans l'histoire européenne, la maison de Habsbourg fut l'une des dynasties royales les plus puissantes. Ils ont régné pendant des siècles. Mais ils avaient un défaut fatal : dans leur quête pour consolider le pouvoir et garder leur lignée « pure », ils se mariaient entre cousins. Au fil des générations, cette consanguinité récursive a conduit à la célèbre « mâchoire des Habsbourg » et à une foule de malformations génétiques et de problèmes de santé. Le patrimoine génétique est devenu trop petit, trop récursif, et finalement, la lignée s'est effondrée.
En 2025, nous assistons à l'équivalent numérique de ce phénomène. Nous l'appelons l'Effondrement du Modèle (Model Collapse).
Durant la première décennie de la révolution du Deep Learning (environ 2012-2022), nous avons vécu un âge d'or de la donnée. Nous avons entraîné nos modèles sur la production organique de l'humanité. Nous avons aspiré des livres écrits par des auteurs humains, du code écrit par des ingénieurs humains, des forums remplis d'arguments humains et de l'art créé par des mains humaines. Ces données étaient désordonnées, certes. Mais elles étaient riches. Elles étaient variées. Elles contenaient les « queues » de la distribution : l'étrange, le créatif, l'inattendu. Elles étaient ancrées dans la réalité physique.
Mais ensuite sont arrivés ChatGPT, Midjourney et Copilot. Soudain, le coût de génération de contenu a chuté à zéro. Internet a été inondé de textes générés par l'IA, d'images générées par l'IA et de code généré par l'IA. Les spammeurs SEO ont utilisé des LLM pour générer des millions d'articles « listicles » pour récolter des clics. Des bots ont commencé à parler à des bots sur les réseaux sociaux.
Aujourd'hui, un pourcentage significatif et croissant du web public est synthétique. Et voici le problème : lorsque nous aspirons le web pour entraîner la prochaine génération de modèles (GPT-6, Claude 5, Gemini Ultra 3), nous aspirons inévitablement des données générées par leurs prédécesseurs. Nous nourrissons l'IA avec sa propre production. Nous fermons la boucle.
Les mathématiques de la régression
Ce n'est pas seulement une préoccupation philosophique. C'est une certitude mathématique. Des chercheurs d'Oxford, de Cambridge et de l'Université de Toronto ont démontré cet effet dans des études rigoureuses. Ils appellent cela « La malédiction de la récursivité ».
Lorsqu'un modèle probabiliste s'entraîne sur des données générées par un autre modèle probabiliste, il a tendance à converger vers la « moyenne ». Il perd la variance. Il perd les queues de distribution.
Pensez-y comme faire une photocopie d'une photocopie d'une photocopie. La première copie semble correcte. La seconde est un peu floue. À la dixième copie, les bords nets représentent du bruit, les détails sont délavés et l'image se transforme en boue noire. Le signal se dégrade.
Dans les modèles d'IA, cela se manifeste par une perte de créativité et de nuance. Les modèles deviennent « beiges ». Leur écriture devient générique, répétitive et sûre. Leur art converge vers une esthétique spécifique, brillante et hyper-polie qui manque du grain et de la texture de la réalité. Leur code devient syntaxiquement parfait mais fonctionnellement générique, manquant des astuces d'optimisation intelligentes qu'un expert humain pourrait employer.
Pire, le modèle commence à halluciner avec plus de confiance. En s'entraînant sur les hallucinations de ses prédécesseurs, ces erreurs sont renforcées. Un mensonge raconté une fois est une anomalie ; un mensonge raconté un million de fois dans l'ensemble d'entraînement devient un fait. L'effondrement du modèle ne consiste pas seulement à devenir ennuyeux ; il s'agit de se détacher de la réalité.
L'empoisonnement du puits
Nous voyons déjà les premiers signes de cette crise. Stack Overflow a vu une chute massive du trafic humain, tandis que le volume de code généré par l'IA sur GitHub a explosé. Si vous entraînez un modèle de code sur des données GitHub de 2025, vous l'entraînez sur du code qui a probablement été écrit par Copilot en 2024.
Si ce code de 2024 avait un bug subtil (disons, une vulnérabilité de sécurité que l'IA a tendance à suggérer), le modèle de 2025 apprendra ce bug comme une meilleure pratique. Il l'amplifiera. Nous créons une boucle de rétroaction de médiocrité et d'erreur.
Les « Lois d'échelle » (Scaling Laws) qui ont conduit le boom de l'IA (l'idée que le simple ajout de plus de données et de plus de puissance de calcul donne toujours de meilleures performances) frappent un mur. La donnée n'est plus la contrainte ; la réalité est la contrainte. Nous sommes à court de données humaines.
La solution Dweve : La provenance des données comme douve défensive
Chez Dweve, nous avons anticipé cette crise. Nous avons réalisé très tôt que la stratégie du « tout aspirer » était insoutenable. Pour construire des systèmes robustes qui ne s'effondrent pas dans l'hallucination, vous devez donner la priorité à la Provenance des Données.
Nous traitons les données comme un restaurant haut de gamme traite ses ingrédients. Nous n'achetons pas simplement de la « viande » à un type dans une ruelle ; nous traçons la chaîne d'approvisionnement. Nous savons exactement d'où viennent nos données.
1. Le « Web Immaculé » (Données Pré-2023)
Nous accordons une prime massive aux données créées avant la prolifération généralisée de l'IA Générative (grosso modo fin 2022 / début 2023). Nous considérons cette époque comme le « Web Immaculé ». Ces archives constituent le socle de notre entraînement. C'est la vérité terrain de la production humaine avant que la contamination ne commence.
2. Sources Humaines Certifiées
Pour les données modernes, nous ne comptons pas sur un scraping aveugle du web. Nous travaillons directement avec des institutions de confiance. Nous licencions des données auprès de :
- Éditeurs Académiques : Les articles revus par les pairs sont (pour la plupart) écrits par des humains et vérifiés par des humains.
- Éditeurs de Livres : Les processus éditoriaux assurent un niveau de supervision humaine.
- Dépôts de Code avec CI/CD : C'est crucial. Nous n'aspirons pas juste du code. Nous aspirons du code qui passe les tests.
3. Vérification Symbolique comme Filtre de Qualité
C'est unique à notre approche Neuro-Symbolique. Parce que notre système comprend la logique et la structure du code, nous pouvons utiliser la vérification symbolique pour filtrer les données d'entraînement.
Si nous entraînons un modèle à écrire du Python, nous ne lui donnons pas juste des fichiers texte bruts. Nous passons le code dans un compilateur. S'il a des erreurs de syntaxe, nous le jetons. Nous le passons dans un analyseur statique. S'il a des failles de sécurité évidentes, nous le jetons.
Nous utilisons le « Comptable » (IA Symbolique) pour auditer les données avant que l'« Artiste » (IA Neurale) ne soit autorisé à les regarder. Cela filtre les hallucinations et le code buggé généré par d'autres IA. Cela agit comme un système immunitaire contre l'effondrement du modèle.
4. La stratégie de préservation des « Queues »
Nous sur-échantillonnons explicitement les « queues » de la distribution. Nous recherchons des données de haute qualité mais non conventionnelles. Nous ne voulons pas que notre modèle soit « moyen ». Nous voulons qu'il comprenne les cas limites, les sauts créatifs, les exceptions brillantes.
La plupart des pipelines d'entraînement de LLM filtrent agressivement les « valeurs aberrantes » pour stabiliser l'entraînement. Nous les curons soigneusement. L'innovation ne se produit pas à la moyenne ; elle se produit aux marges.
La valeur de la réalité
Dans un futur proche, les « données générées par l'humain » deviendront une classe d'actifs premium. Le vaste océan de l'internet public sera considéré comme de la « donnée poubelle » : utile pour le remplissage, peut-être, ou pour apprendre la grammaire de base, mais dangereux pour les connaissances fondamentales.
Les entreprises qui ont accès à des données propriétaires et réelles (logs de capteurs d'usines réelles, dossiers patients de vrais médecins, données de transaction d'économies réelles) auront un avantage massif. Elles possèdent la « vérité terrain ».
L'effondrement du modèle est la menace existentielle pour la bulle de l'IA Générative. Cela suggère que nous ne pouvons pas simplement passer à l'échelle indéfiniment. Nous ne pouvons pas simplement simuler notre chemin vers la Superintelligence. Nous devons rester ancrés. Nous devons curer. Nous devons privilégier la qualité sur la quantité.
L'IA du futur ne sera pas construite sur l'internet entier. Elle sera construite sur l'internet vérifié. Elle sera construite sur la vérité. Et Dweve construit ce filtre.
Alors que l'effondrement du modèle menace de transformer l'IA en une chambre d'écho de ses propres hallucinations, la stratégie de provenance des données de Dweve offre une échappatoire. Notre combinaison d'archives immaculées, de sources humaines certifiées, de vérification symbolique et de préservation de la diversité garantit que nos modèles restent ancrés dans la réalité. Si vous construisez des systèmes d'IA qui doivent rester précis et créatifs sur le long terme, la qualité de vos données d'entraînement est désormais votre décision stratégique la plus importante.
Étiquettes
À propos de l’auteur
Marc Filipan
CTO & Co-fondateur
Façonne l’avenir de l’IA via les réseaux binaires et le raisonnement par contraintes. Passionné par une IA efficace et accessible.