De Model Collapse-crisis: Waarom AI-inteelt intelligentie zal vernietigen

De Habsburgse AI

In de Europese geschiedenis was het Huis Habsburg een van de machtigste koninklijke dynastieën. Ze regeerden eeuwenlang. Maar ze hadden een fatale zwakte: in hun streven om de macht te consolideren en hun bloedlijn "zuiver" te houden, trouwden ze met hun neven en nichten. Generaties van deze recursieve inteelt leidden tot de beroemde "Habsburgse kaak" en een reeks genetische afwijkingen en gezondheidsproblemen. De genenpoel werd te klein, te recursief en uiteindelijk stortte de lijn in.

In 2025 zijn we getuige van het digitale equivalent van dit fenomeen. We noemen dit Model Collapse.

Gedurende het eerste decennium van de Deep Learning-revolutie (ongeveer 2012-2022) leefden we in een Gouden Eeuw van data. We trainden onze modellen op de organische output van de mensheid. We scrapten boeken geschreven door menselijke auteurs, code geschreven door menselijke ingenieurs, forums gevuld met menselijke discussies en kunst gemaakt door menselijke handen. Deze data was rommelig, ja. Maar het was rijk. Het was gevarieerd. Het bevatte de "staarten" van de verdeling: het vreemde, het creatieve, het onverwachte. Het was gegrond in de fysieke werkelijkheid.

Maar toen kwamen ChatGPT, Midjourney en Copilot. Plotseling daalden de kosten voor het genereren van content naar nul. Het internet werd overspoeld met AI-gegenereerde tekst, AI-gegenereerde afbeeldingen en AI-gegenereerde code. SEO-spammers gebruikten LLM's om miljoenen "listicles" te genereren om klikken te oogsten. Bots begonnen met bots te praten op sociale media.

Vandaag de dag is een aanzienlijk en groeiend percentage van het openbare web synthetisch. En hier is het probleem: wanneer we het web scrapen om de volgende generatie modellen te trainen (GPT-6, Claude 5, Gemini Ultra 3), scrapen we onvermijdelijk data die is gegenereerd door hun voorgangers. We voeden de AI met zijn eigen output. We sluiten de lus.

De wiskunde van regressie

Dit is niet slechts een filosofische kwestie. Het is een wiskundige zekerheid. Onderzoekers van Oxford, Cambridge en de Universiteit van Toronto hebben dit effect aangetoond in rigoureuze studies. Ze noemen het "De vloek van recursie".

Wanneer een probabilistisch model traint op data die is gegenereerd door een ander probabilistisch model, heeft het de neiging te convergeren naar het "gemiddelde". Het verliest de variantie. Het verliest de staarten.

Denk aan het maken van een kopie van een kopie van een kopie. De eerste kopie ziet er oké uit. De tweede is een beetje wazig. Bij de tiende kopie vertegenwoordigen de scherpe randen ruis, zijn de details vervaagd en verandert het beeld in zwarte smurrie. Het signaal vervalt.

In AI-modellen manifesteert dit zich als een verlies van creativiteit en nuance. De modellen worden "beige". Hun schrijven wordt generiek, repetitief en veilig. Hun kunst convergeert naar een specifieke, glanzende, hypergepolijste esthetiek die het gruis en de textuur van de werkelijkheid mist. Hun code wordt syntactisch perfect maar functioneel generiek, zonder de slimme optimalisatiehacks die een menselijke expert zou toepassen.

Erger nog: het model begint zelfverzekerder te hallucineren. Omdat het traint op de hallucinaties van zijn voorgangers, worden die fouten versterkt. Een leugen die één keer wordt verteld, is een anomalie; een leugen die een miljoen keer wordt verteld in de trainingsset, wordt een feit. Model Collapse gaat niet alleen over saai worden: het gaat over losraken van de realiteit.

Het vergiftigen van de bron

We zien nu al de eerste tekenen van deze crisis. Stack Overflow heeft een enorme daling van het menselijke verkeer gezien, terwijl het volume aan AI-gegenereerde code op GitHub is geëxplodeerd. Als je een programmeermodel traint op GitHub-data uit 2025, train je het op code die waarschijnlijk in 2024 door Copilot is geschreven.

Als die code uit 2024 een subtiele bug bevatte (bijvoorbeeld een beveiligingslek dat de AI vaak suggereert), zal het model van 2025 die bug als best practice leren. Het zal het versterken. We creëren een feedbacklus van middelmatigheid en fouten.

De "Schalingswetten" die de AI-boom aandreven (het idee dat simpelweg meer data en meer rekenkracht toevoegen altijd betere prestaties oplevert) lopen tegen een muur aan. Data is niet langer de beperking; de realiteit is de beperking. We zijn door onze menselijke data heen.

De oplossing van Dweve: Data-herkomst als slotgracht

Bij Dweve voorzagen we deze crisis. We beseften al vroeg dat de strategie van "alles scrapen" onhoudbaar was. Om robuuste systemen te bouwen die niet instorten in hallucinaties, moet je prioriteit geven aan Data-herkomst.

We behandelen data zoals een toprestaurant zijn ingrediënten behandelt. We kopen niet zomaar "vlees" van een mannetje in een steegje: we traceren de toeleveringsketen. We weten precies waar onze data vandaan komt.

1. Het "Ongerepte Web" (Data van vóór 2023)

We hechten enorme waarde aan data die is gecreëerd vóór de wijdverbreide proliferatie van Generatieve AI (grofweg eind 2022/begin 2023). We beschouwen dit tijdperk als het "Ongerepte Web". Deze archiefdata vormt het fundament van onze training. Het is de grondwaarheid van menselijke output voordat de vervuiling begon.

2. Gecertificeerde menselijke bronnen

Voor moderne data vertrouwen we niet op blind web-scrapen. We werken rechtstreeks samen met vertrouwde instellingen. We licentiëren data van:

Academische uitgevers: Peer-reviewed papers worden (grotendeels) door mensen geschreven en door mensen gecontroleerd.
Boekuitgevers: Redactionele processen zorgen voor een niveau van menselijk toezicht.
Code-repositories met CI/CD: Dit is cruciaal. We scrapen niet zomaar code. We scrapen code die door tests komt.

3. Symbolische verificatie als kwaliteitsfilter

Dit is uniek voor onze Neuro-Symbolische aanpak. Omdat ons systeem logica en codestructuur begrijpt, kunnen we symbolische verificatie gebruiken om de trainingsdata te filteren.

Als we een model trainen om Python te schrijven, voeden we het niet simpelweg met ruwe tekstbestanden. We halen de code door een compiler. Als er syntaxfouten zijn, gooien we het weg. We halen het door een statische analyzer. Als er duidelijke beveiligingsfouten in zitten, gooien we het weg.

We gebruiken de "Accountant" (Symbolische AI) om de data te auditen voordat de "Artiest" (Neurale AI) er naar mag kijken. Dit filtert de hallucinaties en de buggy code eruit die door andere AI's zijn gegenereerd. Het fungeert als een immuunsysteem tegen Model Collapse.

4. De strategie voor behoud van "staarten"

We over-samplen expliciet de "staarten" van de verdeling. We zoeken naar data die van hoge kwaliteit is, maar onconventioneel. We willen niet dat ons model "gemiddeld" is. We willen dat het de randgevallen, de creatieve sprongen en de briljante uitzonderingen begrijpt.

De meeste LLM-trainingspijplijnen filteren "uitschieters" agressief weg om de training te stabiliseren. Wij cureren ze zorgvuldig. Innovatie gebeurt niet bij het gemiddelde; het gebeurt aan de randen.

De waarde van de realiteit

In de nabije toekomst zal "door mensen gegenereerde data" een premium activaklasse worden. De enorme oceaan van het openbare internet zal worden beschouwd als "junk data": misschien nuttig als opvulling of voor het leren van basisgrammatica, maar gevaarlijk voor fundamentele kennis.

Bedrijven die toegang hebben tot eigen, real-world data (sensorlogs van echte fabrieken, patiëntendossiers van echte artsen, transactiedata van echte economieën) zullen een enorm voordeel hebben. Zij bezitten de "grondwaarheid".

Model Collapse is de existentiële bedreiging voor de Generatieve AI-bubbel. Het suggereert dat we niet zomaar eeuwig kunnen opschalen. We kunnen ons niet een weg simuleren naar Superintelligentie. We moeten gegrond blijven. We moeten cureren. We moeten kwaliteit boven kwantiteit stellen.

De AI van de toekomst zal niet worden gebouwd op het hele internet. Het zal worden gebouwd op het geverifieerde internet. Het zal worden gebouwd op waarheid. En Dweve bouwt het filter.

Terwijl Model Collapse dreigt AI te veranderen in een echokamer van zijn eigen hallucinaties, biedt de data-herkomststrategie van Dweve een ontsnappingsroute. Onze combinatie van ongerepte archiefdata, gecertificeerde menselijke bronnen, symbolische verificatie en diversiteitsbehoud zorgt ervoor dat onze modellen gegrond blijven in de realiteit. Als u AI-systemen bouwt die op de lange termijn nauwkeurig en creatief moeten blijven, is de kwaliteit van uw trainingsdata nu uw belangrijkste strategische beslissing.

De Model Collapse-crisis: Waarom AI-inteelt intelligentie zal vernietigen

De Habsburgse AI

De wiskunde van regressie

Het vergiftigen van de bron

De oplossing van Dweve: Data-herkomst als slotgracht

1. Het "Ongerepte Web" (Data van vóór 2023)

2. Gecertificeerde menselijke bronnen

3. Symbolische verificatie als kwaliteitsfilter

4. De strategie voor behoud van "staarten"

De waarde van de realiteit

Tags

Over de auteur

Marc Filipan

Gerelateerde artikelen

Federatieve Leerprocessen voor de Gezondheidszorg: Kanker Genezen Zonder Gegevens te Delen

Verklaarbare AI: de zwarte doos openen

AI-hallucinaties: wanneer AI dingen verzint (en waarom)

Ontvang Dweve-updates