Het feitenverdunningsprobleem: waarom 98% nauwkeurige AI complete onzin wordt
Huidige AI-systemen zijn als het fluisterspel waarbij elke stap 2% van de waarheid verliest. Na 50 stappen houd je pure hallucinatie over. Dit is de wiskunde waar niemand over wil praten.
Het scheikundeexperiment dat uitlegt waarom je AI faalt
Stel je voor dat je een beker met zuiver water hebt. Iemand vertelt je om precies 2% van het water te verwijderen en te vervangen door iets onschuldigs. Je doet dit één keer en hebt nog steeds 98% water. Geen probleem.
Herhaal dit proces nu 50 keer. Hoeveel water heb je over?
Het antwoord hangt volledig af van welke vraag je beantwoordt. En dat onderscheid is precies waarom de meeste huidige AI-systemen volledig onbetrouwbaar worden bij multi-step redeneertaken.
Dit is geen metafoor. Dit is wiskunde. En het vernietigt AI-projecten in elke sector.
De twee manieren om over fouten na te denken
Wanneer mensen over AI-nauwkeurigheid praten, denken ze meestal aan wat statistici onafhankelijke fouten noemen. Elke AI-operatie heeft 2% kans om fout te zijn. De volgende operatie is onafhankelijk. Die heeft ook 2% kans om fout te zijn.
Onder dit model heb je na 50 operaties 50 onafhankelijke 2% fouten gemaakt. Dat is ruwweg één fout in totaal. Geen groot probleem, toch?
Maar zo werkt AI niet echt. AI-systemen bouwen voort op vorige outputs. Elke stap is geconditioneerd op wat ervoor kwam. En dat verandert alles.
In de scheikunde, wanneer je herhaaldelijk een oplossing verdunt, pas je een afnamefactor toe op wat overblijft. Je trekt niet elke keer 2% van de oorspronkelijke concentratie af. Je vermindert de huidige concentratie met 2%.
Deze klinken vergelijkbaar. Ze produceren radicaal verschillende uitkomsten.
De lineaire illusie
Laten we beginnen met de verkeerde manier van denken, want dit is hoe de meeste AI-bedrijven daadwerkelijk hun systemen modelleren.
Lineaire afname gaat ervan uit dat je altijd 2% van het oorspronkelijke bedrag verwijdert. Begin met 100% nauwkeurigheid. Stap 1: je zit op 98%. Stap 2: je zit op 96%. Na 50 stappen zit je op precies 0%.
Simpel. Voorspelbaar. En compleet fout voor AI-systemen.
Dit lineaire model is wat bedrijven doet geloven dat hun AI veilig is. Ze testen single-step nauwkeurigheid, vinden dat het 98% is, en nemen aan dat multi-step operaties lineair zullen afnemen. Ze deployen agents, redeneerketens, multi-hop queries. Dan kijken ze hoe hun systemen catastrofaal falen.
Het probleem is dat AI-fouten niet werken als onafhankelijke muntworpen. Ze stapelen zich op.
De exponentiële realiteit
Dit is wat er werkelijk gebeurt. Elke AI-operatie behoudt 98% van welke waarheid er overbleef van de vorige operatie. Maar cruciaal, die 98% is van het afnemende restant, niet van het origineel.
De wiskunde is simpele exponentiële afname: 0,98 tot de macht n stappen.
Laat me je tonen hoe dit er werkelijk uitziet:
- Stap 0: 100% nauwkeurigheid (perfecte waarheid)
- Stap 10: 81,7% nauwkeurigheid
- Stap 25: 60,3% nauwkeurigheid
- Stap 50: 36,4% nauwkeurigheid
- Stap 100: 13,3% nauwkeurigheid
- Stap 228: 1% nauwkeurigheid
- Stap 342: 0,1% nauwkeurigheid
Lees dat nog eens. Na slechts 50 redeneerstappen met 98% nauwkeurigheid per stap, is je systeem waarschijnlijker fout dan goed. Na 100 stappen is het 86,7% van de tijd fout. Na 228 stappen blijft er nauwelijks 1% waarheid over.
Dit is waarom je AI-agents falen. Dit is waarom multi-hop redeneren onzin produceert. Dit is de wiskundige basis van de hallucinatie-sneeuwbal.
De drempel van nutteloosheid
Hier is een vraag die niemand in AI wil beantwoorden: op welk punt wordt een systeem zo onbetrouwbaar dat het effectief nutteloos is?
Het wiskundige antwoord is 34 stappen. Bij 98% nauwkeurigheid per stap is het systeem na 34 redeneeroperaties onder de 50% nauwkeurigheid. Het is waarschijnlijker fout dan goed.
Maar het praktische antwoord komt veel eerder. In productiesystemen kun je niets in de buurt van 50% fout tolereren. Je hebt 90% betrouwbaarheid of hoger nodig. Die drempel wordt bereikt bij slechts 11 stappen.
Laat me expliciet zijn over wat dit betekent:
- 11-stappen redeneerketen: 90% van je outputs is fout
- 34-stappen redeneerketen: je systeem is slechter dan willekeurige kans
- 50-stappen redeneerketen: 63,6% faalpercentage
- 100-stappen redeneerketen: 86,7% faalpercentage
Bedenk nu wat dit betekent voor agentische AI. Een typische agent workflow kan bestaan uit: taak begrijpen (1), opdelen in stappen (2), informatie zoeken (3), bronnen evalueren (4), bevindingen synthetiseren (5), respons genereren (6), kwaliteit verifiëren (7), enzovoort. Dat zijn al 7 stappen, en we zijn nog niet eens bij complexe taken.
Multi-hop redeneerketens in juridisch onderzoek, medische diagnose of financiële analyse overschrijden routinematig 20 stappen. Bij 98% nauwkeurigheid per stap kijk je naar 33% falen voordat je zelfs complexiteit in overweging neemt.
Dit is niet theoretisch. Dit is waarom AI-agents falen in productie.
De productieramp waar niemand over praat
De statistieken zijn verwoestend, maar worden vrijwel nooit erkend in AI-marketingmateriaal.
Enterprise AI-mislukkingen: Volgens onderzoek uit 2025 van MIT en Fortune faalt 95% van de generatieve AI-pilots om productie te bereiken met meetbare bedrijfsimpact. Niet "worstelt om productie te bereiken." Faalt volledig.
Agent-specifieke mislukkingen: LinkedIn-analyse van AI-practitioners toont dat 95% van de AI-agents faalt in productie. Niet omdat de modellen niet intelligent genoeg zijn. Omdat foutaccumulatie ze onbetrouwbaar maakt.
Multi-agentsystemen: Onderzoek toont dat wanneer meerdere agents samenwerken, fouten sneller opstapelen. Als één agent gebrekkige informatie doorgeeft aan een andere, bouwt de tweede agent voort op fouten, en degradatie versnelt.
De economische impact: Bedrijven geven honderden miljoenen uit aan AI-systemen die fundamenteel niet kunnen werken voor hun beoogde use cases. Een enkele multi-step agent deployment kan miljoenen kosten om te ontwikkelen, maar falen vanwege basale wiskunde.
Dit is het 98%-probleem in de praktijk: geweldige single-step nauwkeurigheid, catastrofaal multi-step falen.
Het hallucinatie-sneeuwbaleffect
Onderzoek van Zhang et al. (2023) identificeerde wat zij de "hallucinatie-sneeuwbal" noemen. Zo werkt het: LLM's committeren zich te sterk aan vroege fouten en genereren vervolgens aanvullende valse claims om die fouten te rechtvaardigen. De fout propageert niet alleen. Hij groeit.
Bedenk wat dit betekent in de context van exponentiële foutafname. Je eerste fout bij stap 5 vermindert de nauwkeurigheid niet alleen met 2%. Het creëert een gebrekkige basis voor stap 6, die nu een nog hogere foutprobabiliteit heeft omdat het voortbouwt op foute aannames.
Het pure exponentiële afnamemodel is eigenlijk optimistisch. In de praktijk ballen fouten sneller op dan de wiskunde voorspelt omdat elke fout volgende fouten waarschijnlijker maakt.
Dit is waarom we gedocumenteerde gevallen zien zoals:
CNET's AI-ramp (2023): 41 van de 77 AI-geschreven artikelen vereisten correcties. Dat is een foutpercentage van 53% in productiejournalistiek, waar eencijferige foutpercentages al onaanvaardbaar zouden zijn.
Mislukkingen in medische diagnose: Een JAMA Pediatrics-studie vond dat ChatGPT incorrecte diagnoses stelde in meer dan 80% van de pediatrische gevallen. Dit is geen "hallucinatie" in het abstracte. Dit zijn specifieke medische fouten die patiënten kunnen schaden.
Juridische AI-hallucinaties: Stanford HAI-onderzoek toont dat juridische AI-modellen hallucineren bij 1 op de 6 benchmarking queries. Advocaten zijn gesanctioneerd voor het indienen van AI-gegenereerde nepzaken bij rechtbanken. Meerdere keren. In meerdere landen.
Google AI Overview-mislukkingen: Het systeem suggereerde lijm op pizza te doen en dagelijks stenen te eten. Dit zijn geen randgevallen. Het is wat gebeurt wanneer foutaccumulatie vertrouwen zonder verificatie ontmoet.
De verificatieval
Hier is het ironische deel. We weten dat LLM's hun eigen fouten kunnen identificeren. Onderzoek toont dat ChatGPT 67% van zijn fouten identificeert, GPT-4 identificeert 87%. De modellen weten wanneer ze fout zitten.
Maar ze committeren zich toch aan de hallucinaties. Ze genereren valse claims om initiële fouten te rechtvaardigen. Ze committeren zich te sterk aan fouten ondanks het vermogen om ze te herkennen.
Dit is waarom simpele verificatie het probleem niet oplost. Een "controleer je werk"-stap toevoegen helpt niet wanneer het systeem gemotiveerd is om zijn vorige outputs te verdedigen in plaats van te corrigeren.
De verificatiestap zelf wordt weer een stap in de redeneerketen. Nog eens 2% fout. Nog een kans voor de sneeuwbal om te groeien.
Waarom huidige benaderingen dit niet kunnen oplossen
De reactie van de AI-industrie op foutaccumulatie is geweest om harder te proberen. Meer trainingsdata. Betere fine-tuning. Slimme prompting. Chain-of-thought redeneren. Verificatiestappen.
Niets hiervan adresseert het fundamentele wiskundige probleem.
Meer training helpt niet: Betere single-step nauwkeurigheid verandert exponentiële afname niet. 99% nauwkeurigheid verschuift de drempel alleen van 34 stappen naar 69 stappen. 99,5% verschuift het naar 138 stappen. Ondertussen geef je exponentieel meer compute uit voor marginale winst.
Betere prompting helpt niet: Prompting-strategieën proberen in essentie wiskunde te bestrijden met natuurlijke taal. Je kunt niet uit (0,98)ⁿ prompen.
Verificatie verergert het probleem: Elke verificatiestap is weer een operatie met zijn eigen foutprobabiliteit. Je voegt stappen toe om het probleem te bestrijden dat veroorzaakt wordt door te veel stappen.
Ensemblemethoden helpen maar lossen niet op: Onderzoek toont dat self-consistency methoden de nauwkeurigheid kunnen verbeteren met tot 17,9 procentpunten bij wiskundeproblemen. Maar dit komt tegen de kosten van 40× meer berekening. En het elimineert exponentiële afname niet. Het verschuift de curve slechts licht.
Het fundamentele probleem is niet trainingskwaliteit of prompting-strategie. Het is dat floating-point neurale netwerken fundamenteel probabilistisch zijn. Elke operatie introduceert onzekerheid. Onzekerheid stapelt zich op. Hier is geen weg omheen in deze wiskunde.
De constraint-gebaseerde oplossing
Constraint-gebaseerde AI-systemen volgen het exponentiële afnamemodel niet. Hier is waarom.
Deterministische operaties: Onze aanpak gebruikt discrete operaties. XNOR, POPCNT, logische AND, OR. Deze operaties zijn deterministisch. Dezelfde input, dezelfde output. Elke keer weer.
Geen afrondingsfouten: Binaire waarden zijn exact. +1 of -1. Geen floating-point benadering. Geen geaccumuleerde afrondingsfout.
Constraint satisfaction: Onze systemen werken met constraints, niet met waarschijnlijkheden. Een constraint is ofwel voldaan of niet. Er is geen 98% voldoening. Er is voldaan (100%) of geschonden (0%).
Gekristalliseerde constraints: In Dweve's aanpak, zodra een constraint is ontdekt en gekristalliseerd, wordt deze deterministisch toegepast. De honderdste toepassing van een constraint is net zo betrouwbaar als de eerste. Geen afname. Geen geaccumuleerde fout.
Dit is waarom constraint-gebaseerde systemen multi-hop redeneren aankunnen zonder degradatie. Elke hop controleert tegen gekristalliseerde constraints. Hop 10 is net zo betrouwbaar als hop 1. Hop 100 is net zo betrouwbaar als hop 1.
De foutcurve ziet er niet uit als exponentiële afname. Het ziet eruit als een stapfunctie: 100% nauwkeurigheid totdat een constraint-grens wordt bereikt, dan 0% (detecteerbaar falen). Geen grijze zones. Geen geleidelijke afname naar onzin.
De regulatorische hoek
Europese regelgevers begrijpen dit probleem beter dan Amerikaanse techbedrijven willen toegeven.
De EU AI Act schrijft niet alleen nauwkeurigheid voor. Het schrijft verklaarbaarheid en controleerbaarheid voor. Je moet uitleggen waarom je AI een specifieke beslissing nam. Je moet bewijzen dat het correct werkt.
Hoe bewijs je dat een systeem correct werkt wanneer zijn betrouwbaarheid exponentieel afneemt met redeneerdiepte?
Dat kan niet.
Dit is waarom GDPR Artikel 22's recht op uitleg en de transparantie-eisen van de EU AI Act fundamenteel constraint-gebaseerde benaderingen bevoordelen. Wanneer een beslissing het resultaat is van constraint satisfaction, kun je het uitleggen. Hier is constraint A, constraint B, constraint C. Allemaal voldaan. Output volgt logisch.
Wanneer een beslissing de output is van 50 probabilistische operaties, elk de onzekerheid van de laatste vergrotend? Dat kun je niet uitleggen. Je kunt het niet eens betrouwbaar reproduceren.
Dit is geen compliance-last. Dit is wiskunde die marketingclaims inhaalt.
De zakelijke implicatie
Hier is wat exponentiële foutafname betekent voor AI in het bedrijfsleven:
Simpele taken: Single-step operaties werken prima. Classificatie, basis vraagbeantwoording, simpele retrieval. 98% nauwkeurigheid is hier echt nuttig.
Gemiddelde complexiteit: Multi-step maar begrensde operaties zijn riskant. Je kunt waarschijnlijk 5-10 stappen aan als je voorzichtig bent. Maar je nadert de drempel waar fouten sneller opstapelen dan waarde wordt gecreëerd.
Hoge complexiteit: Diepe redeneerketens, agent workflows, multi-hop queries zijn wiskundig onhaalbaar met floating-point probabilistische benaderingen. Het systeem zal falen. Het is geen vraag van of, maar wanneer.
Dit verklaart waarom 95% van de enterprise AI-pilots faalt. Bedrijven proberen problemen op te lossen die 20, 50, 100 redeneerstappen vereisen met systemen die onbetrouwbaar worden na 11.
De wiskunde geeft niet om je use case. Het geeft niet om je budget. Het geeft niet om je ambitieuze roadmap. (0,98)ⁿ gaat naar nul ongeacht intenties.
De weg vooruit
We hebben het probleem geïdentificeerd. Exponentiële foutaccumulatie maakt floating-point neurale netwerken ongeschikt voor multi-step redeneren. De wiskunde is duidelijk. De productiemislukkingen zijn gedocumenteerd. De economische kosten zijn meetbaar.
De oplossing is even duidelijk: we hebben AI-systemen nodig die niet lijden onder exponentiële afname.
Constraint-gebaseerde AI biedt precies dit. Deterministische operaties. Gekristalliseerde constraints. Geen geaccumuleerde fout. Multi-hop redeneren zonder degradatie.
Dit is niet speculatief. Dit is wat we bij Dweve bouwen. Core biedt het binaire algoritme-framework. Loom implementeert 456 constraint-gebaseerde experts. Nexus biedt de multi-agent orchestratielaag. Elke operatie is wiskundig exact. Elke beslissing is traceerbaar naar specifieke constraints.
Het resultaat: AI-systemen die betrouwbaar blijven over honderden redeneerstappen. Niet 98% nauwkeurig in stap 1 en 36% nauwkeurig in stap 50. 100% nauwkeurig in stap 1 en stap 50 en stap 500.
Totdat de constraint-grens wordt bereikt, is betrouwbaarheid absoluut. Bij de grens is falen detecteerbaar. Het systeem weet wanneer het niet weet. Dat is geen bug. Dat is veiligheid.
Wat je moet onthouden
- Foutaccumulatie is exponentieel, niet lineair. Elke multi-step AI-operatie vergroot vorige fouten. 98% nauwkeurigheid per stap wordt 13% succes na 100 stappen.
- De drempel van nutteloosheid komt snel. Bij 98% nauwkeurigheid per stap zakken systemen onder 50% betrouwbaarheid na slechts 34 stappen. Voor praktische doeleinden ligt de drempel rond 11 stappen voor 90% betrouwbaarheid.
- Hallucinaties ballen op, ze propageren niet alleen. LLM's committeren zich te sterk aan vroege fouten en genereren aanvullende valse claims om ze te rechtvaardigen. Foutaccumulatie versnelt voorbij pure exponentiële afname.
- Productie-faalpercentages zijn catastrofaal. 95% van de generatieve AI-pilots faalt om productie te bereiken. 95% van de AI-agents faalt in deployment. Dit is geen slechte engineering. Dit is slechte wiskunde.
- Verificatie lost het probleem niet op. Verificatiestappen toevoegen voegt meer operaties toe met hun eigen foutprobabiliteiten. Je bestrijdt exponentiële afname met meer exponentiële afname.
- Constraint-gebaseerde systemen lijden niet onder exponentiële afname. Deterministische operaties en gekristalliseerde constraints betekenen dat stap 100 net zo betrouwbaar is als stap 1. Geen geaccumuleerde fout. Geen grijze zones.
- Europese regelgeving bevoordeelt wiskundige zekerheid. De verklaarbaarheid en controleerbaarheidseisen van de EU AI Act sluiten aan bij constraint-gebaseerde benaderingen en conflicteren met probabilistische black boxes.
De kern
Het 98%-probleem is echt, meetbaar, en vernietigt AI-projecten in elke sector. Wanneer elke operatie 2% van de waarheid verliest en fouten opstapelen over redeneerstappen, zijn systemen wiskundig gegarandeerd te falen.
Dit gaat niet over betere trainingsdata of slimmere prompts. Dit gaat over de fundamentele wiskunde van floating-point neurale netwerken versus constraint-gebaseerd redeneren.
Traditionele benaderingen volgen exponentiële afname: (0,98)ⁿ nadert nul naarmate n toeneemt. Hier is geen weg omheen. Het zit ingebakken in de wiskunde.
Constraint-gebaseerde benaderingen werken anders. Deterministische operaties. Gekristalliseerde constraints. Stap 500 is net zo betrouwbaar als stap 1. De foutcurve is een stapfunctie, geen exponentiële afname.
De industrie wordt langzaam wakker voor deze realiteit. Bedrijven geven honderden miljoenen uit aan systemen die wiskundig gegarandeerd zijn te falen. Het 95% productie-faalpercentage is niet mysterieus. Het is voorspelbaar.
Europese AI-bedrijven die bouwen op constraint-gebaseerde fundamenten zijn niet in het nadeel. Ze lossen het echte probleem op terwijl Amerikaanse bedrijven verdubbelen op gebrekkige wiskunde.
De toekomst van betrouwbare AI is niet meer compute, grotere modellen, of slimmere prompts. Het zijn constraint-gebaseerde systemen met gekristalliseerde constraints. Wiskundige zekerheid in plaats van statistische betrouwbaarheid. Bewijsbare betrouwbaarheid in plaats van exponentiële afname.
Wil je AI die niet afneemt naar onzin? Dweve Core's constraint-gebaseerde framework biedt deterministisch multi-step redeneren. Geen exponentiële foutaccumulatie. Geen hallucinatie-sneeuwballen. Gewoon wiskunde die werkt. Schrijf je in voor onze wachtlijst.
Tags
Over de auteur
Harm Geerlings
CEO & Co-Founder (Product & Innovatie)
Bouwt aan de toekomst van AI met binaire netwerken en constraint reasoning. Richt zich op efficiënte, transparante en toegankelijke AI.