Geheugen in AI: Hoe modellen onthouden (en waarom ze vergeten)
AI heeft geen geheugen zoals wij dat hebben. Maar het moet context onthouden. Dit is hoe verschillende AI-systemen omgaan met geheugen, en waarom het belangrijk is.
De Geheugenillusie
Je chat met ChatGPT. Het onthoudt wat je drie berichten geleden zei. Reageert coherent. Behoudt context. Lijkt geheugen te hebben.
Dat heeft het niet. Niet echt. Niet zoals jij denkt.
AI-geheugen is fundamenteel anders dan menselijk geheugen. Begrijpen hoe het werkelijk werkt, wat het wel en niet kan, is belangrijk. Want de beperkingen zijn reëel. En vaak verrassend.
Wat AI-geheugen werkelijk is
AI-modellen hebben geen persistent geheugen zoals mensen. Ze hebben parameters (gewichten) die tijdens de training zijn geleerd, en ze hebben contextvensters voor het verwerken van invoer.
Dat is het. Twee soorten "geheugen", beide totaal verschillend van biologisch geheugen:
1. Parametrisch Geheugen (De Gewichten):
Tijdens de training leert het model patronen. Die patronen worden gecodeerd in miljarden gewichten. Dit is parametrisch geheugen. Kennis ingebakken in de modelstructuur.
Voorbeeld: Een taalmodel "weet" dat "Parijs de hoofdstad van Frankrijk is" omdat dat patroon in trainingsdata voorkwam. De kennis is gecodeerd in de gewichten. Niet opgeslagen als tekst. Niet opvraagbaar als een feit. Gewoon... gecodeerd als activeringspatronen.
2. Contextgeheugen (De Invoer):
Wanneer je het model gebruikt, geef je invoer. Het model verwerkt die invoer. Voor conversationele AI is je hele gespreksgeschiedenis onderdeel van de invoer. Dat is contextgeheugen.
Het model onthoudt je vorige berichten niet. Jij (of de applicatie) geeft ze opnieuw bij elk nieuw bericht. Het model verwerkt alles elke keer opnieuw. Het lijkt op geheugen. Het is eigenlijk herhaling.
Contextvensters (De Geheugenlimiet)
Contextgeheugen heeft een harde limiet: de grootte van het contextvenster.
Modellen kunnen slechts een vaste hoeveelheid tokens tegelijk verwerken. GPT-4: 8K of 32K tokens. Claude: 100K tokens. Llama: 4K-8K tokens.
Zodra je het contextvenster overschrijdt, kan het model letterlijk geen eerdere informatie meer zien. Het is weg. Vergeten. Niet omdat het model het vergat, maar omdat het niet in de invoer past.
Wat dit praktisch betekent:
Lange gesprekken overschrijden uiteindelijk het venster. De AI "vergeet" het begin. Spreekt zichzelf tegen. Verliest context. Geen bug. Een fundamentele architectonische beperking.
Applicaties lossen dit op door oude berichten af te kappen. Ze samen te vatten. Of ze gewoon te laten vallen. Je gesprek voelt continu. Onder de motorkap wordt informatie constant weggegooid.
Geheugenefficiëntie (Binair versus Zwevende-komma)
Geheugengebruik is belangrijk. Vooral op edge-apparaten. Binaire netwerken veranderen de vergelijking:
Zwevende-komma Modellen:
Elk gewicht: 16 bits (FP16) is standaard voor moderne AI. Miljarden gewichten. Reken maar uit:
1 miljard parameters × 16 bits = 2GB alleen voor gewichten. Plus activaties. Plus optimizer-status tijdens training. Geheugen explodeert.
Voor inferentie heb je nog steeds 2GB nodig voor een 1B parameter FP16-model. Edge-apparaten hebben moeite. Telefoons kunnen het niet aan. Compressie noodzakelijk.
Binaire Modellen:
Elk gewicht: 1 bit. Letterlijk. 16× minder geheugen dan FP16.
1 miljard parameters × 1 bit = 125MB. Past gemakkelijk op telefoons. Ingebouwde apparaten. IoT. Geheugenefficiëntie maakt overal implementatie mogelijk.
De Dweve Aanpak:
Binaire constraint-opslag. Elke constraint is een binair patroon. Enorme kennis in een kleine geheugenvoetafdruk. Loom's 456 expert constraint-sets passen in het werkgeheugen op standaard hardware.
Niet omdat we slim comprimeerden. Maar omdat binaire representatie fundamenteel efficiënter is voor logische relaties.
Wat je moet onthouden
- 1. AI-geheugen is geen menselijk geheugen. Gewichten coderen patronen. Contextvensters verwerken invoer. Geen van beide werkt zoals biologisch geheugen.
- 2. Contextvensters hebben harde limieten. Modellen kunnen letterlijk niet verder kijken dan hun venster. Informatie wordt weggegooid. Gesprekken worden afgekapt.
- 3. Geheugenefficiëntie varieert enorm. FP16: 2GB per miljard parameters. Binair: 125MB. 16× verschil. Maakt implementatie mogelijk of voorkomt deze.
- 4. "Onthouden" is vaak een illusie. Applicaties leveren gespreksgeschiedenis. Ophaalsystemen halen feiten op. Het model verwerkt alleen wat het krijgt.
- 5. Verschillende architecturen, verschillend geheugen. Transformers: gelijktijdige context. RNN's: sequentiële staat. Constraint-systemen: discrete relaties.
De Kern
AI-geheugen lijkt in niets op menselijk geheugen. Wij onthouden continu, updaten flexibel, halen betrouwbaar op. AI heeft parameters en contextvensters. Dat is het.
De illusie van geheugen komt van slimme engineering. Applicaties die context opnieuw aanleveren. Ophaalsystemen die feiten ophalen. Database-lookups die zich voordoen als herinnering.
Dit begrijpen helpt je effectief met AI te werken. De grenzen kennen. Binnen die grenzen werken. Geen mensachtig geheugen verwachten van fundamenteel verschillende systemen.
Binaire netwerken bieden geheugenefficiëntie. Constraint-systemen bieden betere kennisisolatie. Maar geen van beide lost het fundamentele probleem op: AI-geheugen is architectonisch, niet cognitief. Parameters en vensters, geen neuronen en synapsen.
Wil je geheugenefficiënte AI? Ontdek Dweve Loom. Binaire constraint-representatie. 456 expert-sets in werkgeheugen. Discrete logische relaties. De soort kenniscodering die geheugenbeperkingen respecteert.
Tags
Over de auteur
Marc Filipan
CTO & Co-Founder
Bouwt aan de toekomst van AI met binaire netwerken en constraint reasoning. Richt zich op efficiënte, transparante en toegankelijke AI.