Van 4.000 naar een miljoen — hoe AI's geheugen exploderende

Een van de stillere maar indrukwekkendste ontwikkelingen in AI is hoeveel tekst een model tegelijk kan verwerken. In 2020 een paar bladzijden. In 2026 tien boeken tegelijk. Die getallen klinken abstract. Wat ze in praktijk betekenen, is dat AI-gebruik er fundamenteel anders uit gaat zien.

Bibliotheek met boeken — metafoor voor uitgebreide AI-context

Toen GPT-3 in 2020 werd gelanceerd, kon het ongeveer 3.000 woorden verwerken in één prompt plus antwoord. Dat was minder dan een kort hoofdstuk. Het voelde toen als een enorm getal — veel meer dan eerdere modellen konden. Mensen bouwden hele toepassingen binnen deze limiet.

In april 2026 kan Claude Opus 4.7 werken met 1 miljoen tokens context. Dat is ongeveer 750.000 woorden. Tien boeken. Een hele codebase. Een jaar aan e-mails. Een PhD-dissertatie plus al zijn bronnen. Een film-transcript met alle gerelateerde scripts.

Die sprong — van 3.000 woorden naar 750.000 in zes jaar — is een van de stilste maar meest impactvolle ontwikkelingen in AI. Hij verandert wat je met AI kunt doen op manieren die niet meteen zichtbaar zijn voor wie alleen chatbot-gebruikt, maar die diepgaand zijn voor wie AI professioneel inzet.

Wat context window is

Een taalmodel werkt met "context" — de tekst die het op een specifiek moment kan verwerken. Dit bevat: je prompt (de vraag of instructie die je stelt), de geschiedenis van het gesprek tot nu toe, en de output die het genereert. Alles samen moet binnen de context-grens passen.

Als je een kort gesprek hebt — een paar vragen, korte antwoorden — ben je nergens in de buurt van de grens. Maar als je een lang document uploadt om te laten analyseren, of een uitgebreide gesprek voert, of een complex onderzoeksproject doet, dan telt elke token.

De token-grens is niet helemaal hetzelfde als woorden. Eén token is ongeveer 0,75 woord in Engels, iets minder in Nederlands (onze woorden zijn vaak langer). Dus 1.000.000 tokens is grofweg 750.000 Engelse woorden.

De evolutie

De getallen laten de ontwikkeling zien:

  • GPT-1 (2018): 512 tokens — enkele honderden woorden.
  • GPT-2 (2019): 1.024 tokens — ongeveer een pagina.
  • GPT-3 (2020): 4.096 tokens — een kort hoofdstuk.
  • GPT-4 (2023): 32.000 tokens (standaard), later 128.000 — een kort boek.
  • Claude 2 (2023): 100.000 tokens — een normaal boek.
  • Gemini 1.5 Pro (2024): 1.000.000 tokens (met experimenten tot 10 miljoen).
  • Claude Opus 4.7 (2026): 1.000.000 tokens standaard.
  • Verschillende modellen in 2026: tot 2-10 miljoen tokens experimenteel.

Deze getallen vertegenwoordigen een toename met factoren 2.000 in zes jaar. Dat is vergelijkbaar met Moore's Law-achtige exponentiele groei, maar in een veel kortere tijdspanne.

Waarom dit technisch moeilijk is

De core van moderne taalmodellen is de "attention"-laag. Elk token in de context moet "kijken" naar elk ander token. Dat is kwadratisch — als je de context verdubbelt, verviervoudig je de rekenkosten.

Voor kleine contexts is dit geen probleem. Voor 1 miljoen tokens zou naïeve attention 1 biljoen rekenstappen vereisen voor elke laag van het model. Dat is, zelfs met moderne hardware, onhandelbaar.

Dus zijn er slimmere technieken ontwikkeld.

Sparse attention. Niet elk token kijkt naar elk ander token. Alleen naar een subset — bijvoorbeeld recente tokens plus enkele strategisch gekozen verre tokens. Reduceert complexiteit aanzienlijk, met matige verlies in model-kwaliteit.

Ring attention. Distribueert attention-berekeningen over meerdere GPU's, zodat geen enkele GPU de volledige N×N-matrix hoeft te berekenen. Schaalt efficiënt met hardware.

State-space-modellen (Mamba). Alternatief voor transformers met lineaire complexiteit. Sommige nieuwe modellen gebruiken hybride architecturen die transformer-sterkte combineren met state-space-efficiëntie.

Flash attention. Optimaliseert memory-toegang in GPU's zodat de kwadratische complexiteit minder pijnlijk is in de praktijk.

Deze innovaties samen maken lange context praktisch haalbaar. Zonder hen zou 1 miljoen tokens context gewoon te duur zijn om commercieel aan te bieden.

Wat het mogelijk maakt

Lange context opent toepassingen die voorheen fragmented of onmogelijk waren.

Codebase-analyse. Een volledig software-project — vaak honderdduizenden regels code over honderden bestanden — kan in één context worden geplaatst. De AI ziet alle relaties, alle afhankelijkheden, alle context. Dat maakt high-level architectuur-analyse en refactoring realistisch.

Juridisch werk. Een juridisch contract plus alle referenties, voorgangers, en toepasselijke jurisprudentie kan in één keer worden beoordeeld. Dat was voorheen onmogelijk — je moest chunks verwerken en hopen dat belangrijke verbanden niet verloren gingen.

Onderzoek. Een onderzoeker die een literatuuroverzicht wil, kan tientallen papers tegelijk uploaden. De AI kan thema's identificeren, contradicties vinden, synthetiseren op een manier die over grenzen van individuele papers heen gaat.

Lange gesprekken. Een ChatGPT-gesprek dat uren duurt, hoeft niet te worden afgebroken. Context blijft behouden. De AI onthoudt wat eerder is besproken, kan erop terugkomen, bouwt voort.

Volledige boeken analyseren. Een literaire criticus, schrijver, of onderzoeker kan een hele roman in context laden en vragen stellen over thema's, karakter-ontwikkeling, stijl. Dat was met 4K-context alleen door chunks denkbaar — nu in één geheel.

Multi-document-onderzoek. Investigatieve journalistiek, rechterlijk onderzoek, business intelligence — situaties waar je enorme hoeveelheden heterogeen materiaal moet doorgronden. AI met lange context is hier bijzonder waardevol.

Wat niet automatisch beter wordt

Langere context betekent niet automatisch betere kwaliteit. Er zijn belangrijke subtiliteiten.

Lost in the middle. Onderzoekers hebben gevonden dat modellen soms moeite hebben met informatie mid-context. Ze onthouden wat aan het begin staat (recency bij de eerste lezing) en wat aan het einde staat (recency-bij-aandacht). Maar details in het midden kunnen wegvallen. Dit is een meetbaar patroon.

Verdunde aandacht. Met meer context is er meer concurrentie om aandacht. Een klein detail kan tussen ruis verloren raken. Je moet soms specifiek prompten om ervoor te zorgen dat de AI opletten op wat jij belangrijk vindt.

Kosten per query. Lange contexts kosten veel meer om te verwerken. Een 1M-token query aan Claude Opus kost substantieel meer dan een 10K-token query. Voor commerciële toepassingen telt dat op.

Kwaliteit vs. kwantiteit. Soms is een zorgvuldige 20K-token prompt beter dan een onzorgvuldige 500K-token prompt. Context is alleen nuttig als het relevant en goed georganiseerd is.

De strategische kant

De lange-context-race heeft strategische dimensies. Gemini van Google heeft specifiek op lange context geconcurreerd — op een punt verklaarden ze 10 miljoen tokens als experimentele mogelijkheid. Claude heeft gevolgd. GPT heeft het minder agressief gedaan, focussend op andere dimensies.

Voor gebruikers betekent dit verschillende productpositioneringen. Heb je specifiek lange-context-nodig — code-assistentie, juridisch werk, research? Dan is een model met 1M+ tokens passender. Voor snelle chats is het minder relevant.

Dat heeft invloed op enterprise-AI-keuzes. Grote bedrijven die AI integreren met hun interne documenten kiezen steeds meer voor lange-context-modellen, ongeacht of de specifieke taak dat vereist — voor de mogelijkheid.

De ongemakkelijke vraag over vergeten

Er is een subtiele filosofische kant aan context-groei. In traditioneel geheugen is vergeten een kenmerk, niet een bug. Wat vergeten wordt, is typisch minder belangrijk. Onze hersenen prioriteren wat we onthouden.

Met onbeperkt context kan AI in principe alles onthouden. Elk gesprek dat ooit plaatsvond, elke e-mail, elke interactie. Dat heeft potentieel — een AI-assistent die jou werkelijk kent. Maar ook zorgen — een AI die nooit vergeet dat je iets doms zei op een slechte dag vijf jaar geleden.

In praktijk vergeten AI-systemen wel (door commerciële keuzes — gesprekken worden niet per definitie bewaard). Maar de technische mogelijkheid tot "onthoud alles" is er, en wordt onderzocht voor specifieke toepassingen (persoonlijke AI-assistenten met langdurig geheugen).

Dat opent vragen over privacy, over welke AI we wensen, over hoe onze digitale selves eruit moeten zien. Niet abstracte vragen meer — concrete product-keuzes.

Wat komt

Voor 2027-2030 zien we waarschijnlijk:

  • Verdere uitbreiding van context — 10M+, mogelijk 100M-tokens-modellen experimenteel.
  • Betere kwaliteit binnen lange context (minder lost-in-middle-effect).
  • Efficiëntere architecturen die lange context goedkoper maken.
  • Persoonlijke AI-assistenten met blijvend geheugen over jaren.
  • Nieuwe toepassingen die specifiek lange context vereisen (video-analyse, complex onderzoek, enterprise-wijde data-integratie).

Op langere termijn vervaagt de grens tussen "context" en "kennis" mogelijk. Als een AI je hele persoonlijke geschiedenis kan onthouden, je hele bedrijfsdata kan verwerken, je hele onderzoeksveld kan begrijpen — wat is dan nog het verschil tussen "per-query-context" en "kennis"? De conceptuele grenzen die we in 2020 hadden, zijn in 2026 al aan het schuiven.

De praktische les

Voor gebruikers in 2026 is de praktische les eenvoudig: voor de meeste alledaagse vragen is lange context overbodig. Voor specifieke complex werk — code, juridisch, onderzoek — is een model met lange context een transformatieve tool. Kies met intentie.

Voor ontwikkelaars bouwend op AI: lange context vraagt niet alleen meer rekenkracht maar ook slimmer prompt-ontwerp. Hoe organiseer je 500K tokens zodat de AI ze effectief kan gebruiken? Dat is een nieuwe skill, vaak onderschat.

Voor de sector in algemene zin: lange context is een van de onderwaardeerde verbeteringen van de afgelopen jaren. Meer aandacht gaat naar parameter-counts en reasoning-modellen. Maar context-uitbreiding heeft misschien net zoveel impact op wat we met AI kunnen doen.

Van 4.000 naar 1.000.000. Duizend keer groter. Een stille revolutie in wat in ons AI-geheugen past — en wat daardoor mogelijk wordt.

Niet de luidste AI-trend. Wel een van de belangrijkste.

Veelgestelde vragen

Wat gebeurt er boven de context-grens?+

Oudere delen worden afgesneden. Het model 'vergeet' wat aan het begin stond toen de limiet wordt bereikt. Daardoor is een duur gesprek vaak gelimiteerd op een bepaalde lengte; daarna moet je herstarten of een samenvatting gebruiken.

Kunnen modellen écht een heel boek onthouden?+

Technisch ja, maar retrieval-kwaliteit varieert. Onderzoek heeft laten zien dat modellen soms 'falen' om specifieke details mid-context op te roepen ('lost in the middle'-effect). Langere context is niet perfecte memory.

Waarom kost langere context meer?+

Attention-mechanismen hebben kwadratische complexiteit — verdubbel de tokens, verviervoudig de rekening. Nieuwe architecturen verminderen dit, maar lange context blijft duur.

Is langere context altijd beter?+

Nee. Voor veel taken is korte context voldoende. Lange context is vooral waardevol voor specifieke toepassingen — documentanalyse, codebases, onderzoek. Voor een simpele vraag is 200.000 tokens context verspilling.

Deel dit artikel
X / Twitter ↗ Facebook ↗ Mail ↗
Laten we praten

Vragen die je eigen project betreffen?

Elke call begint met luisteren. Vertel waar je staat, dan denken we samen verder.

Binnen 24u een reactie. Altijd persoonlijk.