1,76 biljoen draaiknopjes — wat er letterlijk in een taalmodel staat
GPT-4 heeft volgens geruchten 1,76 biljoen parameters. Niemand weet precies wat die parameters allemaal doen. Dat tweede feit is zowel fascinerend als onthutsend.
Er is een getal dat aan elk modern taalmodel hangt. GPT-3 had er 175 miljard. Llama 3.1 heeft er 405 miljard. GPT-4 heeft er naar verluidt 1,76 biljoen. Claude Opus 4 ergens in dezelfde buurt, misschien groter. Die getallen staan voor "parameters", en ze worden vaak genoemd alsof iedereen weet wat ze betekenen.
Meestal niet. Het is niet het soort cijfer waar je een gevoel bij hebt. Wat is één biljoen draaiknoppen in een machine? Als je er één per seconde zou bekijken, twaalf uur per dag, zou je na ruim 68.000 jaar rond zijn. En dan heb je nog niet naar ze gekeken in context — want elke knop heeft pas betekenis in combinatie met alle andere.
Wat een parameter is
Een parameter is een getal dat het gedrag van het netwerk meebepaalt. In de simpelste vorm zijn dat twee soorten: gewichten (die bepalen hoeveel signaal er tussen twee neuronen doorgaat) en biases (die bepalen hoe makkelijk een neuron überhaupt "vuurt"). Verreweg de meeste parameters zijn gewichten.
Bij de start van training staan alle parameters op willekeurige waarden. Het model doet niets zinnigs. Tijdens training wordt elke parameter triljoenen keren een klein beetje bijgesteld, tot het hele netwerk samen nuttig gedrag vertoont. Het eindresultaat is een enorm bestand met al die uitgebalanceerde getallen.
Dat bestand — "de gewichten" genoemd, in modelcontext — is het model. Al het andere eromheen is software die de gewichten gebruikt om voorspellingen te doen. De intelligentie, voor zover het woord past, zit opgesloten in die getallen.
Wat "meer parameters" echt betekent
Het is verleidelijk om te denken: meer parameters = slimmer. Dat is half waar. Er bestaat een sterke empirische correlatie, vastgelegd in wat onderzoekers scaling laws noemen. Als je je modelgrootte verdubbelt (en je trainingsdata en rekentijd navenant opschroeft), krijg je een meetbaar beter model. Over vele ordes van grootte blijkt dit lineair in een log-grafiek te verlopen.
Maar er zijn caveats. Een model met veel parameters maar weinig trainingsdata raakt overtrainhand — het onthoudt zijn voorbeelden in plaats van patronen te leren. Een model met veel parameters maar slechte data is slecht. Een model met een slim ontworpen architectuur kan met minder parameters hetzelfde bereiken als een grotere brute-force tegenhanger.
Daarom zie je tegenwoordig een dubbele trend. Aan de ene kant worden modellen groter (1 biljoen, 2 biljoen, wie weet). Aan de andere kant worden kleinere modellen efficiënter — Haiku 3.5 van Anthropic of GPT-4o mini presteren met een fractie van de parameters van hun grote broers soms verrassend goed op specifieke taken. De strijd gaat minder over de meeste knoppen dan over de beste combinatie.
De betekenisloosheid van afzonderlijke knoppen
Hier wordt het existentieel raar. Als je één parameter uit GPT-4 uitleest — zeg, gewicht #471.235.812 — krijg je een getal. Bijvoorbeeld -0.0271. Dat getal heeft in zichzelf geen enkele betekenis. Het verwijst naar niets, doet niets, betekent niets. Pas als tijdens een voorspelling alle miljarden gewichten samen worden ingezet, ontstaat er betekenis — en die betekenis is emergent, niet te herleiden tot individuele parameters.
Het is alsof je een lied in partituurvorm zou bekijken en één noot zou aanwijzen. Die noot is op zichzelf geen lied. Het lied bestaat alleen als alle noten in de juiste verhoudingen en volgorde geactiveerd worden. Een model is net zo: een constellatie, geen verzameling componenten.
Het onderzoek naar wat er in die constellatie gebeurt heet mechanistic interpretability en is een van de jonge maar snelgroeiende takken van AI-onderzoek. Anthropic publiceerde in 2024 een paper waarin ze in Claude bepaalde "features" wisten te isoleren — groepen parameters die samen reageerden op specifieke concepten. De Golden Gate Bridge. Sycophantic gedrag. Onveilige code. Maar zo'n feature is altijd een combinatie van duizenden parameters, nooit één of twee.
We kunnen dus zeggen dat er iets in het model zit. We kunnen niet zeggen waar precies.
Wat het praktisch betekent
Parametergrootte is niet alleen academisch. Ze bepaalt direct hoeveel GPU-geheugen het model nodig heeft (ongeveer 2 bytes per parameter bij 16-bit precisie, minder bij quantisatie). Llama 70B weegt grofweg 140 GB — dat past niet in een enkele consumer-GPU. GPT-4 past zelfs niet in één server, moet over tientallen chips worden verdeeld.
De prijs van een query aan een model hangt ook samen met grootte. Grotere modellen kosten meer stroom en meer rekentijd per token. Daarom is een query aan GPT-4 een paar cent en aan GPT-4o mini een fractie van een cent. En daarom experimenteren onderzoekers met "model routing" — kleine, goedkope modellen voor eenvoudige vragen, grote modellen alleen voor taken die het nodig hebben.
Terug naar het getal
1,76 biljoen parameters. Stel je ze voor als een muur van draaiknopjes. Zet twintig knoppen naast elkaar op een kast. Zet de kast zeven miljard keer op elkaar. Ergens op die muur zit een combinatie die, mits goed getraind, op je vraag "wat denk je van dit gedicht?" een intelligent antwoord kan geven.
Niemand heeft die combinatie ontworpen. Ze is ontstaan door voorbeelden, terugrekensommen, miljoenen kleine aanpassingen, weken van training op duizenden GPU's.
Wat er in een taalmodel staat, is dus letterlijk een muur van getallen. Wat daaruit naar voren komt — taal, redenering, gesprek — is niet meer terug te vertalen naar die getallen. We hebben iets gebouwd waarvan we de onderdelen kunnen tellen maar niet kunnen lezen.
En we laten het met ons praten.
Veelgestelde vragen
Is GPT-4 echt 1,76 biljoen parameters groot?+
OpenAI heeft dit nooit bevestigd. Het getal komt uit gelekte informatie via George Hotz in 2023 en werd later gedeeltelijk bevestigd door andere bronnen. Het is de beste gok, geen officiële specificatie. GPT-4 is waarschijnlijk een mixture of experts, waarbij per query ongeveer 280 miljard parameters actief zijn.
Betekent 10x meer parameters 10x slimmer?+
Nee. De schaal-returns zijn logaritmisch: om een merkbaar beter model te krijgen, moet je ongeveer 10x meer parameters hebben. Maar er speelt veel meer mee — trainingsdata, architectuur, fine-tuning. Een klein model met goede data kan beter presteren dan een groot model met ruwe data.
Kun je een model gewoon "uitlezen"?+
Technisch gezien ja: alle parameters staan in een bestand dat je kunt openen. Maar je krijgt dan miljarden getallen tussen ongeveer -1 en +1 te zien die geen afzonderlijke betekenis hebben. Pas als ze samen ingezet worden tijdens een voorspelling doen ze iets — en zelfs dan blijft het interpreteren moeilijk.
Waar staan die parameters opgeslagen?+
In "gewichtsbestanden" van tientallen tot honderden gigabytes. Llama 3 70B is ongeveer 140 GB. GPT-4 is naar schatting meer dan een terabyte. Om een model te draaien moet dat hele bestand in het GPU-geheugen passen — daarom zijn de grootste modellen alleen commercieel beschikbaar via API en niet lokaal te draaien voor de meeste gebruikers.