Scaling laws — de wetten die AI-onderzoekers geloven, en waarom dat telt

De hele miljarden-industrie van AI wedt op een paar grafieken. Die grafieken zeggen dat modellen voorspelbaar beter worden met meer data en rekenkracht. Als dat klopt blijven ze verbeteren. Als het niet klopt, staat een gigantische bubbel op het punt te knappen.

Wetenschappelijke grafiek met opkomende lijnen — metafoor voor scaling laws

Er is een genre grafieken dat terugkomt in vrijwel elke serieuze AI-publicatie sinds 2020. Op de x-as: compute, meestal in miljoenen rekenoperaties, uitgezet op een logaritmische schaal die zes of zeven ordes van grootte omspant. Op de y-as: prestatie — meestal "loss", een wiskundige maat voor hoe goed het model voorspelt. De datapunten vormen een opvallend schone lijn: meer compute, lagere loss, lineair op log-schaal.

Deze grafieken heten scaling laws, en ze zijn fundamenteler voor het moderne AI-landschap dan de meeste mensen beseffen. Ze bepalen waar miljarden aan investering naartoe gaan. Ze sturen de strategische keuzes van de grootste AI-bedrijven. Ze vormen de basis waarop hele industrieën zijn gebouwd.

En ze zijn geen wetten.

Wat scaling laws beweren

De centrale stelling van scaling laws: als je een taalmodel traint, hangen zijn prestaties voorspelbaar af van drie factoren: aantal parameters, hoeveelheid trainingsdata, en hoeveelheid compute. Verdubbel één van die, gaande de andere twee mee, en je prestatie verbetert in een voorspelbare mate.

Het woord "voorspelbaar" is hierbij opvallend. Niet "onvoorspelbaar beter". Gemeten over zes ordes van grootte — van minuscule modellen tot GPT-4-achtige kolossen — volgen de prestaties een log-lineaire curve met dergelijke precisie dat onderzoekers er vertrouwen in kregen voor extrapolaties.

De eerste grote paper hierover was Kaplan et al. uit 2020, gepubliceerd door OpenAI. Titel: Scaling Laws for Neural Language Models. Het vestigde het veld en introduceerde terminologie die nu standaard is.

Twee jaar later publiceerde DeepMind Training Compute-Optimal Large Language Models — het Chinchilla-paper. De belangrijke boodschap: Kaplan had het grotendeels goed, maar zijn aanbeveling over hoe compute te verdelen tussen modelgrootte en data was verkeerd. Waar Kaplan suggereerde dat modelgrootte dominant was, liet Chinchilla zien dat model en data in balans moeten groeien. Voor elke parameter die je toevoegt, moet je navenant meer data toevoegen om optimale prestaties te krijgen.

Dit leek een technisch detail. Het had enorme strategische gevolgen.

De Chinchilla-revolutie

Voor Chinchilla was de heersende wijsheid: maak modellen zo groot mogelijk. Meer parameters = beter. GPT-3 was 175 miljard parameters maar werd getraind op "slechts" 300 miljard tokens — veel te weinig volgens Chinchilla-logica voor een model van die grootte. Chinchilla zelf was 70 miljard parameters, getraind op 1,4 biljoen tokens, en versloeg GPT-3 op de meeste benchmarks.

De implicatie: modellen waren de afgelopen jaren consistent ondertrained. Ze hadden meer data nodig, minder parameters voor optimale compute-efficiency. Dat heeft de strategische calculus van AI-labs veranderd. Llama 3, een van de meest succesvolle open-source modellen, is getraind volgens Chinchilla-principes op 15 biljoen tokens. GPT-4 vermoedelijk ook.

Scaling laws dicteren dus niet alleen of je moet schalen, maar hoe je compute moet verdelen. Voor elke dollar die je uitgeeft, moet de verhouding tussen parameters en data precies kloppen om het meeste rendement te krijgen. Een klein verschil in deze verhouding kan een miljard dollar waard zijn in uiteindelijke modelkwaliteit.

Waarom ze werken is onduidelijk

Een van de meest opmerkelijke dingen aan scaling laws is dat niemand goed weet waarom ze werken. Er bestaat geen solide theorie. Er zijn hypothesen — over hoe neurale netwerken leren, over statistische eigenschappen van grote datasets, over de structuur van natuurlijke taal. Maar een fundamentele verklaring waarom de loss-compute curve zo'n precieze log-lineaire vorm aanneemt, is er niet.

Dat is normaal voor empirische wetenschap — we observeren voordat we verklaren. Maar het betekent ook dat we niet weten wanneer ze zouden kunnen breken. Een natuurwet zoals de zwaartekracht heeft een theoretische basis die voorspelt wanneer ze geldt. Scaling laws zijn patronen, en patronen kunnen stoppen zonder waarschuwing.

Waarom het economisch ertoe doet

Bij elke training-run die een frontier-lab doet, gaat het om honderden miljoenen tot miljarden dollars. De beslissing om dat uit te geven rust vaak op scaling law extrapolaties. "Als we tien keer meer compute inzetten, verwachten we dit soort prestatieverbetering, en die prestatie vertaalt zich in dit soort commerciële waarde." Als de extrapolatie klopt, is het een rationele investering. Als ze breekt, zijn de afgeschreven kosten enorm.

De hele investeerderslogica rond OpenAI, Anthropic en andere labs rust hierop. Investors zetten miljarden in niet omdat ze vertrouwen hebben in specifieke producten, maar omdat ze vertrouwen hebben dat schalen blijft werken. Als scaling laws stoppen, verandert dat verhaal onmiddellijk.

Signalen van breuk?

Er bestaat al een tijdje debat of we diminishing returns zien. Van GPT-3 naar GPT-4 was de sprong voelbaar in kwalitatieve capaciteiten. Van GPT-4 naar wat GPT-4.5 werd genoemd, was de sprong merkbaar kleiner — beter in details, maar geen transformatieve nieuwe vaardigheden. Dat is ofwel normaal (we zitten op de vlakkere delen van de curve) of een teken dat de curve buigt.

OpenAI heeft intern, volgens lekken uit 2024, een "Orion"-trainingsrun gedaan die teleurstellend verliep — minder verbetering dan de Kaplan-scaling voorspelde. Anderen rapporteren vergelijkbare ervaringen. Of dit het einde is van de ouderwetse scaling of een bijstelling van de curves (verschillende ordes van grootte kunnen verschillende hellingen hebben), is onderwerp van actief debat.

Interessant genoeg is dit precies de reden dat test-time compute (reasoning-modellen zoals o1) zo'n grote rol hebben gekregen. Als pre-training scaling afneemt in rendement, zoek je naar andere assen om prestaties op te voeren. Denktijd per query blijkt zo'n as — en ze volgt haar eigen scaling laws, die onderzoekers nu zijn aan het uitwerken.

Twee mogelijkheden

De toekomst van AI kan grofweg twee paden opgaan, afhankelijk van wat er met scaling laws gebeurt.

Pad één: ze blijven gelden (met aanpassingen). Modellen blijven schaalbaar in verschillende dimensies — parameters, data, compute, test-time denktijd, multimodaliteit. De curves buigen hier en daar maar leveren voorspelbare vooruitgang over decennia. De huidige investeringen zijn gerechtvaardigd.

Pad twee: ze breken fundamenteel. We naderen een plateau waar extra compute geen proportionele verbeteringen meer oplevert. Nieuwe architectuur-ideeën zijn nodig om door te breken. De investeringen die nu gedaan worden op basis van oude scaling-aannames zijn deels verkeerd. Een shakeout in de industrie volgt.

Welk pad werkelijkheid wordt, weten we pas als we er zijn. De curves zijn empirisch — we kunnen ze alleen ex post verifiëren.

Waar je geloof zit, weet je niet altijd zelf

Wie in 2026 in de AI-industrie werkt of ermee werkt, leunt — misschien onbewust — op een bepaalde aanname over scaling laws. Zakelijke plannen die aannemen dat AI over drie jaar veel slimmer is, nemen stilletjes aan dat schalen blijft werken. Academische carrières die inzetten op het bestuderen van wat volgende-generatie-modellen kunnen, doen hetzelfde. Investeerders, regelgevers, beleidsmakers — allemaal hebben ze impliciete modellen over hoe AI zich ontwikkelt, en die modellen rusten in laatste instantie op deze curves.

Het veld noemt ze "laws" omdat ze consistent hebben gewerkt. Het is goed om te onthouden dat ze eigenlijk "regelmatigheden" zijn — empirische patronen die morgen kunnen veranderen. De hele zakelijke en culturele werkelijkheid rond AI is in belangrijke mate gebouwd op de hoop dat dat niet gebeurt.

Of die hoop gerechtvaardigd is, is misschien de belangrijkste onzekere vraag in de technologie op dit moment.

Veelgestelde vragen

Zijn scaling laws echte wetten zoals in de fysica?+

Nee, het zijn empirische regelmatigheden. Ze kloppen verrassend precies over zes ordes van grootte, maar er is geen theoretische reden dat ze eeuwig moeten blijven gelden. Onderzoekers zijn altijd op zoek naar signalen dat ze beginnen te breken.

Wat is het verschil tussen Kaplan en Chinchilla?+

Beiden onderzochten hoe model-prestaties afhangen van compute. Kaplan (OpenAI, 2020) concludeerde dat grotere modellen belangrijker zijn dan meer data. Chinchilla (DeepMind, 2022) liet zien dat dat fout was — voor optimale prestaties moeten modelgrootte en data gebalanceerd groeien.

Waarom investeert de industrie zoveel op basis hiervan?+

Omdat scaling laws voorspelbaarheid geven. Een investeerder die een miljard in een training-run stopt, wil weten wat het rendement is. Scaling laws maken dat te extrapoleren — mits ze blijven gelden.

Zijn er tekenen dat ze breken?+

Er zijn debatten. Sommige onderzoekers wijzen op recente modellen die minder verbeteren dan verwacht (sommigen noemen dit 'diminishing returns'). Anderen stellen dat de curves gewoon opnieuw moeten worden ingeschat met nieuwe architecturen als reasoning-modellen. Consensus: onduidelijk.

Deel dit artikel
X / Twitter ↗ Facebook ↗ Mail ↗
Laten we praten

Vragen die je eigen project betreffen?

Elke call begint met luisteren. Vertel waar je staat, dan denken we samen verder.

Binnen 24u een reactie. Altijd persoonlijk.