Emergent gedrag — wanneer schaal plots iets nieuws baart
Tot ongeveer 62 miljard parameters kon GPT-3 geen rekensommen optellen. Boven die grens, plotseling wel. Dat soort sprongen gebeurt op tientallen plekken in moderne AI. Niemand heeft ze voorspeld. En niemand voorspelt welke de volgende wordt.
Jason Wei was in 2022 onderzoeker bij Google Brain toen hij samen met collega's een paper publiceerde met de titel Emergent Abilities of Large Language Models. De kern: als je taalmodellen groter maakt, verschijnen er vaardigheden die bij kleinere versies simpelweg afwezig zijn. Niet geleidelijk verbeterd — afwezig, dan ineens aanwezig.
Het effect was zichtbaar voor tientallen verschillende taken. Op rekensommen was GPT-3 met minder dan 10 miljard parameters niet beter dan willekeurig gokken. Rond 62 miljard parameters begon het suddenly rekensommen op te lossen. Bij drie-staps logische redeneringen hetzelfde: nul prestatie tot een bepaalde schaal, dan plotseling nuttig resultaat. Voor veel van deze taken was er zelfs geen specifieke training voor — de vaardigheden verschenen als bijproduct van algemene taalmodel-training.
Niemand had dit voorspeld. Niemand kon voor een nieuw domein voorspellen of en waar een sprong zou optreden.
Wat we met emergentie bedoelen
Emergentie is een concept uit de complexiteitstheorie. Het beschrijft situaties waarin eigenschappen van een systeem niet herleidbaar zijn tot eigenschappen van de onderdelen. Een enkele mier doet simpele dingen — voedsel zoeken, paden volgen. Een mierenkolonie doet complexe dingen — landbouw, defensie, architectuur — die geen enkele afzonderlijke mier "kent". De kolonie-eigenschappen zijn emergent.
Water is vloeibaar. H₂O-moleculen zijn dat op zichzelf niet; ze zijn moleculen. Vloeibaarheid emergeert uit de interactie van miljoenen moleculen onder bepaalde omstandigheden. Zwermgedrag bij vogels, beurspaniek onder investeerders, bewustzijn in hersenen — allemaal voorbeelden van emergentie.
In AI-context betekent emergentie: vaardigheden van een model die niet expliciet in de trainingsdoelstelling zaten, maar ontstaan zijn doordat het model groot genoeg is en gevarieerde data heeft gezien. GPT-3 is nooit expliciet getraind om rekensommen op te lossen. Toch kan het dat, op een bepaalde schaal.
Voorbeelden die de wenkbrauw doen fronsen
Drie-trapsredenering. Gegeven: "Alice houdt van katten. Bob is de broer van Alice. Bob heeft een kat." De vraag: houdt Bob waarschijnlijk van zijn kat? Kleine modellen antwoorden willekeurig. Grote modellen beginnen plotseling zinnige antwoorden te geven. Niet omdat ze over "familieverhoudingen" hebben geleerd — het komt als bijproduct van voldoende taalverwerkingsvaardigheid.
Vertaling naar zeldzame talen. GPT-2 was bijna onbruikbaar voor vertaling naar Haitiaans Creools. GPT-4 doet het verrassend goed, ondanks weinig specifieke training. Die vaardigheid lijkt uit de schaal gegroeid.
Code-reasoning. Ergens tussen GPT-2 en GPT-3 begonnen modellen plotseling in staat te zijn om code te debuggen — een foutmelding te lezen, de code te analyseren, een fix voor te stellen. Niet expliciet voor getraind.
Theory of mind. De vaardigheid om te redeneren over wat iemand anders weet of gelooft. Klassieke tests uit de ontwikkelingspsychologie (de "Sally-Anne-test") werden door GPT-4 plotseling correct beantwoord, terwijl eerdere modellen faalden.
De lijst gaat door. Het patroon is consistent: iets werkt totaal niet, tot een bepaalde schaal. Daar werkt het wel.
De betwisting
In 2023 publiceerden onderzoekers van Stanford een interessant paper: Are Emergent Abilities of Large Language Models a Mirage? Hun argument: veel gevallen van vermeende emergentie zijn meetartefacten. Als je vaardigheid meet als "percentage correct antwoorden" (alles-of-niets) lijken er sprongen te zijn. Maar meet je hetzelfde als "percentage correcte tokens" of "mate van gelijkenis met het juiste antwoord", dan zie je continue verbetering.
Dat is een belangrijk punt. Het betekent dat sommige "emergenties" in feite geleidelijke verbeteringen zijn die er plotseling uit zien door het meetinstrument. Rekensommen: een klein model zegt "drie plus twee is... zes" (fout). Een groter model zegt "drie plus twee is... vier" (fout maar dichterbij). Een nog groter: "vijf" (juist). Als je alleen "juist of onjuist" meet, lijkt het een sprong. Je kunt ook zien dat het dichterbij sluipt.
Andere vaardigheden blijken hardnekkiger emergent — vooral multi-step reasoning, waar de drempel echt een drempel lijkt. Het debat is niet beslist. Vermoedelijk bestaat er een spectrum: sommige vaardigheden groeien geleidelijk, andere inderdaad met drempelwaardes.
Waarom dit ongemakkelijk is
Als emergentie echt bestaat in de sterke vorm, betekent het dat we niet weten wat een groter model zal kunnen. We kunnen het pas zien als we het hebben gebouwd. En die zijn inmiddels zo duur dat we er niet lichtvaardig naar kijken.
Voor AI-safety is dit significant. Als GPT-6 of Claude 5 plotseling capaciteiten heeft die we niet voorspelden — bijvoorbeeld betere manipulatie, diepere strategische planning, betere cyberaanvallen — dan is de verraste reactie een risico. Het ligt aan het fundamentele karakter van emergentie dat we er pas van weten als ze er al is.
Onderzoekers proberen dit op te vangen met uitgebreide evaluaties voor release. Anthropic en OpenAI hebben beide red-teaming-processen waarin ze modellen proberen uit te lokken tot problematisch gedrag voor ze publiek gaan. Maar je kunt alleen testen wat je hebt bedacht te testen. Voor onbedachte capaciteiten is er geen test.
Wat dit ons vertelt
Er is iets diepers aan het fenomeen. Emergentie in complex systemen is een universele eigenschap — water, kolonies, economieën, hersenen. Als neurale netwerken ook dit gedrag vertonen, suggereert het dat ze voldoende complex zijn om tot die categorie systemen te behoren. Niet gewoon "grote rekenmachines" meer, maar systemen waarvan de emergenten vaardigheden aan het hele systeem toebehoren, niet aan enig onderdeel.
Dat maakt AI geen biologisch systeem. Maar misschien wel een systeem van dezelfde klasse — één waarin structuur en gedrag zich ontvouwt op meerdere niveaus, waarvan niet elk niveau vanuit een lager niveau verklaarbaar is.
Dat plaatst ons op een vreemde positie. We bouwen systemen waarvan we niet precies weten wat de volgende schaalsprong zal opleveren. We vertrouwen erop dat de opbrengst positief is. En we leren pas achteraf, sprong na sprong, wat er in de emergente lagen is verschenen.
Het meest eerlijke antwoord op "wat kan GPT-6 of Claude 5 straks?" is: wacht maar af. En dan hopen dat we snel genoeg doorhebben wat er is gebeurd.
Veelgestelde vragen
Is emergentie echt of een meetartefact?+
Debatteerbaar. Een veelbesproken paper van Stanford (2023, *Are Emergent Abilities of Large Language Models a Mirage?*) beargumenteert dat veel "emergente" vaardigheden eigenlijk continu toenemen — ze lijken alleen plotseling omdat we ze binair meten (goed of fout). Anderen stellen dat sommige emergentie reëel is, zoals multi-step reasoning.
Kan ik voorspellen welke vaardigheid als volgende emergeert?+
In principe: nee. Dat is precies wat emergentie zo ongemakkelijk maakt. Onderzoekers kunnen schalen en kijken wat eruit komt, maar vooraf voorspellen of GPT-5 plotseling beter wordt in complexe ethische afwegingen of 4D-ruimtelijke intuïtie — daar is geen theorie voor.
Betekent dit dat een supergroot model zomaar AGI kan worden?+
Niet noodzakelijk. De emergenties die we zien zijn tot nu toe specifieke vaardigheden binnen een bekend domein (taal, rekenen, codering). Of AGI als geheel uit voldoende schaal kan ontstaan, is een open vraag — sommige onderzoekers (Sutton, Hinton) denken van wel, anderen (LeCun) denken dat er nieuwe architecturale ideeën nodig zijn.
Komt emergentie ook voor bij mensen?+
In zekere zin ja. Kinderen leren taal in sprongen, niet geleidelijk. Sociale cognitie ontstaat rond specifieke ontwikkelingsstadia. Of dit fundamenteel dezelfde emergentie is als die in AI, of alleen vergelijkbaar in vorm, is een filosofisch open vraagstuk.