Test-time compute — de revolutie die van AI echt iets deed lijken op denken

Een AI die een vraag krijgt en meteen antwoordt, werkt anders dan een AI die eerst dertig seconden denkt. Het verschil is niet klein. Het heeft een hele nieuwe klasse van prestaties ontsloten, en verandert hoe we AI-ontwerpen moeten bekijken.

Schaakspeler die diep nadenkt — metafoor voor een AI die denkt tijdens inference

In september 2024 kondigde OpenAI een nieuw model aan met een vreemde naam: o1-preview. Geen GPT-5. Geen nieuwe volledige generatie. Iets ernaast. Wat het anders maakte werd pas duidelijk toen gebruikers het probeerden. Stel een vraag, en het antwoord kwam niet meteen. Er verscheen een boodschap: "Thinking..." En dan, na soms dertig seconden tot een minuut, het antwoord.

Dat klonk als een regression. Antwoorden duren langer, dus de UI voelt trager. Maar de antwoorden zelf waren anders. Op complexe wiskundeproblemen, moeilijke codeertaken, logische puzzels — prestaties die bij GPT-4 middelmatig waren, werden plotseling uitstekend. Op sommige benchmarks deed o1 het drie tot tien keer beter.

Die verbetering kwam niet door een groter model. Ze kwam door iets wat in AI-onderzoek al langer bekend was maar pas nu commercieel ingezet: test-time compute — rekenkracht besteden tijdens het beantwoorden, niet tijdens training.

De twee schaal-assen

AI-ontwikkeling werd lang begrepen in termen van één dimensie: modelgrootte. Meer parameters, meer trainingsdata, meer rekenkracht tijdens training. Dat leidde tot de beroemde scaling laws — grafieken die lieten zien dat prestaties consistent meegroeien met schaal.

Maar er was altijd een andere as die minder aandacht kreeg: inference compute. De rekenkracht die wordt besteed aan het beantwoorden van elke vraag. Voor een klassiek model is dat maar een fractie van de trainingskosten — je vraagt, het model rekent één doorlooptijd, je krijgt antwoord. Klaar.

Maar wat als je dat langer liet duren? Wat als het model niet één keer antwoord genereert, maar meerdere keren, en zelf kijkt welke de beste is? Wat als het eerst een plan maakt, dan het plan uitvoert, dan controleert of het klopt? Wat als het verschillende invalshoeken probeert en de beste combineert?

Onderzoek had al in 2022 laten zien dat deze aanpak werkte. "Chain of thought prompting" — het model expliciet vragen om stap voor stap te redeneren — verbeterde prestaties merkbaar op complexe taken. Maar het was een prompt-techniek, niet ingebouwd in het model.

O1 was de eerste keer dat deze aanpak een eigen architectuur werd.

Hoe het werkt

O1 en zijn opvolgers zijn getraind met reinforcement learning op het redeneringsproces zelf. Het model leert niet alleen eindantwoorden te geven, maar ook hele reeksen van tussenstappen — hypothesen opwerpen, toetsen, herzien, ander pad proberen — en het leert wanneer het klaar is.

Tijdens inference genereert het model een lange interne monoloog. Soms duizenden tokens aan tussenstappen voor het naar het finale antwoord komt. Onderzoek probeert, hypothese, backtracked, probeert weer, reflecteert, beslist. Pas als het tot een conclusie komt die zichzelf consistent voelt, eindigt het.

De kosten zijn aanzienlijk. Waar een gewone GPT-4-query misschien 500 tokens output kost, kan een o1-query er 10.000 tot 50.000 genereren — het grootste deel intern niet zichtbaar. Dat maakt het model 10-100x duurder per vraag. OpenAI rekent daar navenant voor.

Maar voor specifieke taken is de extra kost een koopje. AIME (een wiskundewedstrijd op hoog niveau) waarop GPT-4 ongeveer 13% scoorde, haalde o1 83%. Op codeerbenchmarks als Codeforces ging de prestatie van percentiel 11 naar percentiel 89. Op wetenschappelijke redeneringstests (GPQA Diamond) van 56% naar 78%. Voor sommige klassen van problemen die met gewone modellen onbereikbaar leken, werd het hierdoor haalbaar.

De volgende generatie

O3, aangekondigd in december 2024 en publiekelijk gelanceerd in 2025, ging verder. Op de ARC-AGI-benchmark — die Chollet had ontworpen juist omdat hij vond dat bestaande modellen daar zouden falen — scoorde o3 voor het eerst op menselijk niveau. Dat kostte dan wel enorm veel compute (schattingen lopen in de duizenden dollar per test), maar de prestatie was reëel.

Anthropic volgde in 2025 met vergelijkbare reasoning-modes in Claude. Google bouwde het in Gemini. De techniek werd industrienorm. In 2026 is vrijwel elk serieus model in staat om een "dieper denken"-modus in te schakelen.

De kosten-effectiviteit-afweging is expliciet geworden: gebruikers kunnen kiezen tussen snel en goedkoop (normale modus) of langzaam en beter (reasoning modus). Voor dagelijkse taken volstaat het eerste. Voor wiskundige bewijzen, moeilijke codeerproblemen, of strategische analyses is het tweede de moeite waard.

Wat dit impliceert

De belangrijkste intellectuele consequentie is dat prestaties nu inruilbaar zijn met geld. Bij traditionele modellen was de kwaliteit vastgelegd door de training — hoeveel je ook betaalde per vraag, het model was zo slim als het was. Met test-time compute kun je kwaliteit kopen. Meer budget = langer denken = beter antwoord.

Dat heeft economische gevolgen. Serieuze gebruiksscenario's — onderzoek, advocatuur, medische diagnostiek, technisch ontwerp — kunnen zich de kosten van diepere redenering veroorloven. Voor die klanten zijn reasoning-modellen een ander economisch artikel dan voor gewone consumenten.

Het heeft ook gevolgen voor hoe we AI-vooruitgang meten. Vroeger kon je zeggen: GPT-5 is beter dan GPT-4 omdat het getraind is op meer data. Nu moet je vragen: bij welke test-time compute? Een klein model met veel denktijd kan een groot model met weinig denktijd verslaan. Benchmarks moeten dat meespecificeren.

En filosofisch: de grens tussen "kennis" en "berekening" vervaagt. Traditionele AI had alles vooraf geleerd en gaf antwoord uit geheugen. Reasoning-AI gebruikt zijn kennis als startpunt maar rekent tijdens het beantwoorden zelf naar een oplossing toe. Het lijkt niet langer op een encyclopedie maar op een mens die mediteert over een probleem.

Grenzen

Niet alles wordt beter met meer denktijd. Creatieve taken profiteren nauwelijks — een gedicht wordt niet beter door er tien seconden extra over na te denken. Simpele vragen (wat is de hoofdstad van Duitsland) hebben geen reasoning nodig en verspillen alleen maar compute. Bepaalde soorten taalmodellering (vertaling, samenvatting) krijgen minimale boost.

Ook is er een vermoeden dat reasoning-modellen scheef getraind zijn op controleerbare taken — wiskunde, logica, code — waar het juiste antwoord objectief te bepalen is. Op soft-skills (empathie, overtuiging, ethische redenering) is de verbetering minder duidelijk, deels omdat de trainingsloop niet goed werkt zonder een harde correctheidsmaatstaf.

De mentale modelshift

Wie in 2024 begon met AI, leerde een model denken als een enorme fuzzy lookup tafel. Je stelt een vraag, je krijgt het meest waarschijnlijke antwoord uit alles wat het ooit las.

In 2026 is dat model te simpel. Een modern AI-systeem is een mix van kennis (uit pre-training), gedrag (uit fine-tuning), menselijke voorkeur (uit RLHF) en redenering (uit test-time compute). Die vier lagen interageren op manieren die niet altijd te scheiden zijn.

Voor gebruikers betekent het concreet: leer welke soort modus je nodig hebt. Een gewone vraag aan een gewone chatbot is goed voor de meeste dagelijkse taken. Een serieuze redeneringsvraag — een moeilijk probleem waar je echt wil dat het klopt — verdient misschien een duurder, langzamer model met denkmodus aan.

De revolutie van test-time compute zit niet in wat het model is, maar in hoe lang we het laten nadenken. Dat klinkt triviaal. In praktische prestaties blijkt het één van de grootste stappen die AI in 2024 en 2025 heeft genomen.

En de tweede schaal-as — denken in plaats van groeien — is waarschijnlijk pas begonnen.

Veelgestelde vragen

Denkt een reasoning model echt?+

Dat hangt af van wat je onder 'denken' verstaat. Technisch gezien genereert het een reeks tussenstappen voor het finale antwoord, vergelijkbaar met hardop redeneren. Of dat hetzelfde is als menselijk denken, is filosofisch open. Pragmatisch: het werkt alsof het denkt.

Is dit hetzelfde als 'chain-of-thought prompting'?+

Verwant maar dieper. Chain-of-thought was een prompt-truc waarbij je het model vroeg 'laten we stap voor stap denken'. Test-time compute is hetzelfde principe ingebouwd in het model, getraind om zelf te beslissen hoe lang en hoe gestructureerd te denken.

Kun je de 'gedachten' van het model zien?+

Bij sommige modellen wel, bij andere niet. OpenAI verbergt de gedachten van o1 grotendeels. Claude laat de redenering soms zien. De discussie of zichtbaarheid hoort of niet, is deels technisch (interpretatie), deels commercieel (IP-bescherming).

Waarom is dit niet eerder gedaan?+

Gedeeltelijk is het eerder geprobeerd, maar de benodigde trainingsmethoden (reinforcement learning op redeneringstappen) zijn pas recent volwassen genoeg. Ook de kosten zijn niet triviaal — een reasoning model kan 10-100x duurder zijn per vraag dan een normaal model.

Deel dit artikel
LinkedIn ↗ X / Twitter ↗ Mail ↗
Laten we praten

Vragen die je eigen project betreffen?

Elke call begint met luisteren. Vertel waar je staat, dan denken we samen verder.

Binnen 24u een reactie. Altijd persoonlijk.