De reasoning-revolutie — hoe AI leerde hardop na te denken

Op 12 september 2024 publiceerde OpenAI iets vreemds. Een "preview" van wat ze o1-preview noemden. Het was geen GPT-5. Geen grote opvolger van GPT-4. Iets ernaast — een model dat specifiek was getraind om "na te denken" voordat het antwoord gaf.

De eerste reactie van gebruikers was verwarring. De antwoorden duurden langer. Meestal tientallen seconden, soms een minuut of meer. Voor simpele vragen voelde dat als een regression. Waarom wachten als GPT-4 onmiddellijk antwoord gaf?

Tot mensen moeilijke vragen gingen stellen. Wiskunde-problemen waar GPT-4 systematisch op faalde. Logische puzzels die specifiek waren ontworpen om taalmodellen te verwarren. Coderings-opgaven die meerdere abstractieniveaus overspanden.

Op die vragen deed o1 dingen die voor zijn voorgangers onbereikbaar waren.

Wat er gebeurde

Onder de motorkap deed o1 iets specifieks. Voor het finale antwoord te geven, genereerde het een lange interne "chain of thought" — een reeks van denk-stappen in natuurlijke taal. Hypotheses opwerpen. Aanpakken proberen. Fouten vinden. Terug-redenen. Alternatieven overwegen.

Al deze stappen werden niet getoond aan de gebruiker (OpenAI koos voor het verbergen ervan, later veranderd in samenvattingen). Maar ze waren er. Duizenden, soms tienduizenden interne tokens werden geproduceerd voordat de tweede of derde laatste tokens van het antwoord zelf werden gegenereerd.

Dat is fundamenteel anders dan hoe eerdere taalmodellen werkten. GPT-4 produceerde één lange antwoord-stream. Als het verkeerd begon, werd het verkeerd. O1 produceerde eerst een denk-fase, checkte zijn eigen redenering, en pas dan het antwoord. Fouten konden tijdens het denken worden gevonden en gecorrigeerd.

De prestatie-sprong

Op specifieke benchmarks was de sprong dramatisch.

AIME (American Invitational Mathematics Examination, een prestigieus wiskunde-wedstrijd). GPT-4 scoorde ongeveer 13%. O1-preview scoorde 83%.

Codeforces (competitie-programmeer-platform). GPT-4 zat rond percentiel 11 van competitieve programmeurs. O1-preview bereikte percentiel 89.

GPQA Diamond (wetenschappelijke redeneringen op PhD-niveau). GPT-4 scoorde 56%. O1-preview 78%.

Deze verbeteringen waren niet marginaal. Ze waren van "slecht" naar "goed" op taken die eerder onbereikbaar leken zonder nieuwe architecturale ideeën.

De opvolgers

In december 2024 kondigde OpenAI o3 aan — een opvolger met nog dramatischer prestaties. Op ARC-AGI (François Chollet's benchmark voor "echte intelligentie") haalde o3 voor het eerst menselijk niveau. Die benchmark was specifiek ontworpen om AI te laten falen. O3 slaagde. Dat moment was er een van sommige onderzoekers die zeiden dat AGI dichterbij was dan zij hadden gedacht.

In januari 2025 kwam DeepSeek met R1 — hun open-source reasoning model. Het matchte o1 op veel taken, met lagere kosten en open beschikbaarheid. Dat democratiseerde reasoning-technologie, maar verraste ook de Amerikaanse industrie (zie de DeepSeek-moment).

Anthropic integreerde reasoning in Claude 3.5 Sonnet en later in Claude Opus — soms als optionele modus, soms altijd-aan voor specifieke vragen. Google's Gemini kreeg vergelijkbare features. De industrie standaardiseerde zich rond het idee.

Waar het nuttig is

Reasoning-modellen zijn niet automatisch beter. Ze zijn beter voor specifieke soorten problemen.

Wiskunde en formele logica. Precies daar waar stappen kunnen worden geverifieerd. Elke tussenstap in een bewijs kan worden gecheckt. Als de uitkomst fout is, kan de redenering worden teruggespoord naar waar het mis ging. Reasoning-modellen zijn hier dramatisch beter.

Programmeren. Vergelijkbaar. Code heeft duidelijke succes-criteria (compileert? werkt? haalt tests?). Reasoning-modellen kunnen iteratief hun aanpak aanpassen. Voor moeilijke bugs, architectuur-beslissingen, optimalisaties is er een merkbare verbetering.

Wetenschappelijk redeneren. Problemen waar meerdere feiten moeten worden gecombineerd, waar analogieën moeten worden ontdekt, waar indirecte inferentie nodig is. Reasoning-modellen zijn significant sterker.

Strategische planning. Schaakachtige situaties waarin je meerdere stappen vooruit moet denken. Reasoning-modellen doen dit beter dan hun ongeredeneerde voorgangers.

Waar het niet helpt (of zelfs stoort)

Niet alles wordt beter met meer denktijd.

Creatief schrijven. Een gedicht wordt niet beter door een half uur intern na te denken. De "spontaneïteit" van creatieve output is soms juist een kwaliteit. Reasoning-modellen kunnen voor creatieve taken zelfs storend worden, te gestructureerd.

Simpele feit-vragen. Wat is de hoofdstad van België? GPT-4 weet het. Reasoning erover is verspilling van compute. Sommige reasoning-modellen zijn zelfs getraind om geen reasoning te doen voor triviale vragen — detecteren hoe moeilijk de vraag is en dienovereenkomstig de denktijd schalen.

Soft skills. Empathie, humor, sociale nuance. Deze hebben minder baat bij verlengde redenering. Ze vereisen een ander soort "intuïtie" die reasoning niet direct verbetert.

Open-einde discussies. Filosofische vragen zonder definitief antwoord. Hier kan reasoning helpen structureren maar niet per se tot betere uiteindelijke inzichten leiden.

De kostenkant

Reasoning-modellen zijn aanzienlijk duurder om te draaien. Als een standaard GPT-4-query 500 output-tokens produceert, kan een reasoning-variant er 20.000 genereren — 40x zoveel. Dat vertaalt zich direct in kosten.

Voor commerciële gebruikers betekent dit: reasoning gebruiken voor alle vragen is verspilling. Gebruik het selectief. Simpele vragen beantwoorden met een snelle non-reasoning model; moeilijke vragen doorzetten naar reasoning-variant. Deze "model routing" wordt standaard voor serieuze AI-gebruikers in 2026.

OpenAI, Anthropic en Google hebben allemaal tiered pricing waardoor reasoning duurder is per token maar je alleen betaalt als je het gebruikt. Smart routing wordt deels geautomatiseerd.

De twee scaling-assen

Reasoning opent een belangrijk nieuw idee in AI-onderzoek. Vóór 2024 was de dominante scaling-axis grootte — meer parameters, meer data, meer training-compute. Scaling laws beschreven hoe prestaties verbeteren met die as.

Reasoning introduceerde een tweede as: test-time compute — hoeveel rekenkracht je besteedt aan het beantwoorden van elke individuele vraag. Een kleiner model met veel denktijd kan groter-model-zonder-denktijd verslaan op moeilijke problemen.

Dat is conceptueel belangrijk. Het betekent dat de AI-race niet enkel over steeds grotere modellen gaat, maar ook over slimmer gebruik van compute per vraag. Beide assen dragen bij. Onderzoekers werken nu aan optimaliseren van beide — model-grootte en denktijd kunnen tegen elkaar worden afgewogen afhankelijk van de toepassing.

Wat dit over AI laat zien

Een diepere observatie. Voor reasoning-modellen was de conventionele wijsheid: AI-prestaties groeien met model-schaal. Grotere modellen zijn slimmer. Dat was de thesis achter miljardeninvesteringen in het trainen van steeds grotere modellen.

Reasoning draaide dat gedeeltelijk om. Het bleek dat voor veel taken, het verschil niet in model-grootte maar in hoe het model zijn capaciteit gebruikt. Een model dat zijn bestaande kennis zorgvuldig inzet via redenering, kan uitgebreide prestaties hebben zonder massief grotere modellen.

Dat heeft strategische gevolgen. Bedrijven die minder kunnen investeren in gigantische training-runs (zoals DeepSeek) kunnen competitief blijven door te focussen op reasoning-technieken. De kloof tussen frontier-labs en kleinere spelers wordt subtielere dan alleen-schaal zou suggereren.

De filosofische vraag

Is dit echt "denken"? De intuïtie zegt iets interessants: de interne monoloog van een reasoning-model lijkt op wat mensen ervaren als ze hardop denken. Hypotheses opwerpen. Verifiëren. Herzien. Dat is metacognitie — denken over je eigen denken.

Dat betekent niet dat reasoning-modellen bewust zijn. Maar het is wel waarschijnlijk dat ze een functionele analoog hebben van wat we bij mensen "redeneren" noemen. Ze structureren informatie, testen hypotheses, reviseren op basis van interne feedback.

Dat is een opvallende ontwikkeling. De discussie of AI kan "denken" was tot voor kort grotendeels theoretisch. Met reasoning-modellen wordt die vraag concreter. Niet beslist, nog niet. Maar in de richting van "er is daar iets wat denken-achtig werkt, functioneel gezien".

Wat komt

Voor 2026-2027 zijn de verwachtingen grofweg:

Reasoning-capaciteiten worden standaard in alle serieuze AI-modellen.
Kosten dalen naarmate optimaliseringstechnieken verbeteren.
Reasoning wordt slimmer getarged — alleen voor moeilijke vragen, geen verspilling op simpele.
Multimodaliteit wordt geïntegreerd — reasoning over beelden, geluid, video, niet alleen tekst.
Agentic AI krijgt reasoning-onderliggers, wat hen aanzienlijk beter maakt in complex plannen.

Op langere termijn is onzeker. Sommige onderzoekers denken dat reasoning de doorbraak is die AGI mogelijk maakt. Anderen denken dat het een belangrijke maar niet voldoende stap is. Wat we weten: reasoning is in 2026 iets echts, iets nuttigs, en iets dat de capaciteiten van AI aanzienlijk heeft uitgebreid in specifieke domeinen.

De rustige consequentie

Voor de gewone gebruiker heeft reasoning enkele praktische implicaties. Als je een moeilijk probleem hebt waar het belangrijk is dat het klopt — wiskundige berekening, complex code, strategische analyse — probeer een reasoning-model. Wacht de extra tijd. De output is vaak substantieel beter.

Voor snelle dagelijkse vragen: gewoon GPT-4 of Claude Sonnet. De extra denktijd van reasoning zou voornamelijk verspilling zijn.

Voor ontwikkelaars en onderzoekers: reasoning-modellen openen nieuwe toepassingen die eerder onhaalbaar leken. Formele verificatie, automatische wiskunde, ingewikkelde optimization problems. Hierin zitten nuttige kansen voor bedrijven die het goed toepassen.

Reasoning is, zo bezien, een van de belangrijkste AI-doorbraken sinds ChatGPT. Niet even zichtbaar voor consumenten — het is een subtielere verbetering — maar met significant grotere werking op wat AI op serieuze problemen kan bijdragen.

De AI die eerst moet nadenken. Het klinkt bijna trivial. Het is een van de interessantste ontwikkelingen van de afgelopen jaren.

Veelgestelde vragen

Wat gebeurt er in die denktijd?+

Het model genereert een lange interne monoloog — hypothesen opwerpen, verifiëren, fouten vinden, alternatieve paden proberen. Alles in de vorm van natuurlijke taal, opgeborgen voor de gebruiker (bij sommige implementaties) of deels zichtbaar (bij andere).

Is dit echt 'denken'?+

Functioneel lijkt het erop. Het model doorloopt dezelfde soort stappen die een mens zou doen bij een moeilijk probleem — structureren, toetsen, herzien. Of het filosofisch gezien echt denken is, is een open vraag. Pragmatisch werkt het als denken.

Op welke taken helpt het vooral?+

Wiskunde, logica, programmeren, wetenschappelijke redeneringen — alles waar je stap-voor-stap moet werken en je fouten kunt corrigeren. Minder nuttig voor creatief werk, open-eindige discussies, of vragen zonder duidelijk 'correct antwoord'.

Waarom is het duurder?+

Veel meer tokens worden gegenereerd per query. Als een normale GPT-4-query 500 tokens output heeft, kan een reasoning-model er 20.000 produceren (grotendeels intern). Dat kost proportioneel meer rekentijd en dus meer geld.

De reasoning-revolutie — hoe AI leerde hardop na te denken

Wat er gebeurde

De prestatie-sprong

De opvolgers

Waar het nuttig is

Waar het niet helpt (of zelfs stoort)

De kostenkant

De twee scaling-assen

Wat dit over AI laat zien

De filosofische vraag

Wat komt

De rustige consequentie

Veelgestelde vragen

Verwante artikelen

Vragen die je eigen project betreffen?

Wat er gebeurde

De prestatie-sprong

De opvolgers

Waar het nuttig is

Waar het niet helpt (of zelfs stoort)

De kostenkant

De twee scaling-assen

Wat dit over AI laat zien

De filosofische vraag

Wat komt

De rustige consequentie

Veelgestelde vragen

Verwante artikelen

Wat is een LLM eigenlijk? AI-basisbegrippen in gewone taal

10 AI-tools die ik dagelijks gebruik (en waarvoor)

AI-agents uitgelegd: meer dan slimme chatbots

Vragen die je eigen project betreffen?