De vraag die 75 jaar AI-onderzoek niet heeft beslecht — wat is eigenlijk slim?
Alan Turing begon zijn beroemde paper met de vraag "kan een machine denken?" — en zei er meteen achter dat de vraag slecht gesteld was. Drie generaties later staan we op dezelfde plek.
In oktober 1950 publiceerde Alan Turing een paper getiteld Computing Machinery and Intelligence. De openingszin staat in iedere geschiedenis van AI: "I propose to consider the question, 'Can machines think?'" Wat er minder vaak bij staat, is Turings volgende zin: hij besloot de vraag niet te beantwoorden. Niet omdat ze te moeilijk was, maar omdat ze slecht gesteld was. Niemand, vond hij, wist wat "denken" precies inhield. Dus stelde hij een vervangende vraag voor — een test met een imitatiespel — en liet de echte vraag liggen.
Vijfenzeventig jaar later ligt ze nog steeds.
Waarom de definitie nooit afkwam
Wat is intelligentie? Door de decennia kwamen er antwoorden, maar geen definitieve. In de jaren twintig werd het IQ geformaliseerd — een getal dat iets meet, maar wat precies blijft onduidelijk. Later volgden definities in termen van probleemoplossing, adaptiviteit aan nieuwe omgevingen, het vermogen tot generalisatie, bewustzijn, zelfreflectie, creativiteit, en algemeen-redenerend vermogen. Howard Gardner stelde in de jaren tachtig voor om niet één intelligentie aan te nemen maar minstens acht: taalkundig, logisch-wiskundig, ruimtelijk, muzikaal, lichamelijk, interpersoonlijk, intrapersoonlijk en naturalistisch.
Elke definitie belicht iets echts en mist iets anders. En elke definitie heeft, zo blijkt, een ander soort AI als consequentie.
Als intelligentie "het halen van tests" is, is GPT-4 al intelligent. Het model scoort op de SAT, de GRE en het Amerikaanse bar-examen beter dan de meeste studenten. Als intelligentie "het oplossen van nieuwe problemen met weinig voorbeelden" is, scoort GPT-4 juist matig — op benchmarks zoals ARC-AGI, ontworpen door de Franse AI-onderzoeker François Chollet, presteren zelfs de beste modellen nog ver onder menselijk niveau. Als intelligentie "zelfreflectie" is, vertonen moderne modellen dat gedrag — maar of het echt is of een overtuigende imitatie van zelfreflectie weet niemand zeker.
Er bestaat een onaangename mogelijkheid: dat intelligentie geen enkel concept is maar een verzameling losse vaardigheden, en dat we het woord jarenlang hebben gebruikt alsof het één ding beschrijft terwijl het er tientallen beschrijft.
De vraag die terugkwam
Decennialang was deze filosofische chaos vooral theoretisch. In de praktijk wist iedereen "intelligentie" wel te herkennen — want mensen waren de enige hoogwaardige intelligentie die we kenden. Dieren waren een aangrenzend continent, computers deden rekenwerk. De grens was duidelijk.
Die grens is verdwenen.
Het vreemde aan een modern taalmodel is dat het sommige vormen van intelligentie briljant beheerst en andere vormen onbestaand. GPT-4 kan juridische contracten analyseren, wiskundige bewijzen volgen, een novelle schrijven. Dezelfde GPT-4 kan, zonder visuele input, niet antwoorden op "hoe vind ik mijn sleutels in deze kamer?" Het kan een complex technisch probleem ontleden, maar vergeet wat je vijf minuten geleden zei als het niet opgeslagen blijft. Het toont tegelijk glimpsen van verbluffend abstract denken en momenten van verstrooide onhandigheid.
De vraag "is het slim?" laat zich daarop niet meer beantwoorden. Intelligentie is geen toestand die iets wel of niet heeft. Het is een profiel. AI dwingt ons dat profiel te tekenen, omdat het eindelijk een intelligentie is die systematisch anders vorm heeft dan de onze.
De Chollet-test
Eén poging om die eigenschap te vangen komt van Chollet, die in 2019 On the Measure of Intelligence publiceerde. Zijn centrale observatie: we meten AI steeds met toetsen die meten wat het heeft geleerd, niet hoe snel het iets nieuws leert. Een mens van zes jaar oud kan één keer een puzzel zien en hem daarna oplossen. Een taalmodel dat dezelfde puzzel niet in zijn trainingsdata is tegengekomen, faalt vaak.
Zijn voorstel: meet intelligentie als sample efficiency — hoe weinig voorbeelden heeft een systeem nodig om iets nieuws te snappen. Hij bouwde een test (ARC-AGI) met puzzels die mensen moeiteloos oplossen en AI-modellen sinds jaren niet halen.
In december 2024 haalde het o3-model van OpenAI voor het eerst een menselijk niveau op een versie van deze test. Chollet schreef dat dit een mijlpaal was. Andere onderzoekers wezen erop dat o3 er enorm veel rekenkracht voor nodig had. De conclusie hangt af van de definitie.
De ongemakkelijke mogelijkheid
Hier komt iets wat in de filosofie sinds Turing als een schaduw meehangt: we weten pas wat intelligentie echt is als we het van buitenaf kunnen bekijken. En we bekijken het nu van binnenuit. Mensen zijn de meetlat én het gemetene. Dat is geen neutrale positie.
Wanneer AI ooit werkelijk slimmer wordt dan wij, zal de vraag niet meer "wat is intelligentie" luiden. De vraag wordt: "hoe zien we onszelf in het licht van iets dat slimmer is?" En die vraag laten we pas toe wanneer het te laat is om haar neutraal te beantwoorden.
Misschien is dat ook de reden dat AI-onderzoek steeds weer op deze filosofische kern stuit. De vraag die Turing liet liggen in 1950 was niet alleen moeilijk — ze was onmogelijk te beantwoorden terwijl alleen wij hem stelden.
Nu, eindelijk, is er een tweede gesprekspartner.
Veelgestelde vragen
Is de Turing-test nog relevant?+
Als maatstaf voor intelligentie: nauwelijks. Claude en GPT kunnen de Turing-test simpel halen in een kort gesprek — maar dat voelt niet als bewijs van denken. De test meet taal-imitatie, niet begrip. Als historisch vertrekpunt is hij blijvend belangrijk.
Wat is AGI precies?+
Artificial General Intelligence — AI die even goed is als een mens in vrijwel elke cognitieve taak. Het probleem: de definitie hangt af van wat "even goed als een mens" betekent, en daar is geen overeenstemming over. Sommige onderzoekers vinden dat GPT-4 al AGI-achtig is. Anderen vinden het hele concept nutteloos.
Heeft een dier intelligentie?+
Ja, maar andere vormen. Een octopus lost fysieke puzzels op met zijn armen, een raaf gebruikt gereedschap, een dolfijn herkent zichzelf in een spiegel. Dierenonderzoek heeft laten zien dat "intelligentie" geen enkele ladder is maar een landschap met meerdere pieken. AI voegt waarschijnlijk weer nieuwe pieken toe.
Kan bewustzijn ontstaan in AI?+
Niemand weet het. We weten niet goed wat bewustzijn in mensen is, laat staan of het kan ontstaan in silicium. Wat we wél zien is dat moderne modellen gedrag vertonen dat ooit exclusief bij bewustzijn hoorde — zelfreflectie, theory of mind, metareasoning. Of dat "echt" is of imitatie blijft open.