Hoe hallucineert een AI eigenlijk — technisch bekeken
Een AI die iets verzint, voelt als een defect. Technisch gezien is het precies wat de machine is gebouwd om te doen. Het wonder is niet dat ze hallucineert. Het wonder is dat ze zo vaak klopt.
Het Engelse woord hallucinate wordt in AI-context regelmatig betwist. Sommige onderzoekers vinden het te antropomorf — het suggereert dat het model iets ziet dat er niet is, alsof er een geest in de machine zit die zich vergist. Anderen vinden het juist accuraat, omdat het effect — plausibel maar onjuist — voor gebruikers vaak overtuigend is, precies zoals een hallucinatie overtuigt.
Welke naam we ook kiezen: het fenomeen is geen bug. Het is het voorspelbare gevolg van hoe deze systemen werken. Om te begrijpen waarom een AI onzin verzint, moet je eerst begrijpen hoe een AI überhaupt "weet" wat ze zegt.
Voorspellen is geen weten
Een LLM is een functie die, gegeven een tekstfragment, het statistisch meest waarschijnlijke volgende token genereert. Tijdens training heeft het geleerd welke woordcombinaties in welke contexten vaak voorkomen. Die kennis zit opgeslagen in de parameters — miljarden gewichten die patronen in de data hebben vastgelegd.
Wanneer je een vraag stelt zoals "wie schreef Oorlog en Vrede", activeert dat een patroon. Het model heeft in zijn trainingsdata vaak de combinatie gezien "Oorlog en Vrede — Tolstoj", dus de statistische voorspelling na jouw vraag geeft "Tolstoj" een hoge kans. Het antwoord komt niet uit een database-lookup. Het komt uit een kansverdeling over alle mogelijke volgende woorden, gewogen door alle gewichten.
Als die kansverdeling sterk gepiekt is rond het juiste antwoord, krijg je een correct antwoord. Als de verdeling relatief vlak is — omdat het model onzeker is, de trainingsdata inconsistent, of het onderwerp zeldzaam — vult het alsnog iets in. Maar dan is het ingevulde niet gebaseerd op een duidelijk patroon. Het is dan een gok, verpakt als een antwoord.
Die gok voelt voor de gebruiker identiek aan een echt antwoord, want het taalkundige omhulsel is hetzelfde. Grammaticaal correct, betrouwbaar in toon, goed geformuleerd. Maar de inhoudelijke waarheid is afwezig.
De plaatsen waar het mis gaat
Hallucinaties zijn niet willekeurig verspreid. Ze komen voorspelbaar vaker voor in bepaalde soorten vragen.
Zeldzame feiten. Een vraag over een onbekende regisseur zal eerder hallucineren dan een vraag over Spielberg. De reden: de trainingsdata bevat minder herhalingen van het zeldzame feit, dus de statistische zekerheid is lager.
Recent nieuws. Modellen hebben een knowledge cutoff — een datum waarna geen trainingsdata meer is verwerkt. Vragen over gebeurtenissen na die datum leveren hetzij een eerlijke disclaimer op, hetzij verzonnen details. Welke het wordt, hangt af van hoe het model getraind is op eerlijkheid.
Specifieke namen, data, getallen. Wanneer het antwoord een precieze waarde is (een publicatiedatum, een citaat, een statistisch getal), maar de trainingsdata die waarde maar zelden bevatte, gokt het model. Het kan het juiste decennium, het juiste jaar, de juiste bladzijde hebben — of drie plausibele alternatieven die geen daarvan waren.
Technische details. Functies in programmeerbibliotheken die bestaan, met parameters die verzonnen zijn. Wetenschappelijke papers die klinken als bestaande papers maar verzonnen auteurs hebben. Juridische referenties met plausibele maar incorrecte zaaknummers. Deze laatste heeft in 2023 al advocaten in de problemen gebracht — in de VS werden lawyers gesanctioneerd omdat ze ChatGPT-gegenereerde rechtszaken in hun dossier hadden opgenomen die niet bestonden.
Waarom "ik weet het niet" zo moeilijk is
Een natuurlijke vraag: waarom zegt het model niet gewoon "ik weet het niet"? Het antwoord zit in hoe het is getraind.
Tijdens pre-training leert het model patronen. Weinig van die patronen zien eruit als "ik weet het niet" — mensen zeggen dat minder vaak dan ze zouden moeten. De trainingsdata zit vol overtuigende antwoorden, ook op dingen die de auteur niet zeker wist. Het model imiteert die stijl van schrijven.
Tijdens fine-tuning en RLHF wordt enige mate van eerlijkheid over onzekerheid bijgebracht. Het model leert disclaimers te geven op bepaalde typen vragen. Maar die eerlijkheid is gedrag, geen kalibratie. Het model "voelt" zijn eigen onzekerheid niet — het heeft geleerd dat bepaalde categorieën vragen gepaard moeten gaan met voorzichtige formuleringen.
Daarom zie je soms het frustrerende patroon waarbij een model stellig verkeerd antwoordt op een zeldzame vraag en vervolgens twijfel uitspreekt over een gemakkelijke vraag. De disclaimerpolitiek is niet gecorreleerd met echte zekerheid, want echte zekerheid is iets wat het systeem niet heeft.
Het principiële probleem
Hallucinatie is geen bug omdat het precies hetzelfde mechanisme is dat de juiste antwoorden produceert. Een model dat nooit hallucineert, zou ook nooit een antwoord kunnen geven op een vraag waarover de trainingsdata onvolledig was — want elk antwoord op zo'n vraag is in wezen een gok. De scheiding tussen "correct gegokt" en "incorrect gegokt" ligt buiten het model.
Het is alsof je een student hebt die verplicht is elke vraag te beantwoorden, zonder mogelijkheid van "pas". Sommige antwoorden kent hij; die zijn correct. Andere kent hij niet precies; die verzint hij plausibel. De student weet niet altijd welke categorie welk antwoord betreft.
Wil je minder hallucinatie, moet je iets toevoegen aan het pure LLM-paradigma:
- Retrieval-augmented generation (RAG). Het model zoekt vóór het antwoorden in externe documenten en baseert zijn antwoord op wat het daar vindt. Hallucinaties dalen drastisch maar verdwijnen niet helemaal — het model kan de gevonden tekst nog steeds verkeerd interpreteren.
- Web-toegang. Live zoekopdrachten zoals in Perplexity of ChatGPT search. Hetzelfde principe, maar met het hele web in plaats van een eigen documentenverzameling.
- Zelf-verificatie. Modellen die hun eigen antwoorden door een tweede prompt heen laten gaan om te controleren. Helpt, voegt kosten en latentie toe.
- Explicit uncertainty training. Training die modellen beloont voor "ik weet het niet" op vragen waar ze het inderdaad niet weten. Actief onderzoeksgebied, nog niet volwassen.
Het wonder
Er is een ongemakkelijke waarheid in dit verhaal. Als je nadenkt over hoe LLM's werken — puur statistische voorspelling, geen externe verificatie, geen begrip in menselijke zin — zou je verwachten dat ze voornamelijk onzin zouden produceren. Dat is niet wat er gebeurt. Ze zijn indrukwekkend vaak juist.
Het wonder is niet dat ze hallucineren. Het wonder is dat ze, in zoveel domeinen en voor zoveel vragen, de juiste antwoorden uit hun statistische patronen te halen — antwoorden die vaak kloppen met de werkelijkheid waarover ze zijn getraind. Dat suggereert dat taal zelf een veel systematischer structuur heeft dan we ooit hebben erkend. Dat de wereld in woorden zit, op zo'n manier dat voldoende woorden voldoende wereld bevatten.
Hallucinaties zijn in die zin geen bugs maar randvoorwaarden. De echte vraag is niet waarom AI soms fout zit. De vraag is waarom het zo vaak klopt.
En op die vraag heeft de wetenschap nog geen volledig antwoord.
Veelgestelde vragen
Kunnen AI's ooit stoppen met hallucineren?+
Niet volledig zolang ze puur statistisch voorspellen. Combinaties met externe bronnen (RAG, zoekfunctie) verminderen het drastisch. Onderzoek naar 'grounded' modellen — die weten wanneer ze iets niet weten — is actief maar onvolgroeid.
Zijn grotere modellen minder hallucinerend?+
Meestal ja, maar niet altijd. GPT-4 hallucineert minder dan GPT-3, maar hallucineert soms overtuigender — met meer detail. Dat maakt ze tegelijk betrouwbaarder én gevaarlijker: een vrijwel perfect antwoord met één verkeerd feit is moeilijker te detecteren.
Waarom zegt het model niet gewoon 'ik weet het niet'?+
Omdat het niet echt weet of het iets weet. Het heeft geen zelfbewuste metakennis. Het genereert een antwoord op basis van patronen; of die antwoorden in de wereld corresponderen met waarheid, is iets wat het niet kan verifiëren vanuit zichzelf.
Helpt het om te vragen 'weet je dit zeker?'+
Een beetje. Modellen leren sinds RLHF iets van metakennis — ze zijn vaker eerlijk over onzekerheid als je ernaar vraagt. Maar de eerlijkheid zelf is ook een geleerde gedragsvorm, geen gegarandeerde diagnose.