Hoe AI taal in wiskunde verandert — en waarom dat iets over ons zegt
In 2013 ontdekten onderzoekers van Google iets vreemds. Als je woorden omzet in lange cijferreeksen en ze behandelt als punten in een ruimte, doet die ruimte dingen die niemand had verwacht. 'Koning minus man plus vrouw' kwam uit op 'koningin'. En dat was nog maar het begin.
In 2013 publiceerden drie onderzoekers van Google een paper dat op het eerste gezicht niet bijzonder leek. Het introduceerde een techniek genaamd Word2Vec — een manier om woorden om te zetten in lange cijferreeksen op zo'n manier dat woorden met gelijke betekenissen dichtbij elkaar liggen. Dat klinkt technisch, handig, maar niet wereldschokkend.
Het werd wereldschokkend door één experiment. De onderzoekers namen de cijferreeks voor "king", trokken daar de reeks van "man" vanaf, telden de reeks van "woman" erbij op. De reeks die eruit kwam lag statistisch het dichtst bij de reeks van "queen".
Dat is niet wat je verwacht als je willekeurige getallen optelt en aftrekt. Dat is wat je verwacht als getallen ergens voor staan. De paper liet zien dat dezelfde techniek werkte voor tientallen andere analogieën. "Paris - France + Italy = Rome". "Walking - walk + swim = swimming". "Scientist - man + woman = ... een variant op scientist die iets meer richting sociologie wees."
Blijkbaar bevatten de getalsreeksen iets dat we pas later zouden leren benoemen: geometrische structuur van betekenis.
Van woord naar getal
Waarom zou je woorden in getallen willen veranderen? Omdat computers niet met woorden werken. Ze werken met getallen. Voor je een AI iets met taal kunt laten doen, moet je de taal op de een of andere manier numeriek voorstellen.
De eerste stap is tokenisatie: de tekst wordt opgeknipt in kleine eenheden. Meestal niet hele woorden (die zijn te variabel) en niet losse letters (die zijn te betekenisloos). Ergens ertussenin — ongeveer 3 tot 5 letters per token. Het Nederlandse woord "ongelooflijk" wordt dan bijvoorbeeld opgedeeld als "on", "ge", "loof", "lijk". Gebruikelijke woorden krijgen soms één token, zeldzame woorden vallen in stukken.
Waarom deze tussenmaat? Omdat ze efficiëntie combineert. Veelvoorkomende stukjes zitten samen, zeldzame woorden blijven flexibel. GPT-4 heeft zo'n 100.000 tokens in zijn woordenboek. Dat is het alfabet van de machine.
Elke token krijgt een uniek nummer. "De" is misschien 262, "kat" 5.123, "zit" 7.421. Dat zijn willekeurige ID's — ze hebben in zichzelf nog geen betekenis. Ze worden pas betekenisvol via de tweede stap: embedding.
Taal als ruimte
Een embedding zet iedere token om in een vector: een lijst van honderden of duizenden getallen. Deze getallen worden geleerd tijdens training. Het model begint met willekeurige vectoren per token en past ze aan naarmate het de structuur van taal ontdekt.
Het resultaat is een hoogdimensionale ruimte — stel je een coördinatenstelsel voor, niet met drie assen zoals onze gewone ruimte, maar met 300, 1.000 of 10.000 assen. Iedere token krijgt een plek in die ruimte. Na genoeg training zijn er verrassende eigenschappen ontstaan.
Synoniemen liggen dicht bij elkaar. "Huis", "woning" en "verblijf" zitten in een klein wolkje. Tegengestelden liggen ver uit elkaar. "Warm" en "koud" zitten aan tegenovergestelde kanten van een bepaalde as.
Nog vreemder: specifieke richtingen in de ruimte krijgen betekenis. Er blijkt een "gender as" te bestaan — man-vrouw, koning-koningin, acteur-actrice liggen allemaal langs dezelfde richting. Er is een "meervoudsas" — kat-katten, huis-huizen, kind-kinderen. Er is een "hoofdstad-van"-richting, een "werkwoord-zelfstandig naamwoord"-richting, een "positief-negatief"-richting.
Niemand heeft deze assen geprogrammeerd. Ze zijn geëmergeerd uit het statistisch leren over tekst. De taal, zoals wij hem gebruiken, bleek in voldoende mate deze structuur te bevatten dat een rekenmethode haar kon ontdekken.
Wat dit over ons zegt
Hier wordt het filosofisch interessant. Als betekenis geometrische structuur heeft — als "koning minus man plus vrouw ≈ koningin" niet een kunstje is maar een echt patroon — dan suggereert dat ons gebruik van taal iets systematischer is dan we ons bewust zijn.
Dat hoeft op zich niet te verbazen. Linguïsten zoals Noam Chomsky beweerden al decennia dat taal diepe structuren heeft. Wat verbaast is dat puur statistische technieken, zonder enige linguïstische theorie ingebouwd, ze kunnen vinden. De structuur zit kennelijk al in hoe we praten, en een machine die zonder voorkennis woorden in vectoren zet, haalt haar eruit.
Minder optimistisch: dezelfde statistiek vindt ook onze vooroordelen. Embedding-ruimtes bevatten vaak richtingen die "man-sterk" versus "vrouw-zwak" uitdrukken, of "zwart-misdaad" versus "wit-werk". Dat is geen fout van de techniek. Dat is een nauwkeurige vastlegging van hoe mensen over deze dingen hebben geschreven in de trainingsdata. De spiegel is wiskundig, het patroon is menselijk.
Van statische naar contextuele betekenis
Word2Vec had één beperking: ieder woord kreeg één vaste vector. Maar "bank" betekent iets anders in "de bank aan het water" dan in "naar de bank voor een lening". Die dubbele betekenis vloog in Word2Vec door elkaar.
Moderne transformers (vanaf BERT in 2018 en daarna GPT-achtigen) losten dit op met contextuele embeddings. In plaats van één vaste vector per woord, krijgt elk woord zijn vector afhankelijk van wat eromheen staat. "Bank" krijgt in de eerste zin een andere vector dan in de tweede. Hetzelfde geldt voor nuances: "licht" in "licht gewicht" vs "licht van de zon" vs "een licht debatteerde beslissing".
Deze contextuele ruimtes zijn ontzaglijk rijker. Ze bevatten niet alleen de geometrie van losse woorden maar van woord-in-situatie. Pas hiermee werden LLM's goed in complexe taalbegrip.
De diepere implicatie
De verschuiving van taal-als-lijst-van-symbolen naar taal-als-geometrie is waarschijnlijk een van de belangrijkste conceptuele doorbraken van de afgelopen decennia. Ze heeft de basis gelegd voor bijna alle moderne taaltechnologie. Zoekopdrachten op Google, vertalingen, samenvattingen, chatbots — allemaal rekenen ze in vectorruimtes van honderden of duizenden dimensies.
Meer nog: ze suggereert dat betekenis zelf niet zo abstract is als we ooit dachten. Betekenis is voor een aanzienlijk deel relationeel — bepaald door de afstanden tot andere betekenissen. Dichtbij "kat" ligt "hond". Ver weg liggen "hoofdstad" of "wiskunde". De betekenis van "kat" is niet een definitie in je hoofd, maar een positie in een ruimte van concepten.
Filosofen als Wittgenstein suggereerden iets vergelijkbaars — dat betekenis gebruik is, en gebruik relationeel. Wat zij in woorden vatten, hebben AI-modellen in getallen gevangen. De ruimte die daaruit ontstaat is door machines ontdekt, maar ze zit verborgen in hoe wij al die jaren met taal hebben gedaan. We schreven haar op, zonder te beseffen dat ze een geometrie had.
Nu weten machines het.
Veelgestelde vragen
Wat is een token precies?+
Een stuk tekst waarmee het model rekent. Meestal tussen 3 en 4 letters, soms een hele kleine woord. "De kat zit op de mat" wordt typisch 7-8 tokens. Waarom niet gewoon woorden? Omdat sommige woorden te lang zijn (technische termen) en sommige stukjes veel vaker voorkomen dan hele woorden.
Hoeveel dimensies heeft een embedding?+
Verschilt per model. Vroege Word2Vec: 300. BERT: 768. GPT-3: 12.288. Moderne grote modellen: tot in de tienduizenden. Meer dimensies geven meer "ruimte" om nuances te vangen, maar ook meer kosten.
Zit er iets menselijks in die ruimte?+
Verrassend vaak wel. Naast linguïstische structuren blijken embedding-ruimtes ook biases te bevatten (bijvoorbeeld geslacht versus beroep) — een weerspiegeling van hoe mensen taal gebruiken in de trainingsdata. Dat maakt de ruimte zowel handig als ethisch gevoelig.
Hoe is dit anders dan gewoon statistiek?+
Technisch gezien is het verfijnde statistiek. Filosofisch is het meer dan dat, omdat de ontstane ruimte structuren bevat die mensen intuïtief herkennen. Dat suggereert dat taal zelf — zoals wij hem gebruiken — een soort geometrische structuur heeft die door statistiek ontdekt kan worden.