Acht pagina's die alles veranderden — het paper waaruit ChatGPT voortkwam
Er zijn papers die een veld verschuiven. Er zijn papers die een veld bepalen. En er zijn, heel af en toe, papers die een hele eeuw technologie vervangen. Dit is dat laatste geval.
Op 12 juni 2017 verscheen er op arXiv — de wetenschappelijke pre-print server waar veel AI-onderzoek eerst verschijnt — een paper met een ongewoon zelfbewuste titel. Attention Is All You Need. De titel parafraseerde een Beatles-song en klonk ironisch, bijna brutaal. Iedereen die er in die tijd verstand van had, wist dat "attention" slechts één van de vele technieken was die onderzoekers gebruikten om neurale netwerken met taal om te laten gaan. De titel claimde dat al het andere overbodig was.
Het bleek te kloppen.
De wereld voor de transformer
Om de paper te begrijpen, moet je weten hoe taal-AI werkte in de jaren voor 2017. De standaard was het recurrent neural network — RNN. De naam beschrijft wat het deed: een netwerk dat recursief (recurrent) data in opeenvolgende stappen verwerkte. Woord 1 ging erin, produceerde een toestand. Die toestand plus woord 2 gingen er samen doorheen, produceerden een nieuwe toestand. Enzovoort.
Dat klinkt logisch — zo leest een mens ook: woord voor woord. Maar er waren drie zware problemen. Ten eerste: RNNs vergaten langere context. Als je bij woord 100 was aangekomen, was de informatie van woord 1 meestal al uitgewassen. Varianten zoals LSTM en GRU verbeterden dit, maar nooit helemaal. Ten tweede: RNNs konden niet parallel rekenen. Elke stap vereiste het resultaat van de vorige. Dat maakte training op moderne hardware ontzettend traag — GPU's zijn juist gebouwd om duizenden berekeningen tegelijk uit te voeren. Ten derde: RNNs schaalden slecht. Grotere modellen losten de problemen niet op.
In 2014 werden attention-mechanismen toegevoegd aan RNNs, vooral voor vertaling — een model dat bij het genereren van een vertaald woord kon "terugkijken" naar specifieke bronwoorden. Dit hielp. Maar het werd gezien als aanvulling, niet vervanging. Attention was één gereedschap in een gereedschapskist.
Totdat deze paper het hele andere gereedschap weggooide.
De centrale inzicht
Het provocerende idee van de auteurs: wat als attention niet een aanvulling is maar de hele architectuur kon zijn? Wat als je de recurrence volledig weggooit en alleen attention overhoudt, zodanig dat ieder woord in een zin direct met ieder ander woord in relatie staat?
Dat is self-attention: een mechanisme waarbij elk woord in een zin berekent hoe relevant elk ander woord is voor zichzelf. Niet sequentieel — alles tegelijk. Het leidt tot een matrix van "attention scores" die zegt hoe sterk ieder paar woorden met elkaar verbonden is in deze specifieke zin.
De consequenties zijn verstrekkend:
- Parallellisatie wordt triviaal. Alle woorden worden tegelijk verwerkt. GPU's kunnen eindelijk volledig worden benut.
- Lange context verdwijnt niet. Woord 1 en woord 100 hebben een directe verbinding via self-attention. Geen kettingverlies.
- Het schaalt opwaarts. Meer lagen, meer parameters — de prestaties blijven meegroeien, ordes van grootte verder dan RNNs kunnen.
Deze drie eigenschappen, samen, maken alles wat daarna kwam mogelijk.
Wat er in het paper stond
De acht pagina's (plus appendix) bevatten de complete specificatie van wat vandaag "de transformer" heet. Een encoder (die de input leest) en een decoder (die de output genereert), beide opgebouwd uit stacks van identieke "blokken". Elk blok bevat een self-attention-laag, een feed-forward laag, en normalisatie.
Andere componenten die in het paper werden geïntroduceerd of standaardiseerd:
- Multi-head attention. Meerdere attention-mechanismen parallel, die elk een andere soort relatie leren zien.
- Positional encoding. Omdat alles parallel wordt verwerkt, is de positie van een woord niet impliciet. Die moet expliciet worden toegevoegd — en de oplossing in het paper (sinus- en cosinus-golven op verschillende frequenties) is even elegant als ongebruikelijk.
- Layer normalization en residual connections. Technieken om diepe modellen stabiel te trainen.
Elk van deze onderdelen afzonderlijk was bekend. De combinatie was nieuw. En de prestaties waren overtuigend: op vertaaltaken versloeg de transformer alle eerdere methoden bij een fractie van de trainingstijd.
Het langzame begin
Hoe belangrijk het paper was, werd niet meteen gezien. De eerste reactie was "nette architectuur voor vertaling". Het duurde tot 2018 voor het grote potentieel opviel — eerst bij Google zelf, met BERT (Bidirectional Encoder Representations from Transformers), een model dat taal beter begreep dan alles wat er eerder was. Daarna bij OpenAI, dat een soortgelijke architectuur nam maar zich concentreerde op generatieve taken en zo GPT-1 en GPT-2 bouwde.
De golf kwam pas echt op gang toen bleek hoe goed de transformer schaalde. Verdubbel de parameters, verdubbel de data — het model werd beter. Verdubbel nog een keer — nog beter. Dit is wat onderzoekers scaling laws noemden, en het patroon bleek door ordes van grootte heen consistent. GPT-3 in 2020, met 175 miljard parameters, toonde voor het eerst wat zuivere schaal op een transformer-architectuur kon doen. Taken die nooit expliciet waren getraind, verschenen plotseling — vertalen, samenvatten, redeneren. Emergent capabilities, noemden de onderzoekers het.
ChatGPT kwam pas in november 2022 — vijfenhalf jaar na het oorspronkelijke paper. De cruciale stap was niet een nieuwe architectuur maar het verfijnen van GPT-3 met menselijke feedback (RLHF) om het als chatbot bruikbaar te maken. Technisch klein, maatschappelijk enorm.
Waarom dit paper zo uniek is
AI-onderzoek is incrementeel. Tientallen papers per week bouwen voort op elkaars werk, elke stap klein. Dat een enkele paper in acht pagina's een volledige architectuur introduceert die tien jaar lang dominant blijft, is historisch ongebruikelijk. Misschien dat alleen de backpropagation-paper uit 1986 of de ImageNet/AlexNet-doorbraak in 2012 vergelijkbaar zijn in impact.
Wat ook opvalt: de auteurs zagen het zelf niet helemaal aankomen. Uit latere interviews blijkt dat ze wisten dat ze iets nuttigs hadden, maar niet dat ze de bouwstenen hadden gezet voor een hele industrie. De naam "transformer" was zelfs half-scherts: Jakob Uszkoreit wilde iets "cools en krachtigs" klinkends. Ze overwogen ook "Attention Net" maar vonden het te dor.
Inmiddels is het paper meer dan 120.000 keer geciteerd. Alle acht auteurs zijn weggegaan bij Google — sommigen naar AI-startups die ze zelf oprichtten (Character AI, Cohere, Adept), anderen naar elders. Wat ze in die zomer van 2017 schreven, ondersteunt nu een industrie van honderden miljarden euro's.
Wat het lezen ons leert
Als je het paper nu leest — het staat gratis online, acht pagina's in keurig wetenschappelijk proza — voelt het alsof je een historisch artefact openslaat. De formules zijn nog steeds in gebruik. De diagrammen worden nog steeds in colleges uitgelegd. De structuur die het beschrijft draait, op dit moment, op tienduizenden servers wereldwijd, en genereert tekst voor miljoenen mensen tegelijk.
Het is een van de weinige wetenschappelijke teksten die je zou kunnen lezen en concluderen: dit is waar het begon. Niet een keerpunt, niet een voorbereiding. De werkelijke basis van de technologie die onze tijd momenteel vormgeeft.
En, ironisch genoeg, is hij minder dan 15 minuten leestijd lang.
Veelgestelde vragen
Wie waren de acht auteurs?+
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser en Illia Polosukhin. Allen werkten bij Google of Google Brain. Vrijwel allemaal zijn ze inmiddels weggegaan, vaak naar AI-startups die gebruikmaken van hun eigen uitvinding.
Wat betekent "attention" in deze context?+
Een wiskundige techniek waarmee een model kan bepalen welke delen van zijn input relevant zijn voor het begrijpen van een ander deel. Een model dat een zin verwerkt kan bijvoorbeeld "leren" dat voor het vertalen van het werkwoord de subjectwoorden belangrijker zijn dan de rest. Attention formaliseert dat als een wiskundige operatie.
Waarom kwamen GPT en Claude pas vijf jaar later?+
De transformer was een architectuur, geen compleet product. OpenAI bouwde met GPT-1 (2018), GPT-2 (2019) en GPT-3 (2020) steeds grotere modellen op deze basis. Pas met GPT-3 werd duidelijk hoever schaal je kon brengen. Pas met ChatGPT (november 2022) werd het publiek.
Zouden we zonder deze paper waar we nu zijn?+
Op dit moment in de geschiedenis vrijwel zeker niet. De transformer was zo efficiënt dat alle andere onderzoeksrichtingen er langzaam mee werden vervangen. Zonder dit paper zou AI in 2026 op een ander punt staan — hoe ver precies is een interessante tegenfeitelijke vraag waarover onderzoekers nog steeds debatteren.