AlexNet 2012 — het moment dat neurale netwerken plots weer werkten

In de nacht van 30 september op 1 oktober 2012 werden de resultaten gepubliceerd van de ImageNet Large Scale Visual Recognition Challenge 2012. Het was geen publieke aankondiging — een academisch rapport met tabellen. Voor de meeste AI-onderzoekers op dat moment was ImageNet een jaarlijkse wedstrijd in een hoekje van beeldherkenning, niet iets wat de hele technologische wereld in beweging zou zetten.

De resultaten van dat jaar veranderden dat.

Tot 2011 had de beste inzending in de wedstrijd een top-5 foutpercentage van 25,8% — dat wil zeggen, in 25,8% van de gevallen zat het correcte antwoord niet bij de top 5 voorspellingen van het systeem. In 2012 verbeterde dat licht naar 25,0% door een team uit Oxford. Normaal academisch jaarritme: ieder jaar een procent of twee beter, voorspelbare incrementele vooruitgang.

Diezelfde wedstrijd in 2012 werd gewonnen door een inzending met een top-5 foutpercentage van 15,3%. Bijna tien procentpunten lager dan de concurrentie. Een marge die in academische benchmark-metingen bijna nooit voorkomt. Iemand had iets heel anders gedaan dan de rest, en het werkte.

Dat iemand was een groep van drie onderzoekers uit Toronto, werkend in het lab van Geoffrey Hinton.

Wie ze waren

Alex Krizhevsky, PhD-student. Ilya Sutskever, ook PhD-student, die later medeoprichter van OpenAI zou worden. Geoffrey Hinton, hun professor — dezelfde Hinton die in 2023 de Nobelprijs voor Fysica zou winnen en ook publiekelijk zou opstappen bij Google om over AI-risico's te kunnen praten.

In 2012 was Hinton een gerespecteerde maar niche-onderzoeker. Hij had decennialang gewerkt aan neurale netwerken, een veld dat in de academische mode in en uit was gestapt. In de jaren tachtig waren ze hot, in de jaren negentig onmodern, in de jaren 2000 een randverschijnsel. Hinton bleef erin geloven toen de meeste AI-onderzoekers overstapten naar andere technieken (support vector machines, probabilistic graphical models, hand-engineered features).

Krizhevsky was programmeur. Sutskever was de conceptuele denker. Samen hebben ze iets gebouwd dat, achteraf bekeken, eigenlijk een bekende recept was — maar dat nog nooit zo was uitgevoerd.

Drie ingrediënten die samenvielen

AlexNet (zoals het model ging heten) was geen compleet nieuwe uitvinding. Het was een combinatie van bestaande technieken die goed samen werkten:

Een groot diep netwerk. Acht lagen diep — ongehoord op dat moment. De meeste netwerken hadden één of twee lagen. Diepe architecturen werden als moeilijk-te-trainen beschouwd.

Veel data. De ImageNet-dataset bestond sinds 2009, dankzij het pionierswerk van Fei-Fei Li bij Stanford. Miljoenen gelabelde afbeeldingen. Veel eerdere beeldherkenningsonderzoek gebruikte veel kleinere datasets.

Veel compute. Hier kwam het geniale in. Het team trainde het netwerk op twee Nvidia GTX 580 gaming-GPU's — grafische kaarten bedoeld voor games, niet voor wetenschap. Kosten ongeveer 500 dollar per stuk. Hun concurrenten gebruikten grote CPU-clusters die veel meer geld kostten, maar minder geschikt waren voor het soort parallel rekenwerk dat neurale netwerken nodig hebben.

Elk van deze drie was voor iedereen beschikbaar. De data was publiek. De neurale netwerk-architecturen stonden in papers. GPUs stonden in de winkel. Niemand had ze gecombineerd.

De reactie

In de eerste dagen na de bekendmaking was de reactie van het veld gemengd. Sommigen vermoedden een fout in de evaluatie, zo groot leek de sprong. Anderen zagen in dat dit een kentering was. Het onderzoek werd direct herhaald en bevestigd.

Binnen zes maanden was het hele beeldherkenningsveld aan het overstappen op diepe neurale netwerken met GPU-training. Binnen twee jaar waren vrijwel alle serieuze inzendingen op computer vision-benchmarks diepe netwerken. De handmatig ontworpen features die twintig jaar lang dominant waren geweest, werden obsoleet in minder dan 24 maanden.

Belangrijker nog: het maakte duidelijk dat deep learning geen randverschijnsel was. Als het hier werkte, werkte het waarschijnlijk elders. Taalmodellen, spraakherkenning, aanbevelingssystemen — overal werden diepe netwerken uitgeprobeerd. In de meeste gevallen versloegen ze de bestaande state-of-the-art.

Het financiële vervolg

Google kocht Krizhevsky, Sutskever en Hinton's bedrijfje DNNresearch op in 2013 — een bedrijf zonder product, gewoon drie mensen en hun expertise. De aankoopprijs is nooit officieel bekendgemaakt maar zou in de miljoenen liggen. Het werd een van de meest rendabele AI-talent-aankopen ooit.

Vrijwel tegelijkertijd begon Nvidia — dat GPU's produceert — te beseffen dat er een massale markt aan het ontstaan was buiten gaming. De bedrijfsstrategie kantelde richting AI-computing. Vanaf dat moment schoot de omzet van Nvidia in een bepaalde hoek (datacenter-GPU's voor AI) omhoog. In 2024 werd Nvidia even het meest waardevolle bedrijf ter wereld, grotendeels op de rug van die strategische herkadering.

De onderzoeksgeld volgde. De grote techbedrijven begonnen research-labs op te zetten specifiek voor deep learning. Google Brain was er al. Facebook AI Research startte in 2013. Microsoft zette eigen labs op. Apple werd later. Dankzij het succes van AlexNet had iedereen plots geld voor een vakgebied dat vijf jaar eerder een academisch terrein was geweest.

De lijn naar 2026

Alles wat daarna gebeurde in AI is direct te herleiden naar deze opening. De transformer-paper van 2017? Bouwde voort op deep learning. GPT-1, 2, 3, 4? Allemaal diepe neurale netwerken op GPU-clusters. ChatGPT? Ondenkbaar zonder 2012.

Dat klinkt wellicht overdreven. Zonder AlexNet zou iemand anders het ongetwijfeld hebben gedaan — de drie ingrediënten (data, compute, architectuur) waren er, iemand zou ze vroeg of laat hebben gecombineerd. Misschien was het een jaar later geweest, of vijf.

Maar momenten tellen. Het feit dat de doorbraak kwam toen hij kwam, door deze drie mensen, bij Hinton's lab in Toronto, vormde de industrie op specifieke manieren. Sutskever ging naar OpenAI waar hij centraal stond bij GPT-3. Hinton bleef bij Google. Krizhevsky trok zich in 2017 voor een tijdje terug uit AI-onderzoek. Elk van die beslissingen had vergezichten.

Wat we eruit kunnen leren

Een terugkerend patroon in AI-geschiedenis: doorbraken komen wanneer bestaande ingrediënten voor het eerst efficiënt worden gecombineerd. Niet wanneer iemand iets radicaal nieuws uitvindt, maar wanneer iemand de bestaande bouwblokken net iets anders rangschikt. Dat geldt voor AlexNet, voor transformers, voor RLHF.

De tweede les: schaal telt. AlexNet werkte niet alleen door architectuur, maar door het durven van meer parameters dan gangbaar, meer data dan gangbaar, meer rekenkracht dan gangbaar. Tegen de gangbare wijsheid van het moment in. Sutton's bittere les — dat rekenkracht uiteindelijk meestal wint — heeft ook hier een bevestiging.

De derde les: de meeste mensen zien de revolutie pas achteraf. Op 1 oktober 2012 waren de resultaten beschikbaar. Breed interesse kwam pas maanden later. De geschiedenis van technologie staat vol met doorbraken die aanvankelijk obscuur waren. Deze was er een.

Als je in 2012 iemand had gevraagd wat de belangrijkste gebeurtenis van die week was, had niemand deze ImageNet-uitslag genoemd. In retrospect is het wellicht de belangrijkste weekgebeurtenis van het decennium in technologie geweest. Drie mensen, twee gaming-GPU's, acht lagen, één paper. Het begin van de wereld waar we nu in leven.

Veelgestelde vragen

Wat was ImageNet precies?+

Een dataset van Fei-Fei Li's Stanford-team uit 2009 met miljoenen handgelabelde foto's in duizenden categorieën. Het was ongeëvenaard groot voor die tijd. De jaarlijkse ImageNet-competitie was de belangrijkste benchmark voor beeldherkenning tot 2017.

Waarom GPU's?+

Graphics processors zijn ontworpen om veel eenvoudige berekeningen parallel te doen — precies wat neurale netwerken nodig hebben. Het team merkte dat gaming-GPU's voor een fractie van de prijs van traditionele servers enorm veel rekenkracht boden. Dit was een van de grootste kostenbesparingen in AI-onderzoek ooit.

Waren deep neural networks nieuw in 2012?+

Nee, het concept bestond al sinds de jaren zeventig. Maar tot 2012 werkten ze slecht in de praktijk — ze waren moeilijk te trainen, traag, en raakten makkelijk vast. AlexNet combineerde een aantal oplossingen (ReLU-activaties, dropout, data-augmentatie) die ze eindelijk robuust maakten.

Wat is er met het team gebeurd?+

Krizhevsky en Sutskever gingen naar Google. Sutskever werd later medeoprichter van OpenAI. Hinton bleef bij Google tot hij in 2023 opstapte om vrijuit over AI-risico's te kunnen praten. Het team wordt vaak beschouwd als een van de meest invloedrijke samenwerkingen in moderne technologie.

AlexNet 2012 — het moment dat neurale netwerken plots weer werkten

Wie ze waren

Drie ingrediënten die samenvielen

De reactie

Het financiële vervolg

De lijn naar 2026

Wat we eruit kunnen leren

Veelgestelde vragen

Verwante artikelen

Vragen die je eigen project betreffen?

Wie ze waren

Drie ingrediënten die samenvielen

De reactie

Het financiële vervolg

De lijn naar 2026

Wat we eruit kunnen leren

Veelgestelde vragen

Verwante artikelen

Wat is een LLM eigenlijk? AI-basisbegrippen in gewone taal

10 AI-tools die ik dagelijks gebruik (en waarvoor)

AI-agents uitgelegd: meer dan slimme chatbots

Vragen die je eigen project betreffen?