Mixture of Experts — hoe AI-modellen slimmer en goedkoper tegelijk werden

Stel je een ziekenhuis voor waar bij iedere patiënt alle artsen tegelijk in de kamer staan. Duur en langzaam. Een mixture-of-experts-model werkt anders: het vraagt alleen de juiste expert voor de juiste vraag.

Groep specialisten aan tafel — metafoor voor mixture of experts

Er is een spanning in het ontwerp van moderne AI-modellen. Aan de ene kant weten we: meer parameters = slimmer model. Aan de andere kant: meer parameters = duurder om te draaien. Elke query aan een biljoen-parameter model is traag en kost veel stroom.

Voor industrieel gebruik is dat onhoudbaar. Stel dat elke ChatGPT-gebruiker 1000 keer per dag een biljoen-parameter-model aanroept — de elektriciteitsrekening alleen zou onze grenzen van duurzaamheid overschrijden. Dus moet er iets slims worden verzonnen dat het model dichter en specialistischer laat werken.

Dat iets slims heet mixture of experts. Het is nu een van de belangrijkste technieken in frontier-AI, en de meeste gebruikers hebben er nog nooit van gehoord.

Het principe

Stel je een standaard taalmodel-laag voor. Voor elk token in de input wordt een zware rekensom uitgevoerd — typisch een feedforward netwerk met honderden miljoenen parameters. Elk van die parameters doet mee, elk token, iedere keer. Dat is hoe alle vroege LLM's werkten: elke parameter deed elke berekening.

Mixture of experts verandert dat. In plaats van één groot feedforward netwerk, heeft de laag er meerdere — bijvoorbeeld acht. Die acht zijn de "experts". Per token wordt er een klein routeringsnetwerk geraadpleegd dat kiest welke experts dit token gaan verwerken. Meestal de top-2. De andere zes doen niets.

Het gevolg: het model heeft in totaal veel parameters (bijvoorbeeld 8 experts × 220 miljard = 1,76 biljoen), maar per token worden er maar 2 × 220 = 440 miljard gebruikt. De rekenkost is dus aanzienlijk lager dan een dense model van dezelfde grootte. Tegelijk blijft de capaciteit — de hoeveelheid impliciete kennis die het model kan opslaan — enorm, omdat alle acht experts beschikbaar zijn als het onderwerp daarom vraagt.

Waarom dit werkt

Het onderliggende inzicht: niet elke vraag heeft alle kennis nodig. Een wiskundig probleem vraagt andere vaardigheden dan een poëzie-interpretatie. Een juridisch contract vraagt andere dan een codeeropdracht. Als je je model zo kunt ontwerpen dat het alleen de relevante gedeelten activeert per vraag, win je op efficiëntie zonder op kwaliteit in te leveren.

Tijdens training leren de experts zichzelf specialisaties aan. Niemand wijst vooraf aan welke expert welk onderwerp doet. De router leert gaandeweg welke patronen naar welke expert moeten, en de experts leren gaandeweg het soort input dat ze routinematig krijgen. Het systeem co-evolueert.

Hoe die specialisaties eruit zien is niet altijd menselijk leesbaar. Sommige onderzoekers hebben gevonden dat experts zich richten op specifieke talen, of op specifieke syntactische patronen, of op domeinen zoals code versus proza. Maar het zijn emergente groeperingen — niet allemaal mooi in categorieën als "wiskunde-expert" en "literatuur-expert".

Wie gebruikt het

GPT-4 is, op basis van gelekte technische informatie uit 2023-2024, vrijwel zeker een MoE-model. De meest geloofwaardige schatting is 8 experts van elk ongeveer 220 miljard parameters, met top-2 routing. Dat verklaart waarom het model zo goed presteert met relatief lage latentie: de ~280 miljard parameters die per query actief zijn, draaien binnen redelijke tijd, terwijl de totale capaciteit van 1,76 biljoen parameters breder kennis opslaat dan een puur dense model van die rekenbandbreedte zou kunnen.

Andere duidelijke MoE's:

  • Mixtral 8x7B en Mixtral 8x22B van Mistral — open-source MoE's die op consumer-hardware draaibaar zijn.
  • DeepSeek V3 (2024) — 671 miljard totaal, 37 miljard per token actief. Bijzonder goedkoop om te trainen door slimme MoE-ontwerpen.
  • Qwen 2.5-Max — Alibaba's MoE-model dat in 2025 GPT-4o benaderde op benchmarks.
  • Google's Switch Transformer (2021) — een van de eerste grote MoE-modellen, met tot een biljoen parameters.

De trend is duidelijk: voor frontier-modellen is MoE de standaard geworden. Pure dense modellen bestaan nog (Llama 3 70B bijvoorbeeld), vooral aan de kleinere kant waar MoE-overhead minder loont.

De kostenkant

MoE lijkt een win-win. Meer parameters, minder rekenwerk per query. Waarom bestaan er dan nog dense modellen? Omdat MoE zijn eigen complicaties meebrengt.

Geheugen. Alle experts moeten in GPU-geheugen staan, ook de inactieve. Een MoE van 1,76 biljoen parameters vreet evenveel RAM als een dense model van die grootte. Voor consumer-hardware is dat onhaalbaar, zelfs al doet elke query maar een fractie.

Training-complexiteit. Het trainen van MoE's is technisch uitdagender. De router moet mee leren, experts moeten voldoende variatie krijgen zonder dat één expert alle queries opeist (een probleem genaamd routing collapse). Load-balancing technieken zijn nodig om dit te voorkomen.

Infrastructuur. Het efficiënt draaien van een MoE vraagt specifieke software en hardware-keuzes. Je wil experts over meerdere GPU's verdelen met snelle onderlinge verbinding, anders verlies je de efficiency-winst aan communicatie-overhead.

Kwaliteits-variantie. Een MoE is niet automatisch beter dan een even grote dense variant. Het hangt af van hoe goed de routering werkt. Slecht getrainde MoE's kunnen slechter presteren dan eenvoudiger dense alternatieven.

De bredere betekenis

Mixture of experts is een voorbeeld van een bredere trend in AI-architectuur: sparse computation. Het idee dat niet alle parameters altijd hoeven mee te doen. Dat delen van het model kunnen 'slapen' terwijl andere delen werken.

Dit is ook hoe biologische hersenen werken. Niet alle 86 miljard neuronen vuren tegelijk — slechts een klein deel is op enig moment actief, afhankelijk van wat je doet. Je wiskundige redenering en je herkenning van je moeder lopen over andere neurale paden. Evolutionair heeft het brein de MoE-truc al lang geleden uitgevonden.

Of dat betekent dat MoE-architecturen "biologischer" zijn, is filosofisch. Pragmatisch is duidelijk dat ze efficiënter schalen dan dense alternatieven. Als de trend doorzet, zijn de modellen van 2028 en later vrijwel allemaal MoE's, en zullen ze met tientallen biljoenen parameters totaal werken terwijl ze per query "slechts" honderden miljarden activeren.

Wat het voor gebruikers betekent

Praktisch: niet veel direct. De MoE-architectuur verbergt zich onder de API. Je stelt een vraag, je krijgt een antwoord, je merkt niet dat er acht experts zijn geraadpleegd en er twee hebben gereageerd. De transparantie is nihil.

Maar indirect verandert het wel hoe AI zich kan blijven ontwikkelen. Zonder MoE (of vergelijkbare efficiency-technieken) zouden frontier-modellen steeds duurder worden, tot ze economisch onhaalbaar werden. Met MoE kunnen ze groter worden zonder dat elke query evenredig meer kost. Dat is de reden dat de prijzen van AI de afgelopen jaren zijn gedaald, niet gestegen.

De volgende versie van Claude, GPT of Gemini die je over een jaar gebruikt, zal waarschijnlijk meer parameters hebben en toch niet veel duurder zijn per vraag. Dank je mixture of experts.

Een handjevol slimme ontwerpers aan het begin van 2020 bedacht dat niet alles altijd mee hoefde te doen. Dat inzicht draagt nu, stilletjes, de economische levensvatbaarheid van een hele industrie.

Veelgestelde vragen

Zijn de 'experts' echt experts in specifieke onderwerpen?+

Niet expliciet. Tijdens training leren ze zichzelf specialisaties aan, maar die zijn niet altijd menselijk interpreteerbaar. Eén expert kan zich op syntax concentreren, een ander op wiskunde, een derde op iets wat geen naam heeft. Het routeringsmechanisme leert dit zelf uit de trainingsdata.

Wie bepaalt welke expert wordt gekozen?+

Een ander klein netwerk, de 'router' of 'gate'. Voor ieder token in de input berekent dit netwerk hoe sterk elke expert moet bijdragen. Meestal worden de top-2 experts geselecteerd en hun output gewogen gecombineerd.

Waarom is GPT-4 geheimzinnig over zijn architectuur?+

OpenAI heeft de exacte specificaties nooit officieel bevestigd. Wat bekend is komt uit gelekte details door George Hotz en bevestigende technische analyses. Concurrentievoordeel en veiligheidsoverwegingen worden als redenen genoemd.

Kan ik een MoE-model thuis draaien?+

Voor kleinere varianten: ja. Mixtral 8x7B draait op een goede consumer-GPU. Voor echt grote MoE's heb je nog steeds serverhardware nodig — het totaal aantal parameters blijft groot, zelfs al is maar een fractie per query actief, want ze moeten in geheugen staan.

Deel dit artikel
X / Twitter ↗ Facebook ↗ Mail ↗
Laten we praten

Vragen die je eigen project betreffen?

Elke call begint met luisteren. Vertel waar je staat, dan denken we samen verder.

Binnen 24u een reactie. Altijd persoonlijk.