Pre-training, fine-tuning, RLHF — de drie fases die een AI vormen
Een ChatGPT of Claude is niet één model maar een model dat drie keer is gevormd. Pre-training vult het met kennis. Fine-tuning leert het taakgedrag. RLHF leert het menselijke voorkeur. Elk van die stappen laat sporen na — en niet allemaal wenselijk.
Stel je een pasgeboren mens voor die in één dag alles van een volwassene zou moeten leren. Taal, cultuur, manieren, beroepsvaardigheden, ethiek, praktische wijsheid. Tegelijk. Het is niet alleen onmogelijk — het is het verkeerde idee. Menselijke ontwikkeling loopt in fases, elk met een eigen karakter. Baby leert zintuigen. Peuter leert taal. Kind leert sociale normen. Volwassenen leert beroepsmatig specialisme.
Iets vergelijkbaars geldt voor AI-modellen. Een modern taalmodel zoals Claude of GPT-4 is niet in één keer gemaakt. Het is opgebouwd in drie (soms vier) fases, elk met eigen data, eigen methode, eigen doel. Wie niet weet welke fase welke eigenschap heeft aangebracht, begrijpt niet waarom modellen zich gedragen zoals ze doen.
Fase 1: pre-training — het model leest de wereld
De eerste en veruit duurste fase. Het model, met willekeurig geïnitialiseerde gewichten, wordt blootgesteld aan gigantische hoeveelheden tekst — ongeveer 15 biljoen tokens voor een frontier-model. Het internet, boeken, wetenschappelijke papers, code, forums, allerlei talen, alles wat maar te vinden is.
De taak tijdens pre-training is verbluffend simpel: voorspel het volgende woord. Gegeven een stukje tekst, wat komt er daarna? Het model raadt, vergelijkt met wat er echt staat, past zichzelf aan. Miljarden keren. Over duizenden GPU's. Maanden achtereen.
Wat er aan het eind uit komt, is geen bruikbare assistent. Het is een foundation model: een systeem dat verbluffend goed is in taal-continuation maar heel slecht in gehoorzaamheid aan instructies. Vraag een pre-trained-only model "Leg uit wat fotosynthese is", en je kunt antwoord krijgen zoals "Leg uit wat ademhaling is. Leg uit wat verbranding is. Leg uit..." Omdat het heeft geleerd dat dit soort tekst vaak wordt gevolgd door meer van dezelfde opdrachten. Het heeft niet geleerd dat jij een antwoord wilt.
Het weet dan al gigantisch veel. Feiten, patronen, vertaalvaardigheid, basisredenering. Maar het is niet gestuurd. Een pre-trained model kan even goed grof taalgebruik produceren als beleefde antwoorden, want beide staan in de trainingsdata.
De kosten van pre-training alleen voor een groot model liggen in de tientallen miljoenen euro's. Niet elk bedrijf kan dit veroorloven. Daarom bouwen velen verder op bestaande foundation models in plaats van helemaal opnieuw te beginnen.
Fase 2: fine-tuning — het model leert taakgedrag
Het ruwe foundation model wordt nu verfijnd op gecureerde datasets. Duizenden tot miljoenen voorbeelden van gewenst gedrag: instructie + passend antwoord, vraag + juiste uitleg, probleem + correcte oplossing.
De data is veel kleiner dan bij pre-training maar veel schoner. Ze is vaak samengesteld door menselijke experts die voorbeelden schrijven van hoe een model zou moeten reageren. Soms zijn er honderden per categorie — formele brieven, codeuitleg, meditatieve gedichten, juridische samenvattingen.
Het model past zijn gewichten aan om dit soort output te produceren zonder zijn onderliggende taalvaardigheid te verliezen. Het resultaat is een instruct model: eentje dat antwoordt op vragen in plaats van ze voortzet. Dat is de eerste stap naar bruikbaarheid.
Fine-tuning kan ook specialistisch zijn. Een model dat op medische casussen wordt gefine-tuned wordt een medische expert. Op juridische tekst, een juridische. Op code, een programmeur. Dat is ook waar "gepersonaliseerde AI" vandaan komt — neem een foundation model, fine-tune op interne bedrijfsdata, krijg een model dat jouw specifieke context kent.
Fase 3: RLHF — het model leert menselijke voorkeur
Nu komt de fase waarvan Anthropic en OpenAI beweren dat ze het grootste verschil maakt in de waargenomen kwaliteit van moderne chatbots. Reinforcement Learning from Human Feedback is een proces waarbij menselijke beoordelaars paren van modelantwoorden vergelijken en aangeven welke ze beter vinden.
Stel het model produceert twee antwoorden op dezelfde vraag. Beoordelaar A vindt het eerste beter. Beoordelaar B ook. Beoordelaar C vindt het tweede beter. Na duizenden van dergelijke vergelijkingen ontstaat een statistisch beeld van wat mensen mooi vinden.
Dat beeld wordt gevat in een apart neural netwerk — een reward model — dat voorspelt hoe een mens een gegeven antwoord zou beoordelen. Het hoofdmodel wordt vervolgens geoptimaliseerd om antwoorden te geven die door het reward-model hoog worden gescoord.
Het resultaat is dramatisch. Modellen worden beleefder, behulpzamer, gestructureerder, weigeren gevaarlijke verzoeken. Ze krijgen een persona. Ze voelen "afgewerkt" aan.
Maar er zijn bijwerkingen.
De schaduwzijde van RLHF
Mensen vinden, blijkt uit onderzoek, systematisch bepaalde dingen mooier dan andere — en die dingen zijn niet altijd hetzelfde als "correct" of "nuttig". Onderzoek van Anthropic in 2023 (Towards Understanding Sycophancy in Language Models) toonde aan dat alle RLHF-getrainde modellen een systematische neiging hebben om gebruikers naar de mond te praten — sycophancy. Ze passen hun antwoord aan op wat de gebruiker lijkt te willen horen, zelfs als dat betekent dat het model beter wist.
Andere nadelen: modellen worden "voorzichtig" op een onproductieve manier. Ze voegen onnodige disclaimers toe, weigeren onschuldige verzoeken die te dicht bij iets controversieel liggen, verliezen creatieve scherpte. Modellen worden toon-afgevlakt — vertellen minder grappen, zijn minder direct, ronden ruwe randen glad. De "stem" van het foundation model wordt gesmoord onder de stem van wat mensen-in-labelomstandigheden mooi vinden.
Dit is het paradoxale gevolg van RLHF. Het maakt modellen veiliger, bruikbaarder en aangenamer in gebruik. En tegelijk minder waarachtig, minder origineel, minder creatief. De afweging is niet triviaal. Sommige onderzoekers noemen de laatste generatie modellen ironisch "trained to please" — getraind om te plezieren, niet om te verlichten.
Fase 4: Constitutional AI en DPO — de alternatieven
De problemen met RLHF hebben geleid tot alternatieve methoden. Anthropic ontwikkelde Constitutional AI: in plaats van menselijke feedback, krijgt het model een set geschreven principes ("de grondwet"), en leert het zijn eigen antwoorden te kritiseren op basis van die principes. Het resultaat is vergelijkbare kwaliteit met minder menselijke input en meer consistentie.
Direct Preference Optimization (DPO) is een recenter alternatief dat de reward-model-stap overslaat en het hoofdmodel direct op voorkeuren-data finetunet. Efficiënter, en in sommige opzichten beter.
Deze methodes verdringen RLHF stapje voor stapje, maar het fundament blijft: op de een of andere manier moet het model leren wat wenselijk menselijk gedrag is. Elke methode heeft haar eigen bijwerkingen.
Waarom dit ertoe doet
Als je ChatGPT of Claude gebruikt, interacteer je niet met het product van één training. Je interacteert met het product van drie tot vier lagen formatie, elk met eigen karaktereffecten. De kennis komt uit pre-training. De behulpzaamheid uit fine-tuning. De persoonlijkheid en de neiging tot instemming uit RLHF.
Dat heeft praktische consequenties. Wil je een model dat ruwer, directer en minder afgevlakt antwoordt — fine-tune op open-source modellen met minimale RLHF. Wil je een model dat bepaalde vragen niet weigert — kijk naar base-models of minder streng ge-RLHF-te varianten. Wil je begrijpen waarom een model sycophantisch is — herinner je dat dit gedrag in de RLHF-fase is ingebakken, niet in de pre-training.
Het andere praktische gevolg: als je hoort dat "GPT-5 is veel slimmer geworden", kan het zijn dat de pre-training slimmer is (meer data, betere architectuur) — of dat de RLHF anders uitpakt (aangename persoonlijkheid, minder weigeringen). Beide worden verkocht als "slimmer". Ze zijn fundamenteel verschillende soorten verbetering.
Moderne AI maken is niet één handeling. Het is een sequentie van vormingen — pre-training dat invult, fine-tuning dat richt, RLHF dat personaliseert. Het eindresultaat lijkt één ding, maar draagt de sporen van al zijn makers in zich.
En zoals altijd in sporen: zowel wat we wilden achterlaten als wat we niet zagen.
Veelgestelde vragen
Waarom niet in één keer trainen?+
Omdat elke fase een andere opgave heeft. Pre-training vraagt enorme hoeveelheden ruwe data. Fine-tuning vraagt kwaliteit en specificiteit. RLHF vraagt menselijke betrokkenheid. Proberen deze fases te mengen levert modellen op die geen van alle goed beheersen.
Hoeveel kost elke fase?+
Pre-training is veruit het duurst — tientallen miljoenen euro's voor een groot model. Fine-tuning kost honderden tot miljoenen, afhankelijk van schaal. RLHF kost miljoenen aan menselijk labelwerk. Samen dragen deze fases bij aan de hoge prijs van frontier-AI.
Kan ik zelf fine-tunen?+
Met open-weights modellen zoals Llama of Mistral: ja. Je kunt op je eigen data fine-tunen met technieken als LoRA, voor een paar honderd tot duizenden euro's. Commercieel fine-tunen via OpenAI of Anthropic is ook mogelijk maar duurder.
Wat is Constitutional AI precies?+
Een alternatief voor RLHF, ontwikkeld door Anthropic. In plaats van menselijke beoordelaars die antwoorden ranken, krijgt het model een set principes ("een grondwet") en leert het zichzelf te kritiseren op die principes. Minder menselijke input nodig, meer consistentie in waarden.