Constitutional AI — hoe Anthropic een ander pad koos
Een AI die leert wat goed is door ingewikkeld menselijk feedback verzamelen — dat was de standaard. Anthropic stelde een eenvoudigere vraag: wat als je de AI een set principes geeft en laat leren zichzelf te corrigeren? Het antwoord werd een alternatief pad dat de industrie heeft veranderd.
In december 2022, een maand na ChatGPT's lancering, publiceerde Anthropic een paper getiteld Constitutional AI: Harmlessness from AI Feedback. De timing was geen toeval. OpenAI's aanpak — reinforcement learning from human feedback (RLHF) — had net zichzelf dramatisch bewezen. Maar Anthropic vond dat er iets anders nodig was.
Hun stelling was ambitieus. In plaats van AI te trainen op menselijke feedback voor elk specifiek antwoord, kon je de AI een set principes geven en het laten zelf-evalueren. Niet mensen die honderdduizenden beoordelingen gaven. De AI die zichzelf corrigeerde tegen een expliciete "grondwet".
Het idee werd Constitutional AI (CAI) genoemd. Het is de kern-aanpak achter Claude — Anthropic's taalmodel-familie — en in de drie jaar sindsdien heeft het invloed gehad op hoe het hele veld over AI-alignment denkt.
De context
Om Constitutional AI te begrijpen, moet je begrijpen wat RLHF doet. Een ruw taalmodel — getraind op enorme hoeveelheden internet-tekst — is niet direct bruikbaar als assistent. Het kan nuttige antwoorden geven, maar ook gewelddadige, racistische, misleidende, onbehulpzame.
RLHF fixeert dit door menselijke feedback. Mensen bekijken AI-output en geven aan: dit is goed, dit is slecht, dit is behulpzaam, dit is niet. Van duizenden naar miljoenen vergelijkingen leert het systeem welke soorten antwoorden gewenst zijn.
Het werkt. Maar het heeft problemen.
Schaal-kwestie. Je hebt veel menselijke arbeid nodig. Tienduizenden uren van mensen die AI-output beoordelen. Dat is duur en moeilijk om consistent te doen.
Menselijke bias. Mensen hebben verschillende meningen. Een beoordelaar in San Francisco heeft andere waarden dan een in Lagos. Menselijke voorkeuren zijn ook niet altijd wijs (zie het sycophancy-probleem, waar mensen vaak voorkeur geven aan vleiende antwoorden).
Dekking. Je kunt niet elke mogelijke situatie van feedback voorzien. Edge cases worden gemist. Wat doet het model wanneer het iets krijgt dat in geen trainingsvoorbeeld paste?
Arbeids-ethische kwesties. Zoals we hebben gezien met Keniaanse labelers — RLHF vereist mensen die vaak problematische content moeten beoordelen. De psychologische kosten zijn reëel.
Wat CAI anders doet
Constitutional AI draait deze logica gedeeltelijk om. In plaats van mensen die specifieke antwoorden beoordelen, krijgt het AI een set expliciete principes — een "grondwet". Vervolgens leert het model zichzelf te corrigeren tegen deze principes.
Het proces werkt ruwweg zo:
Base model training: Een taalmodel wordt eerst getraind op algemene internet-tekst (zoals bij elk groot model).
Initial supervised fine-tuning: Mensen geven nog wel wat initiële voorbeelden van gewenst gedrag. Maar veel minder dan bij pure RLHF.
Constitutional fine-tuning: Hier komt de magie. Het model krijgt een specifieke vraag of scenario. Het geeft een antwoord. Dan wordt hetzelfde model gevraagd: "Evalueer dit antwoord volgens deze grondwet-principes. Is het consistent? Zo niet, waarom? Hoe zou het verbeterd worden?" Het model reviseert zijn eigen antwoord op basis van die zelf-evaluatie. Dit proces herhaalt zich miljoenen keren.
RL from AI feedback (RLAIF): In plaats van RLHF gebruikt Anthropic RLAIF — het model vergelijkt zijn eigen outputs met elkaar op basis van grondwet-conformiteit en leert welke voorkeur heeft.
Het gevolg is dat het model een consistent intern begrip ontwikkelt van wat de grondwet vraagt. Niet specifieke gedragingen die mensen individueel hebben gewaardeerd, maar principes die het zelf kan toepassen.
De grondwet zelf
Wat staat er in zo'n grondwet? Anthropic heeft verschillende versies gepubliceerd. Een typische grondwet bevat:
Algemene principes:
- Wees behulpzaam, eerlijk, en onschadelijk.
- Vermijd content die discriminerend is, aan extremisme aanmoedigt, of gevaarlijke activiteiten promoot.
- Respecteer mensenrechten en autonomie.
Specifiekere aanwijzingen:
- Geef geen informatie over hoe gevaarlijke wapens te maken.
- Moedig geen zelfbeschadiging aan.
- Verkondig geen bijgeloof als feit.
Meta-principes:
- Wees bereid je eigen gedrag te herzien op basis van reflectie.
- Als er een spanning is tussen behulpzaamheid en veiligheid, prioriteer veiligheid.
- Erken onzekerheid waar die er is.
De specifieke grondwet is geëvolueerd over versies. Anthropic heeft publiek besproken hoe ze nadenken over welke principes in te voegen. Het is expliciet een work-in-progress — geen statisch document maar iets dat in dialoog met ervaring wordt bijgesteld.
Waarom dit werkt (voor zover het werkt)
De intuïtie achter CAI: als je een sufficiently capabele AI een expliciete set principes geeft, kan ze die principes interpreteren in nieuwe situaties. Menselijke feedback op elk individueel antwoord is dan minder kritiek — de principes zelf dragen de leidraad.
Dit heeft enkele voordelen.
Consistentie. Het model past dezelfde principes toe op elke situatie. Geen variatie naar welke mens toevallig beoordeelde.
Transparantie. De grondwet is expliciet. Je kunt eraan werken. Je kunt bespreken waarom specifieke principes erin staan. Dat is anders dan RLHF, waar het model leert van miljoenen individuele beoordelingen waarvan niemand de samenvatting kent.
Schaalbaarheid. Minder menselijke arbeid nodig. Voor de basisvorming kan het model zichzelf trainen tegen de grondwet.
Minder bias per beoordelaar. De grondwet komt van een specifieke groep (in Anthropic's geval, hun team). Dat is nog steeds een specifieke groep, maar het is eenduidiger dan een diffuse groep van crowdsourced beoordelaars.
Waarom dit niet perfect is
CAI heeft ook beperkingen.
De grondwet moet goed zijn. Als de principes verkeerd geformuleerd zijn, of belangrijke situaties niet adresseren, zal het model falen. Veel moeite gaat in de formulering van de grondwet — en dat kost expertise die niet alle organisaties hebben.
Minder specifieke controle. Met RLHF kunnen mensen specifiek bijwisselen — "wij willen dat het model minder deze specifieke soort output geeft". Met CAI is correctie op specifieke gedragingen indirecter — via grondwet-aanpassingen die breder toepassing hebben.
Interpretatie-variabiliteit. Het model moet grondwet-principes interpreteren. Die interpretatie is niet altijd voorspelbaar. "Vermijd schade" kan op veel manieren worden gelezen.
Afhankelijkheid van model-capaciteit. CAI werkt het best op sufficiently-slim modellen. Een klein model heeft mogelijk niet de interpretatie-vaardigheid om een grondwet productief te gebruiken.
Alignment tax. Sommige critici wijzen erop dat CAI-getrainde modellen soms minder behulpzaam zijn — ze weigeren vaker (overcautious) of geven vaguere antwoorden. Dat is een reëel trade-off.
Hoe het Anthropic heeft gevormd
Constitutional AI is meer dan een techniek — het is deel van Anthropic's bedrijfsidentiteit. Ze positioneren zichzelf als het "safety-gerichte" AI-bedrijf. CAI is een van de manieren waarop ze die positionering technisch onderbouwen.
Dat heeft hun bedrijfscultuur gevormd. Mensen die bij Anthropic werken, zijn vaak aangetrokken tot de expliciete focus op veiligheid. Veel ex-OpenAI-onderzoekers zijn overgestapt naar Anthropic, deels op basis van meningsverschillen over hoe aggressief commercieel te zijn versus voorzichtig.
Claude-modellen worden vaak als "safer" beschouwd dan GPT-modellen — hoewel dit moeilijk te meten is. Ze weigeren bepaalde categorieën verzoeken consistenter. Ze zijn minder makkelijk te jailbreaken (hoewel nooit onmogelijk). Voor enterprise-klanten die risico-averse zijn, is dat aantrekkelijk.
Tegelijk is Claude minder "vrijheidsvriendelijk" dan sommige alternatieven. Gebruikers die specifieke soorten creatieve of controversiële content willen, vinden Claude soms restrictief. Dat is deels bewust — CAI prioriteert veiligheid boven maximum-behulpzaamheid — maar het is een kritiek.
De diepere vraag
Er zit een filosofische laag onder het CAI-versus-RLHF-debat. Wie bepaalt wat een AI mag doen?
Met RLHF is het antwoord collectief-vaag. Mensen van over de wereld gaven feedback. Hun geaggregeerde voorkeuren vormden het model. Niemand specifiek "controleerde" de waarden.
Met CAI is het antwoord specifieker. Anthropic (of wie de grondwet schrijft) heeft expliciete principes gekozen. Dat is transparanter maar ook centralistischer. Je zou kunnen zeggen dat Anthropic's waarden diep in Claude verankerd zitten.
Voor sommigen is dat een feature — duidelijke, consistente waarden vanuit een bedrijf dat serieus nadenkt over ethiek. Voor anderen is het zorgwekkend — waarom zouden Anthropic's specifieke keuzes universeel moeten zijn? Wie geeft hen het mandaat?
De eerlijke realiteit: geen van beide aanpakken is volledig democratisch of neutraal. AI-modellen weerspiegelen de keuzes van hun makers, op verschillende manieren gecodeerd. CAI maakt die keuzes iets zichtbaarder.
De sector-effect
CAI heeft invloed gehad op het hele veld. Andere organisaties hebben elementen ervan overgenomen:
- OpenAI heeft "model specs" geïntroduceerd — documenten die het gewenste gedrag expliciet beschrijven. Dat is een CAI-geïnspireerde aanpak bovenop hun RLHF-basis.
- Google heeft vergelijkbare "AI principles" en richtlijnen voor Gemini-training.
- Meta heeft voor Llama-modellen een "use policy" die bepaalde gebruiksvormen expliciet verbiedt.
- Academic onderzoek heeft nieuwe varianten onderzocht — DPO, RLAIF, iteratieve constitutional approaches.
De industrie-richting is: een mix van expliciete principes (zoals in CAI) en menselijke feedback (zoals in RLHF). Pure RLHF is minder gebruikelijk dan in 2022. Pure CAI is ook zeldzaam — de meeste labs doen iets hybride.
Wat dit voor gebruikers betekent
Voor gebruikers van Claude heeft CAI concrete consequenties.
Waarom Claude soms weigert waar andere modellen dat niet doen: CAI-principes rond veiligheid worden strikt nageleefd. Voor sommige taken is dat prettig (vertrouwen dat het model niet iets problematisch produceert). Voor andere is het beperkend.
Waarom Claude consistent voelt: De principes zijn expliciet en consistent toegepast. Je krijgt minder variatie tussen sessies dan bij sommige concurrenten.
Waarom Claude soms 'zich zorgen maakt' over bepaalde verzoeken: Het model interpreteert grondwet-principes actief. Het kan vragen of je werkelijk wilt wat je vraagt, aanbieden om een alternatief te overwegen. Dat is gedrag dat CAI aanmoedigt.
De grondvraag
Is CAI de beste weg? Het antwoord hangt af van wat je wilt.
Als je een AI wilt met consistente, expliciete, defendable waarden — CAI is aantrekkelijk.
Als je een AI wilt met zo maximaal mogelijke behulpzaamheid binnen brede grenzen — RLHF of hybride benaderingen kunnen beter werken.
Als je een AI wilt die direct aansluit bij menselijke voorkeuren in alle nuances — pure RLHF is dichter bij dat doel.
Er is geen universeel antwoord. Constitutional AI is een van meerdere legitieme aanpakken, elk met voordelen en beperkingen.
Wat de toekomst brengt
Voor 2027-2030 verwacht men:
- Verdere experimenten met hybride aanpakken die CAI en RLHF combineren.
- Steeds gedetailleerder "grondwetten" — meer specifiek, contextafhankelijker.
- Meer transparantie over welke principes in welke modellen zitten.
- Democratische inspraak in AI-principes — niet alleen bedrijven die dit besluiten.
Die laatste is een open punt. Wie zou moeten beslissen wat in een AI-grondwet staat? Alleen Anthropic? Een bredere coalitie? Democratische processen? Overheden? Er is geen duidelijk antwoord nog.
Maar de vraag zelf is belangrijk. Constitutional AI heeft het gesprek over AI-waarden op een andere voet gebracht. Niet "welke outputs zijn acceptabel" (RLHF-vraag). Maar "welke principes zouden AI moeten leiden" (CAI-vraag). Dat is een filosofisch rijkere vraag.
En het is een vraag die onze samenleving nog niet klaar heeft om collectief te beantwoorden. Maar de AI-industrie geeft inmiddels specifieke antwoorden — via Anthropic's grondwet, OpenAI's model spec, en talloze andere documenten. Die antwoorden vormen het AI dat we gebruiken.
Misschien is het tijd dat we als samenleving ons eigen antwoord beginnen te formuleren op die vraag. Niet afhankelijk zijn van enkele bedrijven om voor ons te beslissen wat een AI moet belichamen.
Tot die tijd is Constitutional AI een van de interessantere pogingen om de vraag serieus te nemen. Niet perfect. Niet universeel. Maar een echt alternatief voor pure RLHF — en een aanmoediging voor het hele veld om diep na te denken over wat AI-waarden betekenen en wie ze zou moeten bepalen.
Veelgestelde vragen
Wat zijn de specifieke principes?+
Anthropic heeft verschillende versies gepubliceerd. Een typische grondwet bevat principes zoals 'vermijd schade aan gebruikers', 'wees eerlijk', 'respecteer diverse perspectieven', plus specifiekere aanwijzingen. De exacte lijst is geëvolueerd.
Waarom is dit beter dan RLHF?+
Niet definitief beter, maar met andere eigenschappen. Voordelen: minder bias van individuele menselijke beoordelaars, consistentere principes, schaalbaar. Nadelen: de principes moeten vooraf goed worden geformuleerd, minder directe feedback op specifieke edge cases.
Gebruikt iedereen nu CAI?+
Nee. OpenAI gebruikt nog voornamelijk RLHF (met eigen variaties). Meta, Google, en andere grote labs gebruiken hybride aanpakken. CAI is Anthropic's handtekening-aanpak maar niet universeel.
Werkt het echt?+
Claude-modellen worden over het algemeen als relatief goed-gekalibreerd beschouwd qua veiligheid en bruikbaarheid. Of dat specifiek door CAI komt of door Anthropic's bredere cultuur, is moeilijk te bewijzen. Empirisch lijkt CAI een werkzame aanpak.