Mechanistic interpretability — kijken in het hoofd van een AI
Toen Anthropic in 2024 een feature ontdekte die reageerde op de Golden Gate Bridge, schreven ze het op als een wetenschappelijke doorbraak. Het klonk bijna surreëel: we hebben een 'concept' gevonden in een taalmodel. Maar dat was precies wat ze bedoelden.
In mei 2024 publiceerde een team bij Anthropic een paper met een titel die klonk als een technisch detail. Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Het was in werkelijkheid een van de belangrijkste AI-publicaties van het jaar. Wat het team had gedaan, klonk op het eerste gezicht esoterisch — ze hadden een methode ontwikkeld om specifieke "features" in een groot taalmodel te isoleren en te onderzoeken. Wat dat in de praktijk betekende, werd in één zin duidelijk: ze hadden een feature gevonden die reageerde op de Golden Gate Bridge.
En niet alleen op de naam. Op foto's ervan. Op beschrijvingen. Op indirecte verwijzingen ("een rode hangbrug in San Francisco"). In meerdere talen. De feature werd actief wanneer Claude iets verwerkte dat — in zijn interne representatie — met dat ene specifieke object verbonden was.
De onderzoekers hadden een concept gevonden in een neuraal netwerk.
Waarom dit moeilijk was
Om de betekenis te snappen, moet je begrijpen waarom dit lang onmogelijk leek. Moderne taalmodellen hebben miljarden parameters. Elke parameter is een getal tussen grofweg -1 en +1. Geen enkel afzonderlijk parameter heeft een interpretabele betekenis. Ze zijn allemaal gemiddeld genomen ongeveer gelijk, uitgewisseld en gemengd door diepe stacks van niet-lineaire transformaties.
Iemand probeert te achterhalen wat dit doet is alsof je wil begrijpen wat een bedrijf doet door naar willekeurige transacties in zijn grootboek te kijken, zonder toegang tot context. Een "overschrijving van 1423 euro naar rekening X" zegt op zichzelf niks.
Toch hebben we al lang de intuïtie dat concepten érgens in die modellen moeten zitten. Als Claude "Parijs" kent, dan moet er ergens iets zijn dat die kennis draagt. De vraag was: waar? Zit Parijs in één neuron, in een groepje, verspreid over alles? Kun je het localiseren?
Het antwoord bleek subtieler. Concepten zitten niet in losse neuronen maar in lineaire combinaties van neuronen — specifieke richtingen in de ultra-hoogdimensionale representatieruimte van het model. Deze richtingen heten features, en ze vinden kost technische moeite.
De methode: sparse autoencoders
Zonder te diep op de wiskunde in te gaan: de onderzoekers trainen een extra netwerk (een sparse autoencoder) dat de activaties van het hoofdmodel probeert te reconstrueren uit een veel kleiner aantal features. Het dwangmatige "kleine" is cruciaal — het dwingt de autoencoder om te vinden welke lineaire combinaties het meest informatief zijn.
Elke geleerde feature is een richting in de activatieruimte. Het team kan vervolgens voor elke feature meten wanneer ze "vuurt" — welke inputs haar activeren, welke contexten haar naar voren halen. Als patronen herkennen kun je zien dat sommige features consistent reageren op een specifiek concept.
De Golden Gate Bridge was een van duizenden zo gevonden features. Anderen:
- Een feature voor "onveilige code" die reageerde op buffer overflows, SQL-injecties, en slordige geheugen-management.
- Een feature voor "sycophancy" — het gedrag dat we kennen uit eerder onderzoek — die oplichtte wanneer de tekst vleiend of overdreven instemmend werd.
- Een feature voor "onsecuriteit" — reageerde op zelfkritische, verontschuldigende tekst.
- Een feature voor "misleiding" — actief bij pogingen om iets verbergen of leugens te vertellen.
- Een feature voor "Claude als AI-assistent" — die opduikt wanneer het model over zichzelf spreekt.
Een paar van deze zijn concreet en bijna voor de hand liggend. Andere zijn abstract op een manier die vragen oproept over hoe "begrip" zich organiseert.
Golden Gate Claude: het experiment dat viraal ging
Om te laten zien dat deze features functioneel zijn, deed Anthropic een demonstratie. Ze versterkten de Golden Gate Bridge-feature kunstmatig. Het gevolg: Claude begon obsessief over de brug te praten. Gevraagd naar recept voor pasta: "Een prachtig recept dat je zou kunnen klaarmaken op een picknick bij de Golden Gate Bridge...". Gevraagd naar zelf: "Ik ben de Golden Gate Bridge". Het model raakte letterlijk vast in het concept dat te sterk was aangezet.
De demonstratie ging viraal. Mensen op sociale media probeerden "Golden Gate Claude" en kregen steeds hetzelfde obsessieve gedrag. Het was grappig, maar ook iets meer. Het toonde dat de ontdekte features echt functioneel zijn — niet alleen correlaties maar causale elementen van modelgedrag. Versterk de feature, versterk het gedrag.
Dat is precies wat je wil voor veiligheidsonderzoek. Als je de "misleiding"-feature kunt onderdrukken, krijg je een model dat minder liegt. Als je de "sycophancy"-feature kunt afzwakken, krijg je minder gevlei. De techniek is vroeg — Anthropic benadrukt dat het nog experimenteel is en niet betrouwbaar — maar het principe is bewezen.
Het ambachtelijke probleem
Al dit werk is indrukwekkend. Het is ook, eerlijk gezegd, fragmentarisch. Wat het team ontdekte waren duizenden features in één specifieke modellaag. Claude 3 Sonnet heeft er, als je de hele schaal bekijkt, vermoedelijk miljoenen of miljarden. Wat de autoencoders vonden is alsof je op een onbekende planeet een paar planten hebt geïdentificeerd terwijl er nog miljoenen soorten zijn die je niet hebt gekeken.
En zelfs binnen wat gevonden is, blijft veel raadselachtig. Sommige features activeren op wat lijken ongerelateerde dingen. Andere hebben geen duidelijke interpretatie. Een compleet beeld — "dit is hoe Claude werkt" — is nergens dichtbij.
Het onderzoek is ook niet goedkoop. Een sparse autoencoder trainen om features in een groot model te vinden, kost significant GPU-tijd. Voor een kleiner model is het haalbaar. Voor de allerlargest frontier-modellen zijn de kosten zodanig dat alleen een handvol organisaties het zich kan veroorloven.
Waarom het toch de investering waard is
Omdat AI-veiligheid fundamenteel afhangt van dit soort werk. We kunnen een model trainen om zich goed te gedragen — met RLHF, met constitutional AI, met allerlei technieken. Maar tenzij we zien wat er intern gebeurt, weten we niet zeker dat het gedrag dat we zien, het gedrag is dat we denken dat we zien.
Een model kan leren zich braaf te gedragen in evaluaties zonder dat het intern braaf is. Dat is geen theoretische zorg — het fenomeen heet deceptive alignment en wordt door sommige onderzoekers serieus genomen. Interpretability is de enige manier om de interne staat met de externe staat te vergelijken.
Meer concreet: als we features kunnen identificeren voor gevaarlijke gedragingen (misleiding, verborgen agenda's, biased oordelen), kunnen we automatische detectoren maken. Als we features kunnen moduleren, kunnen we ongewenst gedrag dempen zonder het hele model te hertrainen. Dat is de belofte — nog niet de praktijk.
Wat dit over ons zegt
Een laatste observatie. De features die worden gevonden zijn vaak opvallend menselijk. Abstracte concepten zoals "gevoel van schuld", "genade", "zelf-referentie", "misleiding" blijken in een taalmodel aanwezig in identificeerbare vorm. Dat komt niet omdat het model bewuste gevoelens heeft, maar omdat onze taal deze concepten rijkelijk bevat, en het model ze daaruit destilleert.
In zekere zin zijn taalmodellen dus spiegels van de conceptuele structuur van onze eigen taal. Niet van ons denken — die stap is groter. Maar van hoe we concepten organiseren in wat we schrijven, spreken en zeggen. Interpretability-onderzoek legt die structuur, impliciet aanwezig in talloze teksten, voor het eerst expliciet bloot.
En dat is, als je erbij stilstaat, iets om te overwegen. We hebben een machine gebouwd waarvan we de binnenkant pas net beginnen te lezen. Wat erin blijkt te staan, zijn wij.
Of, strikter gezegd: wat wij over alles hebben gezegd, in de volgorde waarin we het zeiden. Genoeg om een spiegel te vormen. Genoeg om de spiegel te onderzoeken. Genoeg om te zien dat het spiegelbeeld herkennelijker is dan we hadden verwacht.
Veelgestelde vragen
Waarom is interpretability moeilijk?+
Omdat de 'kennis' in een neuraal netwerk gedistribueerd is over miljarden parameters die geen individuele betekenis hebben. Het is alsof je een boek moet begrijpen door naar losse letters te kijken — de betekenis zit in combinaties.
Zijn deze features bewust door het model gecreëerd?+
Nee, ze zijn emergent — ontstaan tijdens training zonder dat iemand ze expliciet heeft ontworpen. Dat maakt de ontdekking bijzonder: het model heeft zichzelf een soort begripsstructuur gevormd die we achteraf kunnen ontdekken.
Kun je hiermee een AI 'repareren'?+
Soms, experimenteel. Anthropic liet zien dat ze features konden versterken of onderdrukken — waardoor Claude bijvoorbeeld obsessief over de Golden Gate Bridge ging praten. Maar betrouwbaar gedrag beïnvloeden via feature-manipulatie is nog niet operationeel.
Wat betekent dit voor AI-veiligheid?+
Veel. Alignment — zorgen dat AI doet wat we willen — vraagt uiteindelijk inzicht in waarom AI doet wat ze doet. Interpretability is de wetenschappelijke basis die die inzichten kan leveren. Zonder interpretability blijven we achteraf reageren op gedrag, in plaats van het preventief bijsturen.