De Amazon-CV-tool die vrouwen systematisch afwees — en wat ze ons leerde

Amazon wilde hun hiring versnellen. Het experiment duurde een paar jaar. Wat ze ontdekten was dat hun AI, getraind op tien jaar aan cv's, een bias had geleerd die ze nooit hadden bedoeld. En dat die bias niet eenvoudig weg te halen was.

CV's op een bureau — metafoor voor het recruitment-proces dat door AI werd geraakt

In oktober 2018 publiceerde Reuters een artikel met een kop die op het eerste gezicht opmerkelijk klonk en bij nader inzien voorspelbaar was: "Amazon scraps secret AI recruiting tool that showed bias against women." Het bedrijf had vier jaar geïnvesteerd in een systeem dat cv's automatisch moest beoordelen. Het werkte — maar niet zoals bedoeld. Het leerde zichzelf vrouwen te discrimineren.

Het verhaal werd een case study. Het wordt gedoceerd op bedrijfskundige opleidingen, geciteerd in ethiek-papers over AI, opgenomen in elk boek over algoritmische bias. Het is waarschijnlijk het bekendste voorbeeld van wat er gebeurt als je een AI train op data die een historisch probleem bevat zonder dat probleem expliciet aan te pakken.

Het doel

Amazon had een recruitment-probleem. Elke week kwamen duizenden cv's binnen. Menselijke recruiters konden ze niet allemaal zorgvuldig beoordelen. De oplossing leek voor de hand: train een AI die de meest veelbelovende kandidaten kan identificeren, laat de recruiters zich op die kleinere subset concentreren.

In 2014 begon een team van ongeveer een dozijn engineers aan het systeem. De logica was simpel. Neem tien jaar aan ingediende cv's. Kijk wie er vervolgens werd aangenomen en goed presteerde. Train een model om cv's te rangschikken volgens de overeenkomst met de succesvolle hires.

Het model werd getraind op grote aantallen cv's. De meerderheid — van de aangenomen én de goed presterende werknemers — waren mannen. Dat was historisch patroon in tech. Amazon was geen uitzondering; de hele industrie had, en heeft, een onevenredigheid van mannen in technische rollen.

De AI leerde wat die succesvolle cv's gemeen hadden. En een van de patronen die het leerde was: de succesvolle cv's waren overwegend afkomstig van mannen.

Wat er mis ging

Het model begon vrouwelijke signalen negatief te wegen. Als een cv het woord "women" bevatte (bijvoorbeeld "captain of women's chess club"), kreeg het een lagere score. Cv's van twee specifieke vrouwencolleges werden lager gerangschikt. De AI had effectief een voorkeur voor "mannelijke" cv's ontwikkeld, niet omdat iemand het zo had geprogrammeerd, maar omdat ze statistisch patronen had gevonden in de data die precies dat uitdrukten.

Dit was niet simpel "vrouwen worden afgewezen". Het was geavanceerder. Het model had geleerd dat bepaalde linguïstische patronen, vaker voorkomend in vrouwelijke cv's, correleerden met lagere aanname-kansen. Dat kwam niet doordat vrouwen slechter waren, maar doordat er in het verleden minder vrouwen waren aangenomen. De AI leerde een patroon dat historische discriminatie weergaf en paste het automatisch toe op nieuwe beslissingen.

Toen het team dit ontdekte, probeerde ze het te fixen. Ze maakten de model blind voor de woorden die direct op geslacht wezen ("women", namen die herkenbaar vrouwelijk waren). Het bleef discrimineren — nu via subtielere patronen. Het model pakte signalen op zoals werkwoorden die vrouwen vaker gebruiken in hun cv's ("executed", "captured" versus mannelijker "delivered", "built"). Taalpatronen die subtiel aan geslacht correleerden.

Het patroon was hardnekkig. Elke keer dat het team één categorie van signalen verwijderde, vond het model een andere manier om hetzelfde resultaat te bereiken. Na drie jaar proberen gaf Amazon het op. In 2017 werd het project gestaakt. Het werd nooit in productie gebruikt — een belangrijke caveat die in veel navertellingen verloren gaat.

Wat de zaak niet was

Om Amazon's verhaal eerlijk te beoordelen, moeten een paar dingen worden opgemerkt. Het systeem werd nooit in productie gebruikt. Geen vrouw werd daadwerkelijk door dit specifieke systeem afgewezen — het werd als experimenteel beschouwd, intern getest, en gestaakt voordat het impact had op aanname-beslissingen.

Ook was Amazon hierin relatief transparant. Toen Reuters-journalisten het verhaal opgroeven, bevestigde het bedrijf de details. Veel andere bedrijven zouden dit hebben verborgen. Amazon was niet de enige met zulke problemen — waarschijnlijk hebben tientallen bedrijven vergelijkbare experimenten gedaan, soms met systemen die wel in productie zijn gekomen en vrouwen wel hebben benadeeld — maar ze waren wel een van de weinige die een verhaal publiek maakte.

Dat maakt Amazon's pogen niet bewonderenswaardig — een systeem bouwen dat jaren vrouwen zou hebben benadeeld en pas stopzet als de problemen onhanteerbaar werden, is niet een prestatie. Maar het plaatst de zaak in context. Het was niet moedwillig; het was een experiment dat misliep en vroeg genoeg werd stopgezet.

De diepere les

Wat de Amazon-zaak aantoont, gaat verder dan hiring-bias alleen. Het illustreert een algemener probleem met AI-training: de data is een spiegel van het verleden, en het verleden bevat patronen die we niet willen reproduceren.

Ziekenhuizen die AI trainen op historische patient-data kunnen reductie in zorg voor minderheden inbouwen, omdat historisch minderheden minder zorg kregen. Criminelen-rechtbanken die AI trainen op historische arrestatiegegevens kunnen overrepresentatie van zwarte buurten versterken, omdat politie historisch meer in die buurten patrouilleerde. Kredietbeoordelingen die AI trainen op historische leningen kunnen racial disparities bestendigen, omdat historisch discriminatie werd toegepast.

De AI doet niets "verkeerd" in enge zin — ze leert wat ze in de data ziet. Maar als de data een problematisch patroon bevat, wordt dat patroon geautomatiseerd, geaccelereerd en op schaal gebracht. Wat in de menselijke geschiedenis expliciet had kunnen worden bestreden, wordt in AI-systemen impliciet en moeilijker te bestrijden.

Het "fairness"-vraagstuk

Na Amazon's zaak (en vele anderen in dezelfde periode) ontstond een heel veld van onderzoek naar algoritmische fairness — hoe je AI-systemen ontwerpt die minder biased zijn. Technieken variëren: data-preprocessing (bias in data corrigeren voor training), tijdens-training (constraints opleggen die disparate impact voorkomen), na-hoc (output-adjustments).

Al deze technieken hebben trade-offs. Een systeem dat expliciet fairness optimaliseert, verliest meestal enige nauwkeurigheid. Bovendien zijn er verschillende definities van fairness die onverenigbaar zijn — je kunt niet tegelijkertijd gelijke uitkomsten, gelijke foutpercentages, en gelijke voorspellingsnauwkeurigheid over groepen garanderen. Keuze tussen deze definities is een waardenkwestie, geen technische.

In 2026 zijn fairness-tools mainstream in AI-ontwikkeling. Grote bedrijven hebben fairness-teams, audit-processen, bias-testing. De situatie is significant beter dan in 2014. Maar perfect is het niet. Nieuwe toepassingen blijven problemen ontdekken. Elk nieuw AI-systeem dat in HR, gezondheidszorg, financiën, of justitie wordt ingezet, moet opnieuw worden getest op bias.

De werknemerskant

Iets dat vaak onderbelicht blijft: de mensen die in deze systemen werken, zijn zelf vaak niet divers. Als een AI-team dat een CV-screener bouwt vrijwel uitsluitend uit mannen bestaat, is de kans kleiner dat ze vroeg opmerken dat het systeem vrouwen discrimineert. Niet omdat mannen niet oplettend zijn, maar omdat perspectieven die niet aanwezig zijn, moeilijker te vertegenwoordigen zijn.

Amazon's AI-recruitment-team was, volgens de Reuters-berichten, voor het overgrote deel mannelijk. Dat is geen toeval. Het is een structureel probleem in de tech-industrie dat zich vervolgens in de producten ervan manifesteert. Meer diverse teams zouden waarschijnlijk sneller hebben gezien wat er misging en wellicht voorkomen hebben dat het zover kwam.

Dit is een wederkerig probleem. De tech-industrie is overwegend mannelijk. De tools die de tech-industrie bouwt beïnvloeden hiring in de tech-industrie. Als die tools subtiel mannelijk blijven selecteren, versterkt het de situatie die ze mede veroorzaakte. Een vicieuze cirkel.

Wat veranderde

Sinds 2018 hebben veel grote bedrijven hun AI-hiring-systemen herzien. Sommige zijn teruggedraaid. Anderen zijn herontwikkeld met meer aandacht voor fairness. De wetgeving is ook bijgesteld — New York City heeft sinds 2023 een wet die AI-hiring-tools verplicht auditer om op bias te checken; vergelijkbare wetten verspreiden zich in de VS en EU.

Maar het onderliggende probleem verdwijnt niet. Elke nieuwe AI-toepassing, in elk nieuw domein, moet opnieuw worden onderzocht. De lessen van Amazon worden vaak niet overgedragen buiten het specifieke domein van CV-screening. Bedrijven die bijvoorbeeld AI voor klant-targeting bouwen, maken soms dezelfde fouten als Amazon in 2014. Ze herkennen niet dat hun trainingsdata een historisch patroon bevat dat ze niet willen versterken.

De ongemakkelijke waarheid

Amazon's verhaal laat zien iets belangrijks over AI in het algemeen. AI is niet neutraal. Ze kan niet neutraal zijn. Elke data waar je een AI op traint, bevat keuzes, patronen, vooroordelen. De AI pakt ze op, en zonder expliciete interventie reproduceert ze ze — soms zichtbaarder, soms subtieler, soms in totaal nieuwe patronen die niemand had voorzien.

Dat betekent niet dat AI niet kan helpen bij eerlijke hiring. Wel dat "AI gebruiken om menselijke bias te vermijden" alleen werkt als de AI zelf expliciet wordt gecheckt op bias. Anders heb je alleen menselijke bias vervangen door geautomatiseerde bias — met als extra nadeel dat geautomatiseerde bias sneller schaalt en moeilijker te detecteren is dan een individuele menselijke recruiter die iemand niet vertrouwt.

Amazon's experiment faalde, maar de les is beschikbaar. Of die les wordt toegepast, hangt af van hoe serieus organisaties hun verantwoordelijkheid nemen om te ontwerpen voor fairness. In 2026 lopen we nog een eind achter waar we moeten zijn. Het verhaal van een AI die vrouwen afwees, blijft relevant precies omdat vergelijkbare verhalen elke dag opnieuw zouden kunnen ontstaan — tenzij iemand ze voorkomt.

De AI is een spiegel. Of ze een kromme spiegel is of een heldere, hangt af van hoe we erover nadenken voor we haar gebruiken.

Veelgestelde vragen

Wat is 'algoritmische bias' precies?+

Systematische onrechtmatige patronen in AI-output die bepaalde groepen benadelen. Vaak ontstaat het door biased trainingsdata (patronen van historische discriminatie die het model oppakt) of biased ontwerpkeuzes.

Had Amazon dit niet kunnen voorzien?+

In retrospect: waarschijnlijk wel. Het patroon van historische onevenredigheid in hiring data is goed bekend. Maar in 2014-2015 waren AI-fairness-technieken minder ontwikkeld, en Amazon lijkt niet expliciet vooraf naar fairness te hebben gedacht.

Gebeurt dit nog steeds in 2026?+

Subtieler en met meer tegenmaatregelen, maar ja. AI-screening-tools zijn wijdverspreid. Meeste bedrijven proberen bias-checks in te bouwen, maar effectiviteit varieert. De AI-Act en andere wetgeving stellen steeds strengere eisen.

Kan een AI ooit écht neutraal zijn in hiring?+

Moeilijk in zuivere zin. Alle trainingsdata reflecteert historische patronen. Sommige daarvan zijn discriminatoir. Absolute neutraliteit zou data vereisen die geen historische context heeft — bestaat niet. Pragmatisch: AI kan wel minder biased zijn dan slechte menselijke screeners, mits goed ontworpen.

Deel dit artikel
LinkedIn ↗ X / Twitter ↗ Mail ↗
Laten we praten

Vragen die je eigen project betreffen?

Elke call begint met luisteren. Vertel waar je staat, dan denken we samen verder.

Binnen 24u een reactie. Altijd persoonlijk.