COMPAS en recidive-scores — wanneer AI straffen voorspelt

In september 2013 verscheen een jongeman voor een rechtbank in Wisconsin. Eric Loomis, beschuldigd van het besturen van een auto zonder toestemming en het ontvluchten van de politie. Zijn advocaat pleitte voor een milde straf. Loomis had geen geschiedenis van geweldsdelicten. Hij werkte. Hij had een familie.

De rechter besloot anders. Zes jaar cel. In de uitspraak werd een specifiek factor genoemd: de COMPAS-score. Volgens het algoritme dat zijn risico op herhaling berekende, scoorde Loomis hoog. Niet de enige reden voor zijn strafmaat, maar expliciet meegenomen.

Loomis' advocaten waren verbluft. Hoe was die score berekend? Welke vragen waren gewogen? Waarom was zijn score hoog? COMPAS is een commercieel product. Het werkingsmechanisme is een handelsgeheim. Het bedrijf dat het ontwikkelt, Northpointe (nu Equivant), weigert de algoritme publiek te maken.

Loomis ging in beroep. Het Wisconsin Supreme Court oordeelde in 2016 dat COMPAS-gebruik in sentencing grondwettelijk was, mits het niet als enige factor werd gebruikt. Een mijlpaal-uitspraak die in veel andere staten als precedent wordt gebruikt.

Datzelfde jaar publiceerde ProPublica een onderzoek dat COMPAS op een andere manier onder de loep nam. De resultaten waren schokkend.

Het ProPublica-onderzoek

Journalisten van ProPublica verkregen de COMPAS-scores van meer dan 7.000 verdachten in Broward County, Florida. Ze volgden wat er met deze mensen in de volgende twee jaar gebeurde — werden ze opnieuw gearresteerd? Voor welke soort misdaden? Dat gaf een goede test van hoe nauwkeurig de risicoscores waren.

Wat ze vonden was zorgwekkend.

Het algoritme was in totaal ongeveer 61% accuraat in het voorspellen van recidive — iets beter dan willekeur maar niet sterk.
Bij gewelddadige recidive was de accuratesse slechts 20%.
Cruciaal: de fouten waren niet evenredig verdeeld over demografische groepen.

Zwarte verdachten werden twee keer zo vaak als witte verdachten onterecht aangewezen als hoog-risico (terwijl ze geen recidive pleegden). Witte verdachten werden veel vaker onterecht als laag-risico aangewezen (terwijl ze wel recidive pleegden).

Met andere woorden: het systeem was specifiek biased in wie het onterecht "gevaarlijk" noemde. Zwarte mensen die geen gevaar waren, kregen zware straffen alsof ze dat waren. Witte mensen die wel gevaar waren, kregen lichtere straffen.

De statistische discussie

Northpointe reageerde snel en uitgebreid. Hun argument: COMPAS was "gekalibreerd" — binnen elke risicocategorie was het percentage mensen dat daadwerkelijk recidive pleegde ongeveer gelijk over rassen. Dat was waar. Een "hoog-risico" score had ongeveer dezelfde voorspellende waarde voor zwarte en witte verdachten.

Statistisch zijn beide observaties — ProPublica's en Northpointe's — waar. Het probleem is dat ze verschillende definities van fairness gebruiken, en die definities zijn niet tegelijk te voldoen wanneer de basis-recidive-percentages verschillen over groepen.

Dit klinkt technisch maar is fundamenteel. Een algoritme kan:

Kalibratie: gelijke voorspellende waarde over groepen (Northpointe's maatstaf)
Gelijke foutpercentages: gelijke rate van valse positieven en negatieven over groepen (ProPublica's maatstaf)
Of — maar niet alle drie tegelijk — Gelijke accuratesse: zelfde totale correctheid

Als de basisrates verschillen, kun je hoogstens twee van deze criteria voldoen. Northpointe koos voor kalibratie. ProPublica bekritiseerde het gebrek aan gelijke foutpercentages. Beide zijn wiskundig legitieme definities. Welke je belangrijker vindt, is een ethische keuze.

Dat is een van de grondige lessen uit de COMPAS-discussie. "Fairness" in AI is niet één technische eigenschap. Het zijn verschillende, soms tegenstrijdige, eigenschappen. Welke we prioriteren is een politiek-ethische vraag, geen technische.

De bredere vraag

Los van de specifieke statistische discussies is er een dieperliggende vraag. Moet AI überhaupt worden gebruikt in strafbepaling?

Argumenten voor:

Menselijke rechters zijn ook biased. Consistent-biased-algoritme kan soms minder slecht zijn dan sterk variërende menselijke oordelen.
Het biedt een basis voor data-gedreven beslissingen in plaats van alleen buikgevoel.
Het kan efficiency brengen in overwerkte rechtssystemen.

Argumenten tegen:

Recidive-voorspelling is inherent onzeker — mensen zijn niet voorspelbaar op individueel niveau, alleen op statistisch.
Historische data bevat historische discriminatie die het algoritme reproduceert.
Een "black box"-algoritme ondermijnt het recht op due process — de verdachte kan niet fundamenteel contestereeren wat hij niet kan zien.
Beslissingen over vrijheid zijn fundamenteel menselijk en moeten hun menselijk karakter behouden.

Veel rechtsfilosofen neigen naar het tweede standpunt. Strafbepaling raakt een van de meest ingrijpende handelingen die een staat kan verrichten — mensen hun vrijheid ontnemen. Algoritmische beslissingen, hoe nauwkeurig ook, missen de morele gewicht die menselijke beoordeling in dat moment levert.

Hoe het nu gaat

In 2026 is COMPAS nog in gebruik in meerdere staten. De Loomis-uitspraak blijft het juridische kader — AI-risicoscores mogen worden gebruikt, maar niet als enige factor.

Sommige jurisdicties hebben stappen genomen. New York City heeft wetgeving aangenomen die verplicht audits eist van algoritmische beslissingssystemen. California heeft beperkingen op waar COMPAS-achtige systemen kunnen worden gebruikt. Een aantal steden (waaronder San Francisco voor sommige contexten) heeft ze volledig verboden.

De industrie zelf heeft zich aangepast. Nieuwe versies van COMPAS en concurrerende producten claimen bias-mitigatie, regelmatige audits, transparantere methodieken. Of dat voldoende is, is subject of ongoing debate.

Internationaal heeft de discussie zich ook verspreid. In Nederland werd SyRI — een systeem om welvaartsfraude op te sporen — in 2020 door de rechter verboden wegens schending van privacyrechten. De Raad van Europa heeft richtlijnen ontwikkeld voor AI in rechtspraak die strenger zijn dan Amerikaanse praktijk. De EU AI Act classificeert justitie-AI als "hoog risico" met uitgebreide verplichtingen.

Wat we eruit kunnen leren

De COMPAS-zaak is breder dan alleen strafrecht. Ze geeft een casestudy voor hoe we moeten denken over AI in gevoelige domeinen:

Transparantie matters. Proprietair algoritme dat levens beïnvloedt is problematisch. Voor publieke besluitvorming moet het algoritme auditable zijn.

Statistiek is niet neutraal. Welke fairness-definitie je kiest, is een ethische keuze die je moet verdedigen, niet een technisch detail.

Historische data bevat historische discriminatie. Training AI op data waarin bias zit, reproduceert die bias. Alleen expliciete interventie kan dat tegengaan.

Nauwkeurigheid is niet genoeg. Een 61%-accuraat algoritme — iets beter dan willekeur — is niet per se goed genoeg voor beslissingen over vrijheid. Welke accuratesse is acceptabel, is een normatieve vraag.

Menselijk oordeel heeft waarde. Wanneer beslissingen morele gewicht hebben, is menselijke beoordeling niet optioneel. Algoritmes kunnen informeren, maar niet vervangen.

De les voor andere domeinen

COMPAS is het bekendste voorbeeld, maar het patroon herhaalt zich in andere domeinen. Algoritmische beslissingen over leningen, huisvesting, welvaart, immigratie. Overal zitten vergelijkbare vragen: is het accuraat? Is het fair? Welke definitie van fair? Kan de betrokkene begrijpen en contesteeren? Welke rol heeft menselijk oordeel?

In 2026 hebben we deze lessen deels geleerd. Maar niet volledig. Elke nieuwe toepassing van AI in gevoelige beslissingen wordt opnieuw getest, vaak met dezelfde ontdekkingen — bias, gebrek aan transparantie, inadequaat menselijk toezicht.

Dat herhaalde patroon suggereert iets belangrijks. De lessen van COMPAS moeten structureel worden ingebouwd in hoe we AI-systemen ontwerpen en implementeren, niet ad hoc worden herontdekt elke keer dat een nieuw systeem op de markt komt.

De EU AI Act is een stap in die richting. Het classificeert AI-systemen naar risico en stelt proportionele eisen. Voor hoog-risico-systemen: audits, bias-monitoring, transparantie, menselijk toezicht. Voor lagere risico's: lichtere eisen.

Of dat voldoende is, moeten we zien. De implementatie begint pas echt in 2025-2026. De effectiviteit wordt pas duidelijk over jaren.

De menselijke kant

Eric Loomis zit inmiddels weer buiten de gevangenis. Hij heeft zijn straf uitgezeten. Hij heeft eigen strijd geleverd tegen het systeem dat hem naar hoge-risicocategorie had gestempeld. Zijn zaak is in juridische geschiedenisboeken terechtgekomen.

Maar zijn zaak is er een van velen. Honderdduizenden mensen hebben COMPAS-scores in hun dossiers. Die scores hebben hun straf beïnvloed, hun proeftijd-voorwaarden, hun reclassering. In veel gevallen zonder dat deze mensen volledig begrepen wat de score was, hoe het was berekend, of hoe het te betwisten.

Dat is een structureel probleem. En ondanks alle technische verbeteringen en beleidsdiscussies, blijft het bestaan zolang wij algoritmische systemen laten meebeslissen over mensenlevens zonder de transparantie en het toezicht dat dergelijke beslissingen verdienen.

De COMPAS-zaak is niet af. Het is een voorbeeld van een breder patroon dat zich nog jaren zal afspelen. Elke nieuwe AI-tool in gevoelige beslissingen zal dezelfde vragen oproepen. Wij moeten er beter in worden de vragen te stellen — en te eisen dat antwoorden bevredigend zijn voordat de systemen worden ingezet.

Anders worden we een samenleving waarin een algoritme mede bepaalt of je vrijheid verliest, zonder dat je het kunt begrijpen, zonder dat je het kunt betwisten, zonder dat iemand het aan je kan uitleggen.

Dat is niet de rechtsstaat die we zeggen te willen. Maar het is, in specifieke gevallen al, de rechtsstaat die we al hebben.

Veelgestelde vragen

Wat meet COMPAS precies?+

Een inschatting van de kans dat een verdachte binnen twee jaar opnieuw wordt gearresteerd voor een gewelddadige misdaad, of enige misdaad. Gebaseerd op antwoorden op 137 vragen plus historische data.

Is het beschuldigd van racisme terecht?+

Complex. ProPublica's statistische definitie van bias liet zien dat zwarte verdachten vaker valselijk als hoog-risico werden aangeduid, witte verdachten vaker valselijk als laag-risico. Northpointe gebruikte een andere definitie waaronder het systeem niet biased leek. Beide wiskundige definities waren legitiem maar niet tegelijk te voldoen.

Gebruiken ze het nog steeds?+

Ja, in veel jurisdicties. Equivant (voorheen Northpointe) blijft het verkopen. Sommige staten en steden hebben het verboden of beperkt. Het gebruik is heterogeen.

Bestaan vergelijkbare systemen in Europa?+

Minder wijdverspreid. Nederland gebruikte tijdelijk SyRI (algoritme voor welvaartsfraude-opsporing) maar dat werd in 2020 door de rechter verboden. De EU AI Act classificeert justitie-AI als 'hoog risico' met strenge eisen.

COMPAS en recidive-scores — wanneer AI straffen voorspelt

Het ProPublica-onderzoek

De statistische discussie

De bredere vraag

Hoe het nu gaat

Wat we eruit kunnen leren

De les voor andere domeinen

De menselijke kant

Veelgestelde vragen

Verwante artikelen

Vragen die je eigen project betreffen?

Het ProPublica-onderzoek

De statistische discussie

De bredere vraag

Hoe het nu gaat

Wat we eruit kunnen leren

De les voor andere domeinen

De menselijke kant

Veelgestelde vragen

Verwante artikelen

Wat is een LLM eigenlijk? AI-basisbegrippen in gewone taal

10 AI-tools die ik dagelijks gebruik (en waarvoor)

AI-agents uitgelegd: meer dan slimme chatbots

Vragen die je eigen project betreffen?