NYT vs OpenAI — de rechtszaak die de toekomst van AI bepaalt

Op 27 december 2023, een paar dagen na kerst, diende de juridische afdeling van The New York Times een document van 69 pagina's in bij de federale rechtbank in Manhattan. De tegenpartij: OpenAI en Microsoft. De klacht: een van de grootste auteursrechtzaken in moderne technologiegeschiedenis.

Het document was specifiek. Het bevatte honderd concrete voorbeelden waarin ChatGPT output had geproduceerd die bijna letterlijk identiek was aan bestaande artikelen in de NYT. Een gebruiker kon ChatGPT vragen om een passage uit een specifiek artikel, en het model leverde die passage af — soms woord voor woord, soms met kleine variaties, maar onmiskenbaar afgeleid van het originele artikel.

Voor NYT was dit het bewijs dat hun content zonder toestemming was gebruikt voor training. Voor OpenAI was het een lastige positie om in terug te komen. Het zou blijken de start van een rechtszaak die meer dan twee jaar later in 2026 nog altijd loopt, en waarvan de uitkomst de toekomst van de hele industrie kan bepalen.

Wat NYT claimt

De klacht is in essentie simpel. NYT stelt dat OpenAI, voor het trainen van zijn modellen, miljoenen NYT-artikelen heeft gebruikt zonder toestemming en zonder betaling. Dat zou een schending zijn van het auteursrecht van NYT op die artikelen. De schade wordt ingeschat op "miljarden dollars" maar een exact bedrag wordt in de klacht niet genoemd.

Specifieker: NYT wijst op verschillende manieren waarop schade wordt veroorzaakt:

Directe substitutie: ChatGPT kan lezers vertellen wat er in een NYT-artikel staat zonder dat de lezer de site bezoekt. Dat vermindert verkeer, advertentie-inkomsten, en abonnementen.
Concurrentiepositie: OpenAI verkoopt ChatGPT commercieel. Dat product is deels mogelijk gemaakt door NYT's journalistieke investering. NYT krijgt geen deel van die opbrengst.
Reproductie van memorabele passages: In sommige gevallen kon ChatGPT bijna letterlijke uitspraken van NYT-artikelen reproduceren. Dat is een duidelijker vorm van copyright-schending dan "geïnspireerd door".

Als vonnis vraagt NYT niet alleen schadevergoeding maar ook vernietiging van het model. Dat is een provocerende eis. Het zou betekenen dat ChatGPT, of in ieder geval de versies die met NYT-data zijn getraind, juridisch gedwongen zouden worden te worden verwijderd. Praktisch onuitvoerbaar en enorm verstorend voor de industrie — en precies daarom een krachtig onderhandelingsmiddel.

Het fair use-argument

OpenAI's verdediging steunt op de Amerikaanse fair use-doctrine. Die staat het gebruik van auteursrechtelijk beschermd materiaal toe onder bepaalde omstandigheden, zonder toestemming. Vier factoren zijn relevant:

Het doel en karakter van het gebruik — commercieel of educatief, transformatief of reproducerend.
De aard van het beschermde werk.
De omvang en substantie van wat gebruikt wordt.
Het effect op de markt voor het origineel.

OpenAI stelt dat hun gebruik transformatief is. Een taalmodel is niet een kopie van NYT-artikelen. Het is iets nieuws dat statistische patronen uit vele bronnen heeft geleerd, waaronder NYT-artikelen maar ook vele andere. De gelijkenis van output met origineel is, volgens OpenAI, incidenteel en uitzonderlijk.

Maar dat argument wankelt juist bij de concrete voorbeelden die NYT aanvoert. Als ChatGPT vijf paragrafen uit een specifiek artikel kan reproduceren, dan is het verschil tussen "statistisch patroon" en "kopie" retorisch niet meer overtuigend.

De bredere context

Deze rechtszaak is niet de enige. In 2023 en 2024 zijn tientallen vergelijkbare rechtszaken ingediend:

Getty Images vs Stability AI: beeldgeneratie en inbreuk op foto-copyright.
Sarah Silverman (en andere auteurs) vs OpenAI en Meta: illegaal gebruik van boeken voor training.
Universal Music vs Anthropic: liedteksten die Claude kon reproduceren.
Meerdere uitgevers vs Perplexity en andere AI-zoekmachines.

Sommige zaken worden buiten de rechtbank geschikt. Vele anderen lopen nog. Samen vormen ze een golf die de juridische omkadering van AI-training bepaalt.

Ondertussen is er ook de andere kant. Sommige uitgevers hebben ervoor gekozen om licentieovereenkomsten te sluiten met AI-bedrijven. Axel Springer (eigenaar van Politico en Business Insider) heeft een deal met OpenAI voor tientallen miljoenen dollars. Reuters heeft overeenkomsten. De Financial Times ook. Condé Nast. Deze overeenkomsten zijn uiteenlopend in omvang en voorwaarden, maar samen geven ze OpenAI een weg om te zeggen: "we betalen voor content waar we betalen voor kunnen, en van de rest gebruiken we onder fair use."

NYT was een van de uitgevers die de onderhandelingen had gevoerd en niet akkoord was gegaan. Zij kozen voor juridische actie.

Wat er op het spel staat

Als NYT wint — vooral als de rechter bepaalt dat AI-training met auteursrechtelijk beschermde teksten zonder toestemming een inbreuk is — dan verandert de economie van AI fundamenteel. Alle grote taalmodellen zouden juridisch gecompromitteerd zijn. Ze zouden ofwel moeten worden weggegooid en opnieuw getraind op expliciet gelicentieerde data (enorm duur en tijdrovend, en de resulterende modellen zouden slechter zijn omdat ze minder data hebben gezien), ofwel massa's licentieovereenkomsten moeten sluiten met alle mogelijke rechthebbenden.

Dat zou de industrie consolideren bij de grootste spelers. Alleen bedrijven met miljarden dollars kunnen dit soort licenties betalen. Kleinere AI-ontwikkelaars, open-source initiatieven, academische projecten — allemaal zouden geraakt worden.

Als OpenAI wint — als de rechter fair use bevestigt voor AI-training — dan consolideert de huidige status quo zich. De gehele industrie kan doorgaan met het gebruik van publiek beschikbare data zonder individuele toestemming. De uitgevers die hoopten op licenties verliezen hun onderhandelingspositie. Het juridische risico dat boven de industrie hangt, wordt weggenomen.

Tussen deze twee uitersten liggen verschillende middellen. De rechtbank kan gedeeltelijke overwinning geven aan beide partijen. Specifieke categorieën content kunnen worden gedefinieerd waar fair use wel of niet geldt. Er kan een systematische vergoedingsregeling komen. Of het probleem kan worden doorgeschoven naar wetgeving — wat in verschillende jurisdicties (inclusief de EU) sterk in ontwikkeling is.

De EU-kant

In Europa is de juridische situatie anders. De EU AI Act, aangenomen in 2024, vereist dat AI-modellen een "voldoende gedetailleerde samenvatting" publiceren van de trainingsdata — een transparantie-eis die OpenAI in de VS niet heeft. Dat gaat de transparantie verbeteren maar lost de fundamentele copyright-vraag niet op.

Sommige EU-lidstaten hebben specifieke uitzonderingen in hun copyright-wet voor "text and data mining" — het gebruik van teksten voor het extraheren van patronen en statistieken. Die uitzonderingen kunnen worden geïnterpreteerd als dekking voor AI-training. Maar de rechthebbenden kunnen zich ervan opt-outen — een nieuwe juridische mogelijkheid die nog wordt getest.

Het resultaat is een lappendeken van juridische regimes wereldwijd. Een AI-bedrijf dat internationaal opereert moet zich tegelijk aan verschillende regels houden. Voor NYT vs OpenAI geldt Amerikaanse fair use, maar de implicaties voor Europese modellen worden apart geregeld.

Een tijdlijn van onzekerheid

De NYT-rechtszaak loopt al meer dan twee jaar. Eerste procedurele uitspraken zijn gedaan. OpenAI probeerde de zaak te laten afwijzen; die poging mislukte voor het grootste deel. De discovery-fase — waarin partijen informatie moeten overdragen — loopt nog. Het feitelijke proces zou in 2026-2027 kunnen plaatsvinden. Hoger beroep kan nog jaren toevoegen. Mocht de zaak uiteindelijk bij het Supreme Court belanden, dan praten we over 2028 of later voor een definitieve uitspraak.

In de tussentijd moeten AI-bedrijven beslissingen nemen onder juridische onzekerheid. Nieuwe modellen worden getraind. Nieuwe licentieovereenkomsten worden gesloten. Nieuwe rechtszaken worden ingediend. Het juridische landschap is in beweging zonder duidelijke bestemming.

De dieperliggende vraag

Los van de specifieke rechtszaak stelt deze situatie een onderliggende vraag waarmee we ons moeten verhouden: wat betekent eigendom van informatie in een wereld waar AI-modellen patronen leren uit vrijwel elke beschikbare tekst?

Traditioneel copyright werkt op het niveau van "kopiëren". Als iemand jouw artikel woord voor woord kopieert, is dat een inbreuk. Maar AI-training is subtieler — het model leert statistische patronen, niet letterlijke tekst. Wanneer wordt "leren van patronen" gelijk aan "kopiëren"? Wanneer is de output zo gelijkend dat het als inbreuk telt?

Die vragen hebben geen duidelijke antwoorden in de huidige wet. De NYT-rechtszaak is een van de eerste grote pogingen om die antwoorden te formuleren. Haar uitkomst zal vormgevend zijn voor hoe we de komende decennia met AI en intellectueel eigendom omgaan.

En ondertussen wordt er elke dag een nieuwe generatie modellen getraind. Op dezelfde soort data. Onder dezelfde juridische onzekerheid. Dat is niet ideaal — maar het is het systeem dat we hebben tot de rechter eindelijk uitspraak doet.

Voor NYT is deze zaak een existentiële kwestie. Voor OpenAI ook. Voor de industrie als geheel is ze een soort stabiliteitstest. De uitkomst zal niet alleen bepalen wie wint, maar of de gekozen architectuur voor moderne AI überhaupt juridisch levensvatbaar is.

Twee jaar lopend, geen einde in zicht. De inzet hoger dan in bijna elke andere technologiezaak ooit. De wereld wacht, en ondertussen draait ChatGPT door.

Veelgestelde vragen

Wat zegt de wet eigenlijk?+

Het Amerikaanse copyright-recht heeft een 'fair use'-uitzondering voor transformatief gebruik. Of AI-training onder fair use valt is juridisch onduidelijk. Het is niet eerder op deze schaal getest. Het hangt af van factoren zoals commercieel gebruik, transformativiteit, en impact op de markt voor het origineel.

Waarom deze rechtszaak juist nu?+

NYT heeft eerst maandenlang geprobeerd met OpenAI te onderhandelen over een licentie, zoals andere uitgevers hebben gedaan. Toen die gesprekken vastliepen, kozen ze voor juridische actie. De timing valt samen met de groeiende ChatGPT-adoptie, die journalistieke websites direct raakt.

Wat voor bewijs heeft NYT?+

Honderden concrete voorbeelden waarin ChatGPT bijna woordelijk NYT-artikelen reproduceerde. Dat is een sterke aanwijzing dat die artikelen in de trainingsdata zaten — iets wat OpenAI niet betwist, maar waarvan ze stellen dat het legaal was onder fair use.

Zou OpenAI de zaak kunnen verliezen?+

Juristen zijn verdeeld. De transformativiteit van AI is sterk — een model produceert geen kopie maar iets nieuws. Maar de schaal en commerciële exploitatie maken dat argument kwetsbaar. Ook de reproduceerbaarheid van originele teksten speelt tegen OpenAI. De uitkomst is echt onzeker.

NYT vs OpenAI — de rechtszaak die de toekomst van AI bepaalt

Wat NYT claimt

Het fair use-argument

De bredere context

Wat er op het spel staat

De EU-kant

Een tijdlijn van onzekerheid

De dieperliggende vraag

Veelgestelde vragen

Verwante artikelen

Vragen die je eigen project betreffen?

Wat NYT claimt

Het fair use-argument

De bredere context

Wat er op het spel staat

De EU-kant

Een tijdlijn van onzekerheid

De dieperliggende vraag

Veelgestelde vragen

Verwante artikelen

Wat is een LLM eigenlijk? AI-basisbegrippen in gewone taal

10 AI-tools die ik dagelijks gebruik (en waarvoor)

AI-agents uitgelegd: meer dan slimme chatbots

Vragen die je eigen project betreffen?