Waarom ruwe data waardeloos is — en schone data alles kost

De uitspraak "data is de nieuwe olie" wordt sinds ongeveer 2006 gebruikt, vaak toegeschreven aan de Britse wiskundige Clive Humby. Hij is handig als soundbite en komt in vrijwel iedere marketingtekst over AI terug. Het jammere is dat mensen meestal stoppen na de halve zin. Want Humby zei er meteen achter: "ook olie moet geraffineerd worden".

Die tweede helft is de hele branche. Ruwe olie uit de grond kun je niet in je auto stoppen. Ruwe data van het internet kun je niet in je AI-model stoppen. En de raffinaderij — hoe die werkt, wie haar bezit, wat ze kost — is waar het echte geld, de echte strijd en de echte moeilijkheid in zit.

Wat ruwe data eigenlijk is

Stel je voor dat je in 2025 besluit een eigen taalmodel te trainen. Je begint met het binnenhalen van zoveel mogelijk tekst van internet. Wikipedia, miljoenen websites, forums, Reddit, boeken, documenten, nieuwsarchieven. Na enkele maanden heb je tientallen terabytes.

Dit is ruwe data. En het is, in zijn ongefilterde vorm, bijna bruikbaar voor precies niets.

De tekst bevat tientallen miljarden spam-pagina's. Machine-gegenereerde flutcontent. Kapotte pagina's met HTML-fouten. Dubbel opgeslagen artikelen. Vertalingen van slechte kwaliteit. Pornografie, geweld, haat. Historisch foute informatie. Tekst in talen die je model niet moet leren. Persoonsgegevens die niet gebruikt mogen worden. Inhoud beschermd door auteursrecht die je eigenlijk niet mocht downloaden. Exploit-code die je model kwaadaardig gedrag leert.

Geef een LLM deze ruwe data te eten en je krijgt iets dat bovenstaande allemaal terug zegt — minus de kwaliteit. Pretrainen op ongefilterd web resulteert in een model dat grappen maakt over Hitler, onzin uitkraamt over geografie, en vloekt bij onschuldige vragen.

De laatste grote sprong in modelkwaliteit die je in de afgelopen vijf jaar hebt gezien — van GPT-3 naar GPT-4 bijvoorbeeld — kwam slechts deels door meer rekenkracht. Voor een aanzienlijk deel kwam hij door betere dataset-curatie.

De kosten van schoonmaken

Dataset-curatie bestaat uit tientallen stappen. Duplicaten verwijderen. Kwaliteitsfilters toepassen. Taal detecteren en ongewenste talen eruit halen. Toxische content wegfilteren. Persoonlijke gegevens anonimiseren. Auteursrechtelijk beschermde tekst verwijderen (of juist behouden, afhankelijk van het juridische pad). Formatfouten corrigeren. Domeinspecifieke sublichte data versterken. Synthetische data toevoegen waar gaten zijn.

Sommige stappen zijn geautomatiseerd. Andere vereisen mensen — vaak gespecialiseerde teams die voorbeelden beoordelen, richtlijnen ontwikkelen, edge cases oplossen. En dan is er het alignment-werk: na pre-training moeten modellen verfijnd worden op menselijke voorkeur. Dat vraagt nog meer handwerk, door nog meer mensen.

De kosten van deze operatie zijn gigantisch. Een schatting uit 2024 suggereerde dat Anthropic en OpenAI meer uitgaven aan datacuratie en -labeling dan aan GPU-rekentijd. Die verhouding fluctueert, maar het punt blijft: een model bestaat voor tientallen procenten uit de kwaliteit van zijn data-pijplijn, niet alleen uit zijn architectuur.

De industrie die niemand ziet

Achter elk modern taalmodel staat een industrie van menselijke werkers. Data-labellers die foto's categoriseren. Inhoudelijke experts die medische teksten verifiëren. Beoordelaars die AI-antwoorden ranken voor RLHF-training. Moderators die modellen "red-teamen" door ze te proberen uit te lokken tot gevaarlijke output.

Deze industrie bevindt zich grotendeels in lagelonenlanden — Kenia, Filipijnen, India, Venezuela. Bedrijven als Scale AI, Sama en Surge AI leveren deze arbeid aan Anthropic, OpenAI en Google. Time Magazine rapporteerde in 2023 dat Keniaanse werkers voor ongeveer 2 dollar per uur gewelddadige en seksueel expliciete content moesten labellen om ChatGPT veiliger te maken. Dat is geen randverschijnsel — het is structurele afhankelijkheid.

Wie over "de kosten van AI" nadenkt in termen van elektriciteit en GPU's, mist dus een substantieel deel. Een groot deel van de kosten bestaat uit mensen die dagelijks met de donkerste uithoeken van het internet geconfronteerd worden zodat het eindresultaat schoon oogt.

Waarom data strategische voorsprong geeft

De architecturen achter moderne taalmodellen zijn grotendeels openbaar. Transformers, attention-mechanismen, RLHF — het staat in papers. Iedereen met genoeg rekenkracht kan een competitief model bouwen.

Behalve als ze de data niet hebben.

Dit is waarom OpenAI een miljardendeal met Axel Springer sloot — toegang tot journalistieke tekst van hoge kwaliteit. Waarom Google's voorsprong in zoekopdrachten ook een AI-voorsprong is. Waarom Reddit zijn data voor 60 miljoen dollar verkocht aan Google. Waarom medische AI-bedrijven worstelen zonder toegang tot patiëntendossiers. Waarom ondernemingen met unieke datasets — in financiën, in wetenschap, in specifieke industrieën — plots strategisch interessant zijn, ook als ze zelf geen AI maken.

De voorsprong die data geeft is niet makkelijk in te halen. GPU's kun je kopen. Papers kun je lezen. Een getrainde data-pipeline met twintig jaar schone medische dossiers kun je niet in twee jaar nabouwen.

De ongemakkelijke consequentie

Dit heeft iets anti-democratisch in zich. De "democratisering van AI" waar vaak over gesproken wordt, gaat meestal over modellen — die worden inderdaad toegankelijker. Maar data concentreert zich nog steeds in de handen van een paar grote spelers. Wikipedia is publiek. Het grootste deel van nuttige zakelijke data niet.

De toekomst zal waarschijnlijk niet worden bepaald door wie de grootste modellen kan bouwen — die mogelijkheid wordt gemeengoed. Ze wordt bepaald door wie welke unieke data bezit. Dat is een vorm van kapitaal die zich makkelijker verbergt dan fabrieken of mijnen.

Dus: data is de nieuwe olie. Niet omdat het vanzelf waarde heeft, maar omdat — net als olie — pas het raffinage-proces het tot iets bruikbaars maakt. En die raffinaderij blijkt duurder, menselijker en politieker dan de meeste slogans over "AI" laten doorschemeren.

Veelgestelde vragen

Is openbare data op internet niet genoeg?+

Voor algemene taalmodellen: ja, tot nu toe. Voor specifieke domeinen (medisch, juridisch, financieel) zijn openbare bronnen vaak ontoereikend, onbetrouwbaar of te algemeen. Daarom zijn bedrijven met private data in die domeinen strategisch waardevol.

Wat betekent "gelabeld" bij data precies?+

Dat er bij elk voorbeeld een juiste antwoord staat. Een foto met "kat" eronder. Een tekst met de juiste vertaling ernaast. Een medische scan met de juiste diagnose. Labelen is duur want het vraagt menselijke expertise — en schaalt slecht.

Wie doet al dat labelwerk?+

Vaak werkers in lagelonenlanden, via platforms als Scale AI, Sama of Surge AI. Het werk is goedbetaald naar lokale maatstaven maar geestelijk zwaar — modellen moeten getraind worden op ook gewelddadige en schokkende content, en labellers krijgen die te zien.

Kunnen AI-modellen elkaar helpen labelen?+

Ja, en dat gebeurt steeds meer. "Synthetische data" — data gegenereerd door een eerder model — wordt gebruikt om volgende modellen te trainen. Risico: kwaliteitsfouten en biases versterken zich, een fenomeen dat *model collapse* wordt genoemd.

Waarom ruwe data waardeloos is — en schone data alles kost

Wat ruwe data eigenlijk is

De kosten van schoonmaken

De industrie die niemand ziet

Waarom data strategische voorsprong geeft

De ongemakkelijke consequentie

Veelgestelde vragen

Verwante artikelen

Vragen die je eigen project betreffen?

Wat ruwe data eigenlijk is

De kosten van schoonmaken

De industrie die niemand ziet

Waarom data strategische voorsprong geeft

De ongemakkelijke consequentie

Veelgestelde vragen

Verwante artikelen

Wat is een LLM eigenlijk? AI-basisbegrippen in gewone taal

10 AI-tools die ik dagelijks gebruik (en waarvoor)

AI-agents uitgelegd: meer dan slimme chatbots

Vragen die je eigen project betreffen?