Multimodal AI — wanneer machines zien, horen en praten tegelijk
De beste AI van 2023 was als een briljante persoon in een donkere kamer met alleen typen als communicatiemiddel. Slim, maar afgesloten van veel van de wereld. In 2026 hebben AI-systemen ogen, oren, en stemmen. Dat verschil is groter dan het klinkt.
In mei 2024 gaf OpenAI een live-demo die voor veel kijkers een ahamoment was. Mira Murati — toen CTO — zat in een stoel en sprak met GPT-4o alsof het een persoon was. Ze toonde een wiskunde-probleem op papier. De AI zag het, las het, legde het uit met vragen stellende stem. Ze vroeg de AI om emotionele verandering in zijn stem. Die voerde het door. Ze onderbrak het, hij paste aan.
Het was geen perfecte demo. Er waren technische moeilijkheden. De versie die later beschikbaar kwam was enigszins anders dan gedemonstreerd. Maar de basispunten waren echt. Een AI die tegelijk zag, luisterde, en praatte. Een nieuwe generatie van interactie.
Die generatie heet multimodal AI, en ze verandert wat we met AI kunnen doen op manieren die aanzienlijk groter zijn dan iemand in 2023 had voorspeld.
Van tekst naar alles
Voor 2023 was AI grotendeels op tekst gericht. Chatbots waren tekst-in-tekst-uit. Beeldgeneratie was gescheiden (Dall-E, Stable Diffusion). Spraakherkenning was gescheiden (Whisper). Voor een complete conversatie — "luister naar wat ik zeg, kijk naar deze foto, antwoord mij hardop" — moest je verschillende tools aan elkaar ketenen.
Die keten had problemen. Elke stap vertraagde. Elke stap verloor nuance. De spraakherkenner gaf tekst door aan de chatbot; context van hoe iets werd gezegd (toon, emotie) ging verloren. De chatbot gaf tekst door aan TTS; de geproduceerde stem had geen relatie met hoe de oorspronkelijke persoon klonk.
Native multimodal modellen lossen dit op. In plaats van aparte modellen te koppelen, verwerken ze verschillende modaliteiten intrinsiek. De input kan een mix zijn van tekst, audio, beeld. De output kan ook een mix zijn. Alles gaat door hetzelfde "denken" — er is geen laag-tussen-laag-vertalingsverlies.
Hoe het technisch werkt
De architecturale basis blijft de transformer (zie de post over "Attention Is All You Need"). Maar in plaats van alleen tekst-tokens te verwerken, worden andere modaliteiten gecodeerd in vergelijkbare token-achtige representaties.
Een beeld wordt opgedeeld in patches, elke patch wordt omgezet in een vector. Die vectoren worden behandeld als "visuele tokens" die parallel aan tekst-tokens door het netwerk gaan. Het model leert tijdens training om betekenisvolle relaties te vinden tussen tekst- en beeld-tokens.
Voor audio werkt het vergelijkbaar — geluid wordt gesampled, gedigitaliseerd, en omgezet in audio-tokens. Deze tokens verwerken het model net als tekst.
Dat betekent dat je het model iets kunt tonen én iets kunt vertellen, en het kan erover nadenken alsof het één samenhangend stuk informatie is. Een foto met bijschrift. Een probleem uitgelegd met handgebaren (via video). Een muziekfragment met vraag over het genre. Alle combinaties zijn mogelijk.
Praktische toepassingen
Multimodaliteit opent een spectrum van gebruiksmogelijkheden.
Toegankelijkheid. Voor blinde mensen: een AI die foto's van de omgeving beschrijft in real-time. Voor dove mensen: onmiddellijke transcriptie van gesprekken met emotie en context. Voor mensen met leermoeilijkheden: concepten uitgelegd via meerdere zintuigen.
Onderwijs. Een student laat een hand-getekend wiskunde-probleem zien. De AI-tutor analyseert, vraagt naar uitleg van specifieke stappen, geeft feedback op gedachte-proces. Rijker dan pure tekst.
Medisch. Een arts toont een scan. De AI biedt een second opinion, met toelichting op specifieke regio's. Voor onderbediende gebieden zonder specialist waardevoll.
Real-time vertaling. Niet alleen tekst-naar-tekst, maar stem-naar-stem met behoud van context en emotie. Conferenties, internationale zaken, toerisme worden toegankelijker.
Creatief werk. Een ontwerper toont een schets, beschrijft wat ze wil, de AI stelt visuele varianten voor. Iteratieve collaboratie tussen mens en AI in beeld-dominated werk.
Klantenservice. Een klant belt met een probleem en stuurt een foto van het kapotte product. De AI analyseert foto én stem tegelijk en biedt relevante hulp.
Robotica. Multimodaal begrip is essentieel voor robots die in fysieke omgevingen werken. Ze moeten tegelijk zien, horen, en instructies volgen.
Wat goed werkt
Per domein is de kwaliteit van moderne multimodal AI verschillend.
Beeldanalyse. Uitstekend. Moderne AIs herkennen objecten, lezen tekst in afbeeldingen (OCR), beschrijven scènes, analyseren grafieken, interpreteren medische beelden. Voor veel toepassingen is het op menselijk niveau.
Spraakherkenning en -begrip. Zeer goed. Moderne systemen begrijpen meerdere talen, accenten, achtergrondgeluiden. Near-real-time transcriptie is routine.
Spraakgeneratie. Zeer goed voor Engels en enkele andere populaire talen. Meer expressief dan vroege TTS. Nog beperkt voor kleine talen of specifieke stilistische eisen.
Video-begrip. Verbeterend maar nog achter. Korte clips (seconden tot minuten) worden goed begrepen. Langere video's (uren) zijn hanteerbaar bij sommige modellen (Gemini) maar met verlies van detail.
Gecombineerde redenering. Dit is het moeilijkste. Een AI die tegelijk een foto analyseert, iets hoort, en logisch redenerend een complex antwoord geeft — functioneert, maar niet altijd betrouwbaar. Deze samenhangende multimodaliteit blijft een actief onderzoeksgebied.
Wat nog niet goed werkt
Niet alles is opgelost.
Lange-context-multimodaliteit. Een AI die een film van twee uur kijkt, een boek van 500 pagina's leest, en tien geluidsopnames beluistert — en dan coherent over alle drie redenneert — is nog niet optimaal. Context-window-beperkingen en geheugen-consistentie zijn blijvende uitdagingen.
Fijnmotorische uitvoer. AIs die complexe artistieke video's maken (niet alleen clips, maar hele films) zijn beperkt. Muziek-compositie en dialoog-schrijvende integratie schiet tekort voor hoog-niveau gebruik.
3D-begrip. Begrijpen van 3D-ruimtes vanuit 2D-input is moeilijk. Robotica lijdt hieronder — een AI die een object beschrijft, kan misleiden over hoe het ruimtelijk ligt.
Emotioneel begrip. Hoewel AIs emotie kunnen detecteren in stem en gezicht, blijft de interpretatie oppervlakkig. Complexe menselijke emoties — ironie, sarcasme, gelaagde gevoelens — worden matig begrepen.
De interactie-revolutie
Wat multimodaliteit wellicht het meeste verandert is niet wat AI doet, maar hoe we met AI omgaan.
Tekst-interactie is efficiënt maar beperkt. Veel communicatie is non-verbaal. Wanneer je met een mens praat, zie je hun gezicht, hoor je hun stem, voel je hun aanwezigheid. Die dimensies ontbreken bij pure tekst-chat.
Multimodale AI brengt deze dimensies terug. Je kunt nu foto's laten zien, met stem praten, emotie uitdrukken. De AI kan terugpraten met gepaste toon. Dat voelt anders dan chatten. Voor veel mensen voelt het intuïtiever, natuurlijker, verbinden.
Dat is zowel zegen als vloek. Zegen: toegankelijker voor mensen die tekst moeilijk vinden (ouderen, kinderen, neurodivergenten). Toegankelijker voor taken waar tekst onpraktisch is. Vloek: maakt AI nog aantrekkelijker voor emotionele hechting — zie de zorgen rond AI-companionship.
Waar het heen gaat
Multimodaliteit wordt in 2026-2027 waarschijnlijk de basis van alle serieuze AI-systemen. Puur tekst-modellen gaan niet verdwijnen, maar worden specialiteit. Voor algemeen gebruik is multimodale ondersteuning standaard.
Verdere ontwikkelingen zien we waarschijnlijk in:
- Real-time interactie. Latency-verminderingen zodat AI instant kan reageren, niet met 2-3 seconden vertraging.
- Embodied AI. Integratie met robotics — AIs die niet alleen praten maar fysiek handelen in de wereld.
- Meer uiteenlopende zintuigen. Reukzin en tast zijn onderzoeksonderwerp (lokale sensor-data).
- Generatieve outputs. Niet alleen beelden beschrijven maar genereren. Niet alleen audio analyseren maar componeren.
De sobere observatie
Wat multimodale AI uiteindelijk doet, is de afstand tussen AI en menselijke ervaring verkleinen. Onze eigen cognitie is multimodaal. We zien, horen, praten, denken — tegelijk, onafgebroken, in één stroom. AI tot 2023 was fundamenteel anders dan dat. AI in 2026 is dichter bij de menselijke vorm van informatieverwerking.
Of dat goed of slecht is, hangt van je perspectief af. Pragmatischer AI die beter in onze wereld past. Meer mogelijkheden voor waardevolle toepassingen. Maar ook: AI die nog overtuigender mens-achtig voelt, wat nieuwe categorieën vragen oproept over vertrouwen, intimiteit, en gezonde grenzen.
Wat zeker is: de wereld van AI-puur-tekst is voorbij. We zitten in een andere wereld. Hoe goed we hem kunnen gebruiken, en hoe goed we erbij gezond blijven, bepaalt de komende jaren.
Multimodaliteit is geen trucje. Het is een fundamentele uitbreiding van wat AI als technologie kan zijn. En zoals al dit soort uitbreidingen: verrijkend en ontwrichtend tegelijk, afhankelijk van hoe we ermee omgaan.
Veelgestelde vragen
Wat betekent 'native multimodal'?+
Dat het model getraind is om meerdere modaliteiten direct te verwerken, in plaats van verschillende modellen aan elkaar te knopen. GPT-4 versie 1 had een beeldherkenner aangehangen; GPT-4o heeft beeldbegrip intrinsiek in zijn architectuur.
Kan het ook video begrijpen?+
In toenemende mate. Gemini kan lange video's analyseren (tot uren). Claude kan korte videofragmenten bekijken. De kwaliteit neemt toe maar blijft achter op tekst en statische beelden.
Wat is het voordeel van multimodal boven aparte tools?+
Context-behoud. Een tekst-AI die naar een apart beeldherkenningsmodel stuurt, verliest veel nuance. Een native multimodal model kan tekst en beeld in één 'denken' samen verwerken — de combinatie is rijker dan de losse delen.
Maakt dit spraakherkenning en TTS overbodig?+
Deels. OpenAI's Advanced Voice Mode en Google's multimodale spraak vervangen traditionele spraakherkenning-TTS-pipelines met rijker natuurlijk gesprek. Maar specifieke toepassingen (telefoondiensten, transcripties) blijven aparte tools gebruiken.