Stel je voor dat ik een muntje in de lucht gooi. Zonder dat je ingewikkelde wiskundige formules hoeft te gebruiken, weet je instinctief dat de kans dat de munt op kop of munt landt precies 50/50 is. Je weet dit als een absoluut feit, simpelweg omdat je bent opgegroeid in een fysieke wereld waarin je de wetten van de fysica in de loop van de tijd hebt kunnen observeren en ervaren. Maar in tegenstelling tot ons mensen, hebben Grote Taalmodellen (LLMs) deze luxe van fysieke ervaring helemaal niet.

LLMs beschikken namelijk niet over een gesimuleerde omgeving waarin ze hun theorieën over de wereld kunnen uittesten en valideren. Dit roept een fundamentele en fascinerende vraag op: zijn grote taalmodellen inherent gebrekkig in hun vermogen om de fysieke wereld echt te begrijpen? En hoe kunnen zogenaamde 'World Models' dit probleem oplossen?

De Fundamentele Beperkingen van Grote Taalmodellen

Om de waarde van World Models te begrijpen, moeten we eerst kijken naar hoe huidige LLMs worden getraind. LLMs worden gedurende vele maanden getraind met behulp van biljoenen teksttokens. Mensen daarentegen ontwikkelen zich langzamer, maar ervaren de wereld door middel van verschillende modaliteiten, in plaats van uitsluitend via tekst.

Wij weten dat de wetten van de fysica de fysieke wereld om ons heen regeren. Onze zintuigen observeren deze wereld continu, we handelen erin, en we brengen ons begrip van deze fysieke ruimte in kaart. Pure grote taalmodellen worden echter uitsluitend getraind met tekst. Tekst is in wezen de hoogste vorm van abstractie die we hebben om de fysieke wereld te beschrijven; het is een representatie van de realiteit, maar niet de realiteit zelf.

Wat zijn World Models? De Doorbraak van 2018

World Models benaderen het probleem van begrip op een fundamenteel andere manier. De kernvraag die onderzoekers stelden was revolutionair: wat als we, in plaats van een AI-model te voeden met eindeloze stromen van teksttokens, het model trainen om de fysieke wereld te simuleren in zijn eigen "hersenen"?

De oorspronkelijke paper, geschreven door onderzoeker David Ha, maakt gebruik van drie hoofdcomponenten:

Het visiemodel observeert de omgeving met behulp van een variational autoencoder. Dit systeem comprimeert wat het visueel waarneemt naar een lagere dimensie, waardoor het alleen de allerbelangrijkste kenmerken extraheert terwijl irrelevante ruis wordt weggegooid.

De MDN RNN verwerkt deze gecomprimeerde informatie. Omdat recurrent neural networks bijzonder goed in staat zijn om eerdere toestanden bij te houden, kan het model voorspellingen doen op basis van wat het eerder heeft gezien in combinatie met wat het nu ziet.

Het controllermodel neemt steekproeven uit de output van de vorige componenten en voert acties uit in de fysieke of gesimuleerde ruimte — zoals het naar links en rechts bewegen, of het oppakken van objecten.

Wanneer deze drie componenten samenwerken, leren ze om te interacteren met de fysieke wereld. Uiteindelijk wordt de eigen representatie van de wereld in het model zó goed, dat je de daadwerkelijke externe omgeving kunt wegsnijden. De AI-agent kan dan uitsluitend getraind worden door de simulatie in het World Model — zonder dat het in de echte wereld hoeft te oefenen.

De Dominantie van Fundamentmodellen

Ondanks de indrukwekkende efficiëntie van World Models domineren grote taalmodellen de markt. Een van de belangrijkste redenen is dat LLMs prachtig konden opschalen. Terwijl World Models vaak domeinspecifiek bleven, evolueerden LLMs naar foundation models. We kunnen een generiek LLM inzetten voor een breed scala aan taken: diepgaand onderzoek, softwareontwikkeling, computerbeheer en meer.

De Strijd om AGI: Yann LeCun en de Kritiek op LLMs

Yann LeCun, een van de grootste voorstanders van World Models, werkte aan deze technologie bij Meta voordat hij zijn eigen bedrijf AMI startte. Zijn hoofdargument: LLMs begrijpen de fysieke wereld simpelweg niet echt, omdat ze niet verder komen dan hun auto-regressieve aard — constant het ene token na het andere voorspellen zonder diepere aarding in de realiteit.

Toch is er een sterke tegenbeweging. Menselijke taal bevat namelijk veel meer informatie en structuur dan vaak wordt erkend. Talen representeren de fysieke wereld niet alleen in losse woorden; ze bevatten ook grammaticale structuren die betekenis dicteren, en stijlfiguren die een abstract begrip van de fysieke wereld bieden.

De Lijnen Vervagen: Multimodaliteit en Ruimtelijk Inzicht

Rond 2023 begon de harde grens tussen pure LLMs en World Models te vervagen. Modellen zoals GPT-4 en Gemini 1 introduceerden multimodaliteit — visie-taalmodellen die ook afbeeldingen kunnen waarnemen. Omgekeerd zagen we de opkomst van VLA (Vision Language Action) modellen, die vision transformers combineren met LLMs om actietokens te creëren. Dit is exact wat de humanoïde robot 'Neo' aandrijft.

AI-pionier Fei-Fei Li demonstreerde via haar startup World Labs (230 miljoen dollar funding) het product 'Marble', dat Gaussian splats creëert — miljoenen interactieve deeltjes die een fysieke wereld representeren.

De Giganten Stappen In: Google, NVIDIA en de Toekomst

Google droeg bij met projecten zoals SEMA en Genie 3, dat hyperrealistische werelden creëert. NVIDIA biedt het open-source platform Cosmos aan — een World Foundation Model dat ontwikkelaars tools geeft voor data-augmentatie en training van autonome voertuigen, robots en video-agenten.

Conclusie

De ontwikkeling van AI staat op een fascinerend kruispunt. Aan de ene kant hebben we LLMs die de wereld analyseren door de lens van taal en patronen, aan de andere kant World Models die de fysieke wetten van de werkelijkheid simuleren. De vraag is niet of ze elkaar uitsluiten, maar of ze verschillende problemen oplossen.

Of het nu is via het voorspellen van het volgende woord of het simuleren van digitale zwaartekracht — de zoektocht naar een model dat de echte wereld werkelijk "begrijpt", is nog maar net begonnen.

Deze blogpost is gebaseerd op een video van Caleb Williams. Bekijk de originele video.

BLOG

Wereldmodellen: Hoe AI de Fysieke Wereld Leert Begrijpen