De wereld van kunstmatige intelligentie ontwikkelt zich in een razend tempo, waarbij de nadruk vaak ligt op gigantische modellen die enorme hoeveelheden rekenkracht vereisen. Toch is er een boeiende verschuiving gaande richting efficiëntie en lokale toepasbaarheid. In deze uitgebreide blogpost duiken we diep in de recente ontwikkelingen rondom Alibaba's nieuwste AI-modellen, gebaseerd op de inzichten uit de recente video "Qwen 3.5 Small explained.." van het YouTube-kanaal Caleb Writes Code.

De 'Shotgun' Strategie van Alibaba

Wanneer we kijken naar de manier waarop grote techbedrijven hun AI-modellen lanceren, zien we vaak een focus op één of slechts enkele specifieke groottes. Alibaba kiest echter voor een compleet andere, veel bredere aanpak. Onlangs bracht Alibaba verschillende groottes van hun modellen uit, beginnend met hun indrukwekkende vlaggenschipmodel dat maar liefst 397 miljard parameters bevat. Slechts acht dagen later volgden hun middelgrote modellen in diverse groottes en niveaus van sparsity, en tot slot hebben we nu de kleinere varianten gekregen.

Deze unieke "shotgun benadering", waarbij Alibaba in wezen een enorm breed scala aan groottes en parameters dekt, onderscheidt hen aanzienlijk van veel andere AI-laboratoria. De nieuwste Qwen 3.5 release omvat modellen van 800 miljoen, 2 miljard, 4 miljard en 9 miljard parameters. Hoewel deze kleinere modellen de neiging hebben om minder aandacht te krijgen, is dit precies het punt waar de technologie echt interessant begint te worden voor de gemiddelde gebruiker. Deze kleinere modellen richten zich specifiek op consumentvriendelijke toepassingen die we lokaal kunnen draaien. Hierdoor komen zogenaamde edge devices in beeld, waaronder consumenten-grafische kaarten, smartphones, tablets, laptops en zelfs Raspberry Pi-computertjes.

Intelligentiedichtheid: Hoe Kleine Modellen Steeds Slimmer Worden

Een van de meest fascinerende concepten om mee te beginnen als we het hebben over deze nieuwe generatie AI-modellen, is de "dichtheid van intelligentie" (intelligence density). Zelfs tech-ondernemer Elon Musk plaatste een bericht over de Qwen 3.5 model drop, waarin hij sprak over de indrukwekkende intelligentiedichtheid van deze modellen.

Om dit concept goed te begrijpen, is het nuttig om te kijken naar de progressie van AI-modellen die zich in de reeks van 9 tot 12 miljard parameters bevinden over de afgelopen jaren. In 2023 zagen we de lancering van modellen zoals Llama 2 met 13 miljard parameters. Een jaar later, in 2024, kregen we Gemma 2 met 9 miljard parameters, gevolgd door Gemma 3 in 2025 met 12 miljard parameters. En nu, in 2026, hebben we de Qwen 3.5 varianten die eveneens een 9 miljard parameter model bevatten.

Wat hierbij opvalt, is de prestatieverbetering. Hoewel de grootte van het model min of meer hetzelfde is gebleven in deze categorie, is ons vermogen om er meer kennis in te verpakken enorm gegroeid. De modellen zijn over de afgelopen drie tot vier jaar aanzienlijk nuttiger geworden. Deze progressie is een direct bewijs dat we inmiddels beschikken over betere modelarchitecturen en betere trainingstechnieken.

De Geheimen Achter de Training van Qwen 3.5

Hoe slaagt het team achter Qwen erin om zoveel intelligentie in een relatief klein pakketje te stoppen? Het antwoord ligt in de trainingsfase. De toename in efficiëntie is mogelijk gemaakt door het gebruik van datasets van een veel hogere kwaliteit, evenals geavanceerde technieken zoals distillation en data-augmentatie. Daarnaast heeft het ontwikkelingsteam betere stabilisatiemethoden toegepast tijdens het trainingsproces en de modelarchitectuur verder geoptimaliseerd. Deze combinatie van factoren zorgt ervoor dat Qwen 3.5 modellen veel meer kunnen doen met dezelfde hoeveelheid parameters als hun voorgangers.

De 9 Miljard Parameter 'Sweet Spot' en het Belang van Lokale AI

Van de negen verschillende modellen die het Qwen-team tegelijkertijd heeft uitgebracht, fungeert het 9 miljard parameter model als een uitstekend middelpunt. Het vormt een perfecte brug tussen grafische kaarten voor consumenten aan de ene kant, en de veel duurdere high-grade grafische kaarten en server-grade cloud-GPU's aan de andere kant.

Het feit dat we deze modellen nu direct op edge devices zoals een laptop of telefoon kunnen draaien, is revolutionair. Dit brengt namelijk een niveau van volledige privacy met zich mee dat simpelweg onmogelijk te garanderen is wanneer je gebruikmaakt van cloud-gebaseerde modellen. De mogelijkheid om deze AI-modellen volledig offline te draaien, opent deuren naar compleet nieuwe gebruikssituaties. Stel je bijvoorbeeld voor dat je in een vliegtuig zit, zonder internetverbinding, en dat je de behoefte hebt om je volgende project te coderen met AI — dat is nu precies wat er mogelijk is met deze modellen.

De Evolutie en Prestaties van Qwen Modellen

Om de impact van de Qwen 3.5 release goed te kunnen waarderen, moeten we kijken naar de eerdere releases van het Qwen-team. De Qwen 3 modellen, die in april 2025 werden uitgebracht, varieerden in grootte van 0,6 miljard tot maar liefst 235 miljard parameters. Ook hun Qwen 2.5 release (van september 2024) en de Qwen 2 release (van juni 2024) bevatten modellen die schommelden tussen de 0,5 miljard en minimaal 72 miljard parameters.

Wat ontzettend interessant is om te zien, is hoe het nieuwe Qwen 3.5 model van 9 miljard parameters presteert in vergelijking met de veel grotere modellen uit de voorgaande Qwen 3-generatie. Het is fascinerend dat dit nieuwe, veel kleinere model "nek-aan-nek" kan concurreren met oudere zwaargewichten. Het zal in de toekomst ook erg interessant zijn om te zien hoe verschillende gekwantiseerde versies van de grotere modellen zich verhouden tot enkele van de nieuwere, maar veel kleinere modellen.

De Toekomst van IoT en Fysieke AI op de Edge

Wanneer we onze aandacht richten op de allerkleinste modellen uit deze release, in het bijzonder het model met slechts 0,8 miljard parameters, opent zich een compleet nieuwe wereld. De levensvatbaarheid van dit soort compacte modellen voor het Internet of Things (IoT) zal iets heel interessants zijn om in de gaten te houden.

Denk bijvoorbeeld aan populaire apparaten zoals de Raspberry Pi, die enorm veel worden gebruikt voor allerlei IoT-toepassingen. In het huidige, traditionele model gebruik je deze kleine apparaten om informatie over de fysieke wereld te verzamelen. Vervolgens sturen ze deze ruwe data naar een gecentraliseerde database, waar krachtigere computers worden ingezet om de data verder te analyseren. Maar met de komst van de compacte Qwen 3.5 modellen verandert dit paradigma drastisch. Gezien de kleine omvang van de modellen en hun multimodaliteit — wat betekent dat ze in staat zijn om ook visuele input te verwerken — kunnen we in de nabije toekomst zeer interessante toepassingen gaan zien. We verschuiven naar een wereld waarin de daadwerkelijke computatie en analyse veel dichter bij de rand van het netwerk plaatsvindt.

Conclusie

De wereld van kunstmatige intelligentie staat aan de vooravond van een belangrijke transformatie. Naarmate AI-modellen steeds kleiner én slimmer worden, groeit de adoptie van deze technologie ver voorbij de traditionele toepassingen. We bewegen ons in de richting van meer tastbare en fysieke toepassingen, waarbij "fysieke AI" en edge computing apparaten een cruciale rol gaan spelen.

Deze nieuwe generatie slimme apparaten heeft vaak behoefte aan eigenschappen die cloud-AI niet goed kan bieden: offline privacy, bijzonder lage latency, en de mogelijkheid om goed te functioneren op hardware met sterke beperkingen. Met de succesvolle lancering van deze reeks kleinere, uiterst capabele Qwen 3.5 modellen, lijkt Alibaba uitstekend gepositioneerd te zijn om precies in die opkomende markt te stappen. De race om de slimste AI gaat niet langer alleen om wie de grootste supercomputer heeft, maar om wie de meeste intelligentie in het kleinste, meest efficiënte apparaat kan stoppen.

Deze blogpost is gebaseerd op een video van Caleb Williams. Bekijk de originele video.

BLOG

Alibaba's Qwen 3.5: De Revolutie van Kleine AI-Modellen voor Edge Computing