AutoResearch: Hoe AI Zichzelf Verbetert Zonder Menselijke Tussenkomst

Stel je een AI-agent voor die een schaakmotor begint met een ELO van 750 — het niveau van een beginner. Na urenlang zelf experimenteren, zonder enige menselijke input, speelt diezelfde motor op ELO 2600: grootmeesterniveau. Dit is AutoResearch, en het verandert hoe we denken over softwareontwikkeling.

Een Restaurantsimulatie als Startpunt

De kracht van AutoResearch wordt het duidelijkst aan de hand van een concreet voorbeeld. Een restaurant waar bestellingen binnenkomen en ingrediënten verbruiken. Het huidige algoritme faalt meer dan de helft van de bestellingen omdat de voorraad uitraakt voordat nieuwe aanvullingen arriveren.

AutoResearch werd op dit probleem losgelaten — zonder directe instructies over hoe het algoritme verbeterd moest worden. Het resultaat? Een volledig nieuw algoritme dat:

Direct op dag één begint met bestellen, anticiperend op de aanvoertijd van 3-5 dagen
Bestellingen groepeert in grotere hoeveelheden in plaats van één voor één
Voorraad actief op een veilig niveau houdt

Het Mechanisme: Iteratief Experiment

Hoe werkt AutoResearch? De kern is een experimentlus die:

Wijzigingen voorstelt aan het algoritme
Experiments uitvoert in de simulatie
Evalueert of de wijziging de doelstelling verbetert
Behoudt successen, verwerpt mislukkingen

Dit is vergelijkbaar met evolutie: alleen de "fit" varianten overleven.

De Structuur is Cruciaal

AutoResearch werkt binnen strikte grenzen die de mens definieert:

goals.py: Wat wil je bereiken?
prepare.py: Hoe evalueer je succes?
Beperkt domein: AutoResearch mag alleen het doelalgorithme aanpassen, niet de evaluatielogica

De kracht van AutoResearch zit juist in wat het níet kan: het kan de spelregels niet veranderen, alleen beter spelen binnen die regels.

Het Werkkapitaalprobleem: Evaluatie Verfijnen

De restaurantsimulatie laat een subtiel maar belangrijk probleem zien. Nadat AutoResearch de voorraad optimaliseerde, bleef de voorraad stabiel — maar het bedrijf had nauwelijks werkkapitaal meer. De evaluatie moest aangescherpt worden: niet alleen maximaliseer de voorraad, maar ook het werkkapitaal.

Les: garbage in, garbage out — ook voor AI-zelfverbetering.

Vibe Coding vs. AutoResearch

AutoResearch is fundamenteel anders dan vibe coding, waarbij een mens en AI samen feature voor feature bouwen. Bij AutoResearch is er nul menselijke tussenkomst tijdens de iteratieloop.

Dit maakt AutoResearch geschikt voor een specifiek type probleem:

Meetbaar succes: Er moet een duidelijke evaluatiefunctie zijn
Simuleerbaar domein: Je hebt een omgeving nodig waar experimenten snel kunnen draaien
Nauw gedefinieerd: "Maak dit restaurant beter" is te vaag; "maximaliseer werkkapitaal" werkt

De Grenzen van Zelfontwikkeling

AutoResearch is geen pad naar singulariteit — althans niet zomaar:

Vereist een feedbackloop (simulatie of testomgeving)
Werkt niet voor open-ended problemen zonder duidelijke evaluatiemetriek
Richting en structuur moeten van een mens komen

Een Nieuwe Benadering van Softwareontwikkeling

AutoResearch suggereert dat de rol van softwareontwikkelaars fundamenteel aan het verschuiven is. In plaats van "hoe implementeer ik dit algoritme", wordt de vraag: "hoe definieer ik het probleem en de evaluatiecriteria zo dat een AI het kan oplossen?"

Softwareontwikkeling wordt steeds meer over het ontwerpen van de juiste structuur — en minder over het handmatig schrijven van elke regel code.

Deze blogpost is gebaseerd op een video van Caleb Williams. Bekijk de originele video.

BLOG

AutoResearch: Hoe AI Zichzelf Verbetert Zonder Jouw Hulp