Skip to content

Instantly share code, notes, and snippets.

@ricklamers
Created March 14, 2026 16:10
Show Gist options
  • Select an option

  • Save ricklamers/cd2daced55d7e31e10c01abe9035dbe6 to your computer and use it in GitHub Desktop.

Select an option

Save ricklamers/cd2daced55d7e31e10c01abe9035dbe6 to your computer and use it in GitHub Desktop.
Interview AI Report 12-03-2026
Source: https://open.spotify.com/episode/6RYYJOnDvMBf5pPx0cT9Fe
Wietse: Welkom bij AI Report, dé Nederlandse podcast over kunstmatige intelligentie, waar we uitzoeken welke invloed AI heeft op ons werk, ons leven en de samenleving. Deze week interview ik Rick Lammers, een eerdere gast in de podcast die toen nog werkte bij Groq met een Q. Inmiddels werkt Rick bij Nvidia. Ik praat met Rick over GPT-5.4, over het nieuwe lab van Yann LeCun, recursive self-improvement en de AGI-timelines van Rick. Voordat ik dat doe, eerst even het nieuws.
Het Nieuws
Wietse: GPT-5.4 is het beste nieuwe model van OpenAI. Wat opvalt is dat het een stuk beter presteert op de benchmarks die ertoe doen, en vooral de ‘computer use’, oftewel de mogelijkheid voor modellen om computers te gebruiken door rond te klikken en apps te gebruiken die normaal mensen gebruiken, is een stuk beter geworden. Daarnaast zijn spreadsheet-taken, dus bijvoorbeeld het besturen van Excel en Excel-sheets analyseren, een stuk beter geworden. Het is niet enkel halleluja; GPT-5.4 hallucineert nog steeds, dus check je outputs nog altijd, en zet je thinking mode aan, want de standaard 5.4 is een stuk dommer dan de thinking-versie.
Dan: Anthropic onderzoekt welke banen door AI geraakt worden. In een onderzoek gebaseerd op de gebruikersdata die Anthropic via Claude kan verzamelen over Claude-gebruik, hebben ze een overzicht gemaakt van alle verschillende domeinen waarbinnen Claude al ingezet kán worden en ingezet wórdt. Dat is een belangrijk verschil, want Claude wordt eigenlijk nog niet op alle plekken waar het al ingezet zou kunnen worden, ingezet. En er zijn bepaalde plekken waar Claude niet ingezet kan worden op dit moment. Het creëert een soort visualisatie van het kleine stukje waar AI al ingezet wordt binnen de verschillende sectoren, een heel groot deel waar AI al ingezet zou kunnen worden, maar ook een heel groot deel waar AI eigenlijk nog niet goed ingezet kan worden. Wat houdt dat dan in? Dat je volgens Anthropic, als je de AI-dans wilt ontspringen, monteur, kok, barkeeper of badmeester moet worden.
Dan, meer nieuws van Anthropic: Anthropic heeft een denktank opgericht, het Anthropic Institute. Een instituut dat moet uitzoeken wat de maatschappelijke gevolgen zijn van krachtige AI die op korte termijn zal komen. Korte termijn houdt in: begin 2027, AI’s zo slim als de meeste mensen. Als die modellen inderdaad zo snel komen en zo krachtig zijn in 2027, dan hebben we als samenleving nog wel een paar grote vragen te beantwoorden. Wat gebeurt er als al die banen er niet meer zijn met de samenleving? Wie beslist over de waarden die in AI-systemen terechtkomen? Oftewel: wie bepaalt hoe AI er uiteindelijk uit komt te zien? Het instituut komt op een cruciaal moment voor Anthropic. Het bedrijf ligt nog altijd in de clinch met de Amerikaanse overheid en heeft inmiddels een rechtszaak aangespannen om van de zwarte lijst afgehaald te worden, waardoor ze op dit moment, volgens de rechtsbankdocumenten, honderden tot meerdere miljarden aan omzet mislopen.
Interview: Rick Lammers over GPT-5.4 en de Toekomst van AI
Wietse: Goed, ik spreek deze week met Rick Lammers. Rick is terug in de studio. We hebben hem twee keer eerder gesproken. Ik sprak hem deze zomer nog over GPT-5. Inmiddels zijn we bij GPT-5.4 aangeland. Ik bespreek met Rick wat de verschillen zijn, wat de verbinding is tussen programmeermodellen, wetenschap, waarom zoveel programmeurs zo onder de indruk zijn van wat GPT-5.4 kan, waarom Yann LeCun bij Meta weggegaan is om een hele nieuwe weg in te slaan als het om AI-modellen bouwen gaat, hoe deze modellen mogelijk met elkaar kunnen gaan samenwerken in de toekomst in de vorm van een soort ‘model ensemble’, wat dit betekent voor AGI-timelines en hoe we uiteindelijk met elkaar kunnen analyseren en kijken naar een toekomst waarin mogelijk modellen op korte termijn sprongen maken die velen van ons niet zien aankomen.
Ik heb mijn best gedaan om metaforen te bedenken wanneer nodig en Rick te onderbreken als het allemaal erg snel ging. Mocht je het nu alsnog snel vinden gaan, kun je natuurlijk altijd de podcast op een lager tempo afspelen of hem gewoon even op pauze zetten en een stukje gaan wandelen. Heel veel plezier. Ik vond het in ieder geval een heel erg interessant gesprek.
Wietse: Rick, de laatste keer dat wij elkaar spraken, toen werkte je nog niet bij Nvidia. Nu wel. Gefeliciteerd, I guess.
Rick: Ja, mooie stap.
Wietse: Hoe is het daar?
Rick: Heel erg vet. Ik ben bij Nvidia gekomen via de Groq-deal. Een deel van het technisch personeel ging mee naar Nvidia en ik vind het geweldig. Het is een soort kind in een snoepwinkel voor mij.
Wietse: Ja, want je hebt een unlimited token budget, heb ik begrepen?
Rick: Ik heb... Ja, dit is de nieuwe meme ook op internet van: waar ga je werken? Nou, let in ieder geval niet alleen op salaris, maar ook op je token budget. En we hebben bij Nvidia praktisch oneindig, echt praktisch oneindig, gewoon, je kunt in principe onbeperkt gebruiken totdat er misschien IT ofzo naar je toe komt.
Wietse: Even voor de mensen die denken ‘wat?’: waar we het over hebben is, als jij een abonnement hebt op de verschillende AI-modellen, dan zit daar een token budget bij. Daar kun je overheen, namelijk, je moet even wachten tot de dag daarna. Niks is echt daadwerkelijk unlimited, behalve bij een aantal grote AI-bedrijven die jou als werknemer beloven: jij kan eigenlijk doen waar je zin in hebt en zoveel mogelijk tokens gebruiken. En blijkbaar heb je daar...
Rick: Ik vind het ook echt een goed idee, want er is gewoon een enorme reductie in de kosten die gemaakt moeten worden om een token te produceren. Dat laten ze ook keer op keer zien in allerlei studies die het gemiddelde van de markt nemen, en gemiddelde dus qua kosten per token, maar ook hoe slim, hoe goed die tokens zijn. En je moet personeel denk ik conditioneren dat je er veel meer van kan en mag gebruiken dan misschien redelijk voelt op dit moment gegeven de huidige kosten, omdat je mensen wil ‘primen’ als het ware van: je móét... Dit is goedkoop, zeg maar. Dit is niet duur. Ook al kost het nu bijvoorbeeld in een dag 400 dollar, wat natuurlijk enorm veel tokensgebruik is op één dag, maar dat proces, dat doen, dat kost over zes maanden waarschijnlijk nog maar 40 dollar of 100 dollar per dag, en zes maanden daarna kost het echt 40 dollar. Dus dan is het tien keer minder in een periode van een jaar, zeg maar. En als je in je hoofd al helemaal gaat denken van: hoe kan ik iets doen als ik gewoon daar even geen rem op zet? Dan ga je al veel sneller...
Wietse: Jij bedoelt te zeggen dat mensen die nu verschillende AI-tools gebruiken waar ze zich bewust zijn van het tokengebruik, dat ze een tokenschaarste ervaren van: ‘Oké, ik moet hier niet te snel teveel mee doen, want anders loop ik over mijn abonnement heen’.
Rick: Ja, en dan ga je eigenlijk jezelf beperken. En dat is op zich logisch vanuit een geldbesparingsperspectief, maar in een markt waarin die kosten zo snel dalen en waar je zo snel moet leren om het maximale uit de tools te halen, omdat dat ook telkens verandert, omdat die modellen steeds meer kunnen, dus je moet telkens weer ontdekken: waar liggen de nieuwe limieten? Dat het heel bevorderlijk werkt voor adoptie als je er letterlijk gewoon geen rem op zet even. Tuurlijk, als je na zes maanden denkt: ‘Hé joh, de kosten lopen echt de pan uit’, en dat punt heb je echt bereikt, dan kun je daarna altijd nog wel wat afremmen. Maar ik denk dat nu mensen heel erg voorbarig zichzelf remmen omdat ze denken: ‘Ja, maar ik wil niet dat die kosten uiteindelijk te hoog worden’.
Maar even stapje terug: ik werk dus bij Nvidia. Supermooi. Groot beursgenoteerd bedrijf, dus ik moet er ook gelijk bij zeggen: wat ik zeg in deze podcastaflevering zijn mijn meningen, niet de meningen van Nvidia. Standaard corporate disclaimer, maar wel echt waar. Maar ik heb er heel veel zin in, want we hebben heel veel om over te hebben.
Wietse: Ja, we hebben samen allebei een lijstje gemaakt. Iets meer structuur dan eerdere gesprekken die we hebben gehad. Of het gaat helpen, weet ik ook niet.
Rick: Weet ik ook niet.
Wietse: Ik denk dat we de laatste keer gesproken hebben over GPT-5. Dat was tijdens de zomer. Die kwam toen uit en dat was een soort ‘dud’, iets wat niet spectaculair was maar ook spectaculair tegelijk. Kleine recap: er zat een router tussen, of er zit een router tussen, die het model kiest aan de hand van jouw vraag. Inmiddels zijn we bij GPT-5.4 aangeland. Dus .1, .2, .3 en nu .4. En hebben we eigenlijk, in ieder geval dat is mijn lezing, een iets meer volwassen versie van wat GPT-5 is. Misschien wel als we dit hadden gehad in augustus, dan had het meer effect gehad denk ik. Wat vind jij?
Rick: 5.3 hebben we niet gehad voor de consumenten, alleen Codex. Dus dat was alleen het gespecialiseerde coding-model.
Wietse: Ja, is misschien wel goed om een beetje toe te lichten voor de luisteraar: Rick en ik zijn ontwikkelaars, dus zitten... Praten met deze modellen en zien deze modellen op een andere manier dan dat jullie, veel van de luisteraars, ze zien in jullie ChatGPT-app als je al bewust aan het kiezen bent tussen modellen daar. En inderdaad, het 5.3-model was een Codex-model en is dus nooit voor de eind-eindgebruiker beschikbaar geweest.
Rick: Klopt. En ik maak zelf ook wel gebruik van de ChatGPT-app. Ik vergelijk eigenlijk dagelijks de Gemini-app, ChatGPT, xAI Grok en Claude van Anthropic. Omdat ik gewoon merk dat ik nog steeds niet de vinger erop kan leggen op dit moment voor wat voor soort vragen eigenlijk altijd één app dominant is. Dus soms merk ik: ‘Hé, ik vind dit antwoord net iets fijner’, en soms dat antwoord net iets fijner, dus ik gebruik al die apps. En dus ik gebruik ook ChatGPT, en ik had dus ook geen 5.3 in mijn ChatGPT, omdat dat een coding-only model was.
En nu zijn we bij 5.4. Die is vorige week donderdag uitgekomen, net toen ik aan het opnemen was met Alexander, dus wij hebben het daar nog niet over gehad. Hoe is nu een beetje jouw gevoel daarbij? Jij dacht net, en ik ook, dat hij een maand geleden was uitgekomen. Ik denk dat dat al iets zegt. Want dat is niet waar. Het is een week geleden. En dat is een soort heel rare tijdsverdichting of tijdverlenging, ik weet niet hoe ik het moet noemen, die er nu plaatsvindt. Maar ben jij onder de indruk? Wat zijn de takes die je online hebt gelezen?
Rick: Ja, ik heb het idee zelf, ook als je kijkt naar de berichtgeving van OpenAI daarover, dat die wel ook klopt met mijn perceptie en ook hoe ik andere mensen buiten OpenAI daarover hoor spreken, en dat is dat het een unificatie was, of een unification, een vereniging, het samenbrengen van eigenlijk het Codex-model, de Codex-serie. Dus het is op zich handig dat je ook net die context gaf van: er zijn dus eigenlijk twee modellen, je hebt 5.3 Codex, dat is echt een model gemaakt voor gebruik tijdens het programmeren in een...
Wietse: Dat is ook best bijzonder, want Anthropic bijvoorbeeld heeft er in principe maar één, die heeft er ook één.
Rick: Maar OpenAI had dat ook heel lang. Dus het is volgens mij ook een beetje Conway's Law. Dat is een principe dat je organisatie-structuur dat dat uiteindelijk ook bepaalt hoe producten naar buiten komen, dat die dan een soort reflectie zijn van interne initiatieven. En ik heb het idee dat er ook een soort skunk works project misschien was, weet ik niet, is gewoon gokken van mij van buitenaf, dat Codex kwam uit een soort push om beter te gaan presteren op coding. En dat daardoor die modellen kwamen. Wat we ook weten is dat die Codex-modellen, die zijn over het algemeen heel gekoppeld aan de specifieke structuur van de ‘coding harness’, wordt dat genoemd. In de praktijk is dat een soort terminalprogramma waarin je kan praten met het model. Dat dat model gekoppeld is aan de specifieke details van dat coding harness.
Wietse: Ja, misschien voor de mensen die wat termen tegelijk horen: in het geval van bijvoorbeeld Claude Code, wat een harness is rondom de Claude-modellen, praat Claude Code eigenlijk met de standaard Haiku, Sonnet en Opus-modellen, ook al zijn die modellen al wel weer een beetje gefinetuned op de harness, heb ik begrepen. Maar het zijn dezelfde modellen. Codex, een app van OpenAI voor Mac en inmiddels ook Windows, die praat eigenlijk standaard met een Codex-specifiek model en kan ook wisselen naar andere modellen, ook naar hun eigen algemene model 5.2 en nu 5.4. Maar is nu met die 5.4 komt er ook geen 5.4 Codex?
Rick: Nee, klopt. Dat komt er dus niet. Dat is de unification waar jij het over hebt.
Wietse: Dat is het inderdaad, het samenbrengen van die Codex-series terug naar het main model. Dus de primaire bijdrage van 5.4 ten opzichte van 5.2 is dat Codex nu dus samengevoegd is en geen aparte model-serie meer is. Wat ze in 5.4 ook hebben weten te bereiken ten opzichte van 5.3 Codex, dus ook specifiek voor de code, is dat hij token-efficiënter is geworden. Dat wil zeggen, die modellen zijn reasoning-modellen, dus die produceren eerst tokens om na te denken over wat er wordt gevraagd, en dan als ze het gevoel hebben ‘ik ben klaar om een antwoord te geven’, schakelen ze van nadenken naar antwoord geven. En hoeveel tokens ze tijdens dat nadenken produceren, dat is token efficiency. En daar hebben ze een verbetering in gerealiseerd met 5.4 ten opzichte van 5.3 Codex. Dus hij is voor het bereiken van hetzelfde kwaliteitsniveau... Je kan vaak een soort knop kiezen: low, medium, high of extra high. En op diezelfde high-stand bereiken ze dus dezelfde kwaliteit als dat 5.3 Codex-model op high, maar in iets van ik geloof de helft van de hoeveelheid tokens, dus echt een stuk efficiënter.
Wietse: Ja, en die knoppen die jij net beschrijft, medium, high, ultra high, extra high. Ik zie ze vaak online langskomen en ik kies dan zelf in het geval van programmeren altijd maar voor hoog, omdat ik denk dat zal wel beter zijn. Maar ik ben daar eigenlijk best wel naïef over. Dit is trouwens niet iets wat je in de consumer-app van ChatGPT kunt aangeven, toch? Ik bedoel daar...
Rick: Kan je wel.
Wietse: Hoe?
Rick: Er is een... Als je dus kiest voor het thinking-model in de ChatGPT-app, en dan sidestep je dus die router, dan ga je dus altijd naar het thinking-model. En dan als je dat doet in die app, dan krijg je een soort popup in je text area waar je die prompt kan invoeren. En daar kan je op klikken. En dan kan je klikken op extended. En hij staat standaard op standard. En dus bij standard zal hij wel, weet ik niet zeker, maar dan vertaalt hij waarschijnlijk intern naar medium op de API. En als je klikt op extended dan gaat hij naar high.
Wietse: Interessant. Dus we hebben wel een soort keuze daar als eind-eindgebruiker. Maar wat doen we daar dan eigenlijk?
Rick: Je geeft daarmee aan dat je bereid bent om te wachten, langer te wachten, op een hogere kwaliteit antwoord en waarschijnlijk dat je ook iets sneller door je budget heen gaat, want er zijn van die limits als jij de hele dag ChatGPT gebruikt, kom je op een gegeven moment een keer zeggen ‘je mag over zoveel uur pas opnieuw weer een vraag stellen’ binnen je abonnement.
Wietse: Ja, want zit er dan aan de achterkant een soort, of in dat model, iets van: ‘Oké sorry, je hebt lang genoeg nagedacht’. Het is bijna een soort mondeling examen waar de docent zit van ‘ja, sorry man, tijd is op’. En is dat die tijd is gewoon langer? Of zeg ik dit nu veel te simpel?
Rick: Nou, hoe het werkt is dat die modellen die krijgen deze informatie over hoeveel tijd ze mogen nadenken mee in de system prompt. Dat is een techniek die nu gebruikt wordt, en misschien dat ze het in de toekomst op een andere manier doen, maar dat is een geen strikt limiet maar is een hint naar het model. En dus als je het model... De modellen, de beste modellen nu van OpenAI en zowel Anthropic, die zijn niet meer strikt gebudgetteerd in de zin van: je mag 16.000 tokens nadenken en je móét ook echt 16.000 tokens nadenken. Er wordt dan bijvoorbeeld gezegd: ‘denk extra lang na’. En dan gaat hij langer nadenken, maar als jij een hele domme, simpele vraag zegt of je zegt gewoon ‘zeg hallo’, dan is het wel direct. Dus hij is nog steeds wel dynamisch. Hij kan ook beslissen om gewoon eerder te stoppen als er niet iets echt is om over na te denken.
Wietse: Maar is de router waar we het in augustus over hadden weg? Die domme router? Is die er ook nog?
Rick: Nee, die router is er. Of die beter is geworden, daar laten zij volgens mij, voor zover ik weet, geen statistieken over of een soort evals over los. Ik ben nu geconditioneerd in ieder geval om in die ChatGPT-app altijd gewoon thinking aan te klikken, omdat ik weet als ik naar dat instant model ga, dan is het antwoord over het algemeen vrij slecht. En ik weet wel dat ze 5.3 instant hebben gelanceerd heel recentelijk, dus er was wel eigenlijk, dat heb ik een keer gezegd in het begin, er was wel een 5.3-model. Alleen de kleine? De instant variant. Die was er eerder dan 5.4. En die wordt voor zover ik weet nu ook gebruikt als je routing doet naar... Als je dus 5.4 met automatisch selecteert, dan ga je volgens mij naar 5.3 instant als hij beslist ‘we gaan niet nadenken’.
Wietse: Ja. En nu, ik lees best wel veel online dat de stap 5.2 naar 5.4, laten we heel even vergeten dat er een mini 5.3 is geweest en dat er een 5.3 Codex is geweest, dus ik heb het echt over de meeste eindgebruikers van de ChatGPT-app, hoe die als ze thinking aanzetten, of in ieder geval een vraag stellen die thinking triggert via de router, een kwalitatief verschil voelen tussen 5.2 en 5.4. En ik zie bijvoorbeeld gewoon gemiddelde gebruikers die zeggen van: ‘Oké wow, ik heb mijn eigen vragen die vroeger niet konden etc.’, maar ik zie ook vooral heel veel indrukwekkende opmerkingen langskomen en ook wel wat hype bij mensen die dingen doen in wetenschap, wiskunde en hard science. Kan je dat verklaren? Wat gebeurt daar nu ineens?
Rick: Nou, het feit dat je van 5.2 naar 5.4 bent gegaan zonder een 5.3 thinking zegt al wel iets, denk ik, omdat dat aanduidt dat wat ze in plaats van een 5.3 thinking lanceren, hebben ze zijn ze zeg maar in één keer gesprongen naar dat Codex-model erin. En dus hebben ze, ik denk dat ze intern, en ik speculeer een beetje, maar dat ze, en ze zeggen ook best wel veel, dus dit is ook een beetje gewoon lezen wat zij zelf daarover zeggen, is dat ze dus gewoon een los model hebben dat niet aan reasoning doet, daarnaast hadden ze het reasoning-model voor de ChatGPT-app, de thinking-variant, en daarnaast hadden ze de Codex-variant. En het samenvoegen van die Codex-variant die heel erg goed was in coding en het algemene thinking-model, die twee gezamenlijk, dat was denk ik best wel een grote stap intern. En dat betekent misschien ook het combineren van de training-pipeline en andere stappen die je zet om zo’n model te produceren.
Wietse: Ja, het zijn niet even twee soepen die je bij elkaar gooit in een pan.
Rick: Ja, en die combinatie, die voelt heel anders lijkt wel. En een misschien een grotere stap gevoelsmatig. Maar wat wel denk ik gezegd moet worden is dat ten opzichte bijvoorbeeld van 5.3 Codex voor als je het gebruikt, want jij noemt wetenschap maar er zijn ook veel wetenschappers die bijvoorbeeld programmeren om hun wetenschap te doen. En 5.3 Codex en 5.4 zijn qua code in principe even capabel, alleen de ene is dus efficiënter, gebruikt minder tokens, maar ze bereiken wel hetzelfde niveau. Ze plateau’en ongeveer op hetzelfde punt.
Eén ander belangrijk ding over 5.4 nog, en ik weet niet hoeveel je nog over 5.4, maar 5.4 is ook een stuk beter geworden, dat heeft ook wel een beetje meer te maken met: wat is die 5.4-lancering nou eigenlijk inhoudelijk? Is heel veel beter geworden in computer use. En dan heb ik het specifiek over dat multi-modal van je ziet een scherm en je kan klikken. Ja, muis emuleren, een gebruiker nadoen, een browser bekijken, software openen, dat soort dingen. Een flinke, flinke stap. Hele grote stap. Liep een beetje achter.
Wietse: Ja, en dat is misschien wel een boeiende, want er is, er wordt al lang onderzoek gedaan naar en gespeculeerd over wat... Bij mensen is het bijvoorbeeld zo dat wanneer jij gaat boulderen, klimmen, dan krijg je best wel goede, fijne motoriek dankzij het boulderen, want je moet die holds vasthouden, je klimt omhoog etc. En op alle andere punten in je leven waarin zeg maar die fijne motoriek handig is, heb je dan allemaal voordeel, ook buiten het boulderen, net als Oosterse vechtsport. Als jij daar leert bijvoorbeeld je ademhaling te beheersen om je tegenstander beter te kunnen anticiperen, dan ga jij op andere plekken in je leven ook beter anticiperen. Dit is waarom het zo goed is om je kinderen op Japanse vechtsport te doen bijvoorbeeld, want dat generaliseert naar veel meer facetten van je leven. En wat ik jou nu eigenlijk hoor speculeren is dat op het moment dat jij, dat ze bij OpenAI Codex, een model wat eigenlijk specifiek een expert coding-model is, mergen in een soort hybride model met het meer generalistische GPT-model, dat alle problemen die geformaliseerd kunnen worden, dus hard science, de wetenschap, eigenlijk voordeel hebben bij het blenden van dat programmeermodel. In ieder geval dat is een beetje de suggestie toch die je wekt?
Rick: Dat is denk ik wel de richting die veel mensen terugzien die modellen maken. Dus dat je in die zin transfer learning hebt tussen bepaalde subdomeinen als die elkaar best wel direct zeg maar beïnvloeden. Dus als jij in de wiskunde bijvoorbeeld is er heel veel te doen nu ook met bijvoorbeeld veel heel nuttig commentaar van Terence Tao. Dat is een bekende wiskundige, een soort child prodigy, en heeft heel veel bijzondere resultaten al behaald en is jong professor bij allerlei goede universiteiten enzo. En hij gebruikt modellen, net als heel veel andere wiskundigen, om wiskundige bewijzen te schrijven in formele programmeertalen zoals Lean. En als jij voorheen aan ChatGPT 5.2 vroeg: ‘kun je mij in Lean een bewijs geven voor dit wiskundig probleem?’, dan kon hij dat al, maar 100 procent dat 5.4 dat beter doet. Want 5.3 Codex was wel veel beter in code dan 5.2.
En als je dan kijkt, ik heb dit wel eens de CEO van Anthropic horen zeggen, Dario Amodei, dat er een soort stappen zijn van software maken, dus je hebt AI die software maakt, AI zelf is ook software, dus daar kan je dan AI inzetten om je AI-software te verbeteren, dus Claude Code bouwt Claude Code, daar zijn we al zeg maar, en Codex bouwt Codex enzovoorts. Maar dat je en dat je uiteindelijk ook wetenschap kunt gaan doen, in ieder geval een deel van de wetenschap, de exacte wetenschappen, omdat een programmeur in essentie ook software kan maken die kan helpen bij wetenschap. Die wetenschap gaat er weer voor zorgen dat je fundamentele uitvindingen doet die er weer voor zorgen dat je applied science kan doen enzovoorts, en dat ze daar een soort loopy, circulair gedrag in herkennen, en dat het doorduwen op de programmeerkracht van deze modellen als een soort expert eigenlijk heel logisch is als je ziet welke vruchten je allemaal kunt plukken de breedte in in de toekomst door je eerste focus op de meer exacte en daarna krijg je als het ware de rest, ik zeg het even heel makkelijk, gratis erbij.
Rick: Ja, nou dat is waar nu heel veel om te doen is. Omdat het idee werd al heel vaak herhaald, dus ook al twee jaar geleden hadden mensen het over: ‘ja, en als je het in de algemene termen ziet, als je een AI maakt die AGI is, dan kan die AGI aan zichzelf werken en dan krijg je een loop en dan krijg je singularity’. Dat was het simpele argument wat we al heel lang hoorden. Nou, heel veel mensen hadden vraagtekens erbij van: ‘hoe werkt het dan precies?’ en er was veel scepsis, maar ook wel mensen die nog steeds best wel vasthielden aan dat idee. Hele grote verfstroken die je dan maakt, heel hoog over. Nu zijn de dingen een stuk concreter geworden. Namelijk, er is veel meer kennis en ervaring over wat het proces is dat leidt naar de volgende stap van verbetering in AI-modellen. Dus de teams bij OpenAI die gepusht en hard gewerkt hebben om het eerste o1-model te maken, waarbij ze voor het eerst een reasoning-model produceerden, en wat snel gekopieerd werd in China met DeepSeek R1, dat was een leerproces van: hoe ga je van niet-reasoning-model naar reasoning-model? Toen hebben ze die coding agents, die zeg maar steeds heftiger gebruikmaken van een soort omgeving waarin dat model iets probeert, klein stukje feedback krijgt op bijvoorbeeld een stukje code uit te voeren en weer opnieuw iets probeert, en dat hele fenomeen met Codex CLI en Claude Code, dat zijn voorbeelden waarin dat...
Wietse: Ja, wat hele rauwe tools waren die intern bijna een soort skunk works-achtige weekend projects waren. Gewoon verkennen: wat kunnen we met het model?
Rick: En toen is heel erg natuurlijk weer opnieuw een soort research intern gedaan van: hoe kunnen we die modellen beter maken in dat? En dat zie je in de aankondiging van Codex 5.3 Codex, dat coding-model wat voor veel mensen echt voelde als een flinke verbetering voor OpenAI-modellen voor coding in het algemeen.
Wietse: Trok ze eigenlijk gelijk en zelfs voor Opus 4.6.
Rick: Ja, dus daar zitten ze, daar is het echt trading blows momenteel. Er zijn echt aantoonbaar allerlei coding-gebieden, het is weer een beetje verspreid over welk deel code, waar 5.3 Codex best is en 5.4 nu dus omdat dat echt een strikt superset is van wat Codex 5.3 doet, dat is de consensus, dat het beter is. Maar om het punt terug te brengen: dus in die blogpost aankondiging van 5.3 Codex hebben ze gezegd: ‘dit is het model, het eerste model, waarbij we echt wezenlijke autonomie en delegatie van testen en dingetjes implementeren en programmeren hebben toegepast op het model-ontwikkelproces zelf’. Dus dat ze daar als het ware echt heel veel konden delegeren in het ontwikkelproces van 5.3 Codex naar...
Wietse: Codex heeft geholpen om Codex te maken.
Rick: Ja, en ze zeggen daar specifiek een ‘early checkpoint’ in de blogpost. Dus ze zeggen: het model zelf, dus we hebben zeg maar een model aan het trainen, we merken ‘oh het model gaat heel goed worden’, en in de afronding van het model hebben ze al zeg maar een v1 of alfa-versie van het model eruit getrokken en gebruikt om hem zeg maar over de eindstreep te trekken.
Wietse: Ja, dus het brood is eerder uit de oven getrokken, was nog niet helemaal gebakken, maar zelfs onafgebakken al sterk genoeg om aan zijn toekomstige zelf mee te werken.
Rick: Ja, precies. Dat is dus wat zij gezegd hebben in de blogpost. En ik heb ook al eerder in interviews van de head of research van OpenAI, ik moet even de namen schuldig blijven maar als je ze googelt dat zijn allemaal ik geloof Mark Chen en nog een hele lastige Poolse naam. En zij zeggen ook echt specifiek dat er een extreem interne doelstelling is om dit jaar, dus voor het eind van dit jaar, een wezenlijk doel bereikt te hebben als in dat ze een intern hebben, dat is een beetje het niveau wat ze targeten, een capabele stagiair, dus denk aan een soort valedictorian-achtige MIT-echt een supergoede stagiair, een zeer getalenteerde junior, om dat niveau te bereiken dat een model dat niveau van bijdrage levert autonoom en ook in termen van wat je kan delegeren. En dus op het domein, dus niet zozeer een stagiair in de algemene zin, een stagiair marketing ofzo, nee, echt een stagiair op het gebied van machine learning research.
En Karpathy, Andrej Karpathy, één van de mede-oprichters van OpenAI en ook de lead AI bij Tesla heel lang geweest voor autonomous driving voor de eerste versies daarvan, echt een hele goed geïnformeerde gast, grote naam, die heeft een post geplaatst waarin hij zelf AI-coding agents is gaan gebruiken voor een project waar hij al heel lang mee bezig was overigens. Dat project heet llm.c heet het volgens mij. En het idee is dat je in zo min mogelijk tijd een neural network, GPT-2, traint van scratch. Dus hoe kun je met zo efficiënt mogelijk gebruik van GPU’s en hardware...
Wietse: Ja, het is een soort ‘grow your own GPT’-kit toch?
Rick: En heel, heel compact opgeschreven. Dus een vorm van democratisering van het kleine taalmodellen maken. Het nadoen wat zij bij OpenAI hebben gedaan x jaar geleden. Precies. En hij heeft ook regelmatig mensen uitgenodigd om bij te dragen aan dat project om het beter te maken, dus om op de leaderboard, waarin ze bijhouden hoeveel uur kost het om helemaal van niks naar getraind te gaan, om daar telkens ideeën aan bij te dragen. Dus onderzoeksideeën als het ware over: ‘kun je niet deze parameter aanpassen of kun je niet beter terwijl je de data laadt al iets doen op de GPU?’ Om eigenlijk met minder rekenkracht in kortere tijd te komen tot iets wat goed mee kan doen met GPT-2 class modellen, right?
Rick: En wat dus het bijzondere is, is dat dus OpenAI dus zegt van ‘we hebben in 5.3 al dat zelf gebruikt’, en hij heeft dat heel concreet gemaakt door te zeggen: ‘ik ga een coding agent vrij spel geven, ik ga hem gewoon toegang geven tot de huidige versie en ik ga hem vragen om gewoon ideeën te testen die hij zelf moet verzinnen, dus niet Andrej’s ideeën, maar de ideeën die die agent zelf moet bedenken, en die die dan vervolgens moet implementeren in de code, moet een testje uitvoeren om te kijken hoe goed werkt dit idee, zelf bijhouden welk idee werkte wel, welk idee werkte niet, en dan zo proberen telkens weer beter te scoren op die benchmark van hoe efficiënt en snel is het getraind’. En daar heeft hij dus echt een soort van Sparks of AGI, dat is een bekende paper voor de mensen die al een tijdje meedraaien over dat ze de eerste keer een soort GPT-2, GPT-3 level model zagen. Ze zagen de eerste vonkjes. En nu zien ze dus een soort Sparks of Auto Research.
Wietse: Ja, want dat is misschien om heel even uit te zoomen wat een beetje gebeurt nu in het debat, het verhaal rondom AI. Dat komt wat meer naar de voorgrond is het idee van recursive self-improvement, RSI. En dan niet pijn in je handen, maar het feit het idee dat je iets hebt wat recursief is, dus herhalend op zichzelf informatie aan zichzelf lopent zeg maar, eigenlijk zichzelf aan zijn eigen veters omhoog trekt zeg maar. Wat een beetje een raar beeld is, maar evolutie heeft het ooit eerder gedaan, dus mogelijk kunnen we het nabootsen in een machine. En dat idee van recursive self-improvement is heel erg belangrijk omdat, zoals ik begrijp, dat een beetje richting die takeoff-achtige scenario's gaat. Scenario's waarin je eigenlijk AI zo ver hebt doorontwikkeld dat het kan meewerken aan de ontwikkeling van zichzelf, waardoor wij als het ware achterover kunnen leunen met een glas limonade terwijl we kijken hoe onze creatie zichzelf verbetert zeg maar.
Waarom zit je te glimlachen? Je zag het voor je.
Rick: Nou, omdat ik nog weet hoe ver weg het is.
Wietse: Stel me gerust trouwens als je dat zegt, maar ja.
Rick: Omdat het zeg maar... wat denk ik niet ver weg is, is dat het voor het werk dat ze zelf doen echt heel bruikbaar is, en ik gebruik het zelf ook op een heel vergelijkbare manier voor mijn werk bij Nvidia. AI als augmentatie om jou te helpen met het verbeteren van AI-systemen. Nog specifieker: autonome coding agents die ik alleen high-level, hoog over instrueer van ‘ga dit eens uitzoeken’, waarbij die minuten, soms wel tot aan een uur autonoom aan het werk is. 40 minuten, een keer net over het uur. En dan dat ik ga kijken: wat heb je nou eigenlijk gedaan? Ben ik overtuigd? Kan ik het gebruiken? En ik zie dus dat dit wel werkt in dit hele in het soort van specifiek afgebakende gebied van: schrijf code aan een systeem waarbij we heel duidelijk weten hoe goed en slecht het eruit ziet, verifieerbaar. En binnen verifieerbare domeinen zie je dus deze enorme versnelling in vooruitgang. En voor andere domeinen waar verifieerbaarheid lastiger is, zien we gewoon nog veel minder, veel minder vooruitgang.
Wietse: Ja, wat ook bijvoorbeeld verklaart waarom die modellen zo goed zijn geworden in wiskunde en programmeren, maar nog steeds matige artikelen schrijven, matige boeken. Ik moet wel zeggen, heel even side tangent, maar de New York Times had een onderzoek gedaan bij hun schrijvers of lezers of ze bepaalde tekst prefereerden. En volgens mij prefereerde 60 procent ofzo de AI-geschreven teksten. Wat dan ook wel weer een beetje tegen mijn punt ingaat dat die teksten matig zijn. Of de New York Times moet tot nu toe matige tekst hebben geschreven zelf, mag je zelf uitvinden. Maar het is overduidelijk wat ze dan ook die jagged edge of intelligence noemen, dus een soort kartelrand op die modellen aan intelligentie, dat ze een soort idioot savanten zijn die ongelooflijk excelleren op een bepaalde competentie of een bepaald thema om vervolgens een enorm gat aan competenties te hebben op een ander thema. En dat heeft onder andere te maken met hoe verifieerbaar de sector is of het thema waarbinnen ze dan kunnen groeien, right?
Rick: Dus we hebben als het ware, en ik zeg we als in de AI-sector, heeft uitgevogeld hoe we die modellen kunnen laten leren als we maar een soort omgeving kunnen creëren waarin ze kunnen ‘hillclimben’ als het ware, waarin ze heel veel kunnen proberen en elke keer als iets begint te werken daar op een soort van double downen. Schaken tegen jezelf, Go spelen tegen jezelf. Self-play. En waar veel om te doen is, en misschien ook een leuk bruggetje naar het nieuwe AI-lab van Yann LeCun. Er is dus nu veel aan gelegen om de verifieerbaarheid van andere domeinen waar het ook nuttig zou zijn om AI in te zetten en waar we ook de capaciteit van die AI-modellen willen zien groeien, om de verifieerbaarheid te vergroten.
Wietse: Ja, wat ik bijvoorbeeld las dat ging over chemie, dat je eigenlijk zegt: ‘ik wil de interactie tussen twee stoffen weten’, dan bouw ik een laboratorium waar ik een robot heb, dat hoeft helemaal geen humanoid te zijn maar gewoon een mooi systeem met pipetjes en buisjes die uit een stok van chemicals dingen kan trekken, bij elkaar kan voegen. Er staat een camera op, GPT kijkt mee, doet zijn eigen experimenten en kan dan toch in de fysieke wereld verifieerbaar experimenten gaan doen. En dan ga je natuurlijk wel andere domeinen in dan alleen wiskunde en programmeren.
Rick: Absoluut. En dit is wat echt op hele grote schaal nu op allerlei gebieden waar maar mensen met interesse hebben, of het nou biotech is of het fysieke domein, helaas ook oorlogsvoering en wapens, er wordt heel actief gezocht naar: hoe kunnen we een loop opzetten, een autonoom systeem wat gebruikt kan worden voor het verzamelen van signaal en daar dan op trainen, zodat die modellen beter worden op allerlei dimensies, alle afstanden.
Wietse: En zijn er dan dingen die jij intuïtief ziet als... Er is toevallig recent een onderzoek uitgekomen vanuit Anthropic dat ging over de arbeidsmarkt. Zij hebben natuurlijk bijzonder rijke statistieken rondom het gebruik van Claude. Zij... nou ja, wat is dat vinkje wat je dan aanzet dat je anonieme statistieken toestaat, en ik denk als je niet betaalt voor Claude dat je het daarmee toestaat, waardoor zij kunnen zien hoe hun modellen worden ingezet. En wat ze in het onderzoek eigenlijk concluderen is dat ze maken dan een cirkel van allemaal thema's in een visualisatie, en bijvoorbeeld legal, dus werk dat aan de Zuidas gebeurt in Amsterdam, dat daar... Ze maken een onderscheid tussen twee dingen: in hoeverre kán Claude daar al ingezet worden, hè, dus we weten dat Claude er goed in is en kwaliteit kan leveren, en in hoeverre wórdt Claude al ingezet. Dat zijn eigenlijk twee afbeeldingen die over elkaar heen gelegd zijn. Daar zie je letterlijk de jagged edge of intelligence, want het is een heel puntig, raar hoekig ding met gaten erin, het is een soort landkaart met hapjes eruit. Maar ik ben dan benieuwd of jij, als je zo gewoon puur op basis van intuïtie sectoren ziet of probleemvelden zeg maar, die zo open-ended zijn dat... dat zijn zulke complexe chaotische systemen zeg maar waar je heel veel data moet halen die niet zo makkelijk te halen is met een sensor bijvoorbeeld, waardoor daar misschien langer duurt?
Rick: Nou, dat is zeker aan de orde, want sommige dingen duren nou eenmaal lang om te valideren. Dus zelfs als je een systeem wilt bouwen dat bijvoorbeeld juridisch advies toetst en kijkt of het goed juridisch advies is, soms duurt het jaren voordat er een oordeel geveld wordt over of een bepaalde handeling wel of niet juridisch gedekt wordt door weet ik veel welke regels en hoe dan ook. Dus niet alles is snel te valideren. En dan wordt het toch lastig om daar vooruitgang in te boeken. Er zijn wel allemaal trucs die je kunt toepassen. Dus je kunt wel bijvoorbeeld gebruikmaken van een heel intensief validatieproces dat toch volledig digitaal is, dat heel uitgebreid onderzoek doet naar bijvoorbeeld álle uitspraken van álle rechters ooit, zou je kunnen naast een bepaalde tekst kunnen leggen om te kijken of er gaten in te schieten zijn. Maar als je alle uitspraken ooit, je zou nogal makkelijk kunnen zeggen alleen de uitspraken die betrekking hebben op deze zaak, maar je zou heel even naïef kunnen zeggen álle uitspraken ooit waar we toegang tot hebben, die gaan we daarnaast leggen om iets van validatie te doen. Dat is wel iets wat je kunt doen. Dat kost heel veel tijd en is dus waarschijnlijk niet de efficiëntste manier, maar er zijn wel manieren om ook dingen die minder zwart-wit zijn om die te valideren.
En ik denk dat het ook wel een leuk bruggetje is naar World Models, omdat er ook een vorm van foundation-modellen aankomt die helpen bij valideren.
Wietse: Ja, is misschien wel goed om te zeggen, want je haalde net Yann LeCun al aan iets eerder: er is een substantiële groep binnen de industrie en onderzoek die eigenlijk zeggen: taalmodellen, token-voorspellers die vooral tekst-tokens voorspellen, ook als ze multimodaal zijn, eigenlijk als ze geboren zijn uit het soort taalmodel-paradigma van de GPT’s, daar zit een soort maximum aan, die hebben uiteindelijk een soort dead end, en we hebben eigenlijk moeten we een paar stappen terugdoen, een paar flinke stappen terugdoen, en een andere start maken, eigenlijk zelfs een ander paradigma van modellen, een ander paradigma van AI. Die kunnen later met elkaar gaan samenwerken, hè, die modellen, dat zal wel, maar er is best wel een substantiële, best wel vocale groep ook binnen de industrie die zeggen: ‘we hebben dit taalmodel/multimodaal model wel een beetje uitgespeeld nu, hè, daar kunnen we nog wel wat andere tricks op doen maar daar zitten we aan een soort glazen plafond’. Wat we nodig hebben zijn een paar hele nieuwe strategieën om te komen tot wat dan AGI genoemd wordt. En dat is onder andere World Models.
Wat is Yann LeCun aan het doen?
Rick: Ja, ik denk dat je het al heel goed inleidt en dat dat gaat dan over: waar liggen de echte limieten van AI-modellen die gebaseerd zijn op tekst-token next-token prediction? Dus de ChatGPT en Claude en Gemini, dat zijn allemaal next-token prediction modellen en die worden allemaal blootgesteld aan grote hoeveelheden tekstdata. En een belangrijk deel van deep learning, het heette ook wel representation learning, is dat je als het ware een mapping vindt van ruwe data naar een betekenisvolle als het ware beschrijving van die data.
En een goed voorbeeld om ook echt LeCun's strategie, want zijn onderzoekspaper waar zijn lab niet op gebaseerd is maar zeker wel heel erg overeenkomt met de richting, heet JEPA, J-E-P-A. Het komt erop neer dat als je een sensor input hebt, want je kunt zien als tekst is gewoon een soort input die geproduceerd is door mensen, dus dat wordt overal op allerlei manieren wordt er tekst geproduceerd, dus dat komt tot stand door een proces en dat wordt dan ergens opgeslagen. Dus dat is in zekere zin niet heel veel anders dan bijvoorbeeld een camera ergens op richten en dan die lichtsignalen vangen en dat opslaan, zeg maar. Het is een manier om een soort datageneratie-proces te hebben.
Bij een camera is het heel duidelijk dat als jij een camera hebt en hij beweegt heel erg, je bijvoorbeeld een handheld camera, je selfiecam en je loopt rond in de stad, dat het extreem lastig is om de volgende pixel met hoge nauwkeurigheid te voorspellen. Want als jij niet kan zien op dat camerabeeld dat er een persoon naast die persoon is en in één keer draait hij en er staat een persoon, is heel lastig om te voorspellen van waar gaan die pixels precies veranderen op het moment dat in de rand van dat beeld zeg maar de persoon voor het eerst in beeld komt. Want dat kan een jas zijn aan de kapstok of een mens. Dus dat zijn hele hoog-variabele input.
Maar als ik jou vraag, gewoon semantisch als het ware, dus niet op cameradata-pixelniveau, maar ik zeg je gewoon: ‘als er een jong persoon op een vakantiegebied met een selfiecamera praat, wat is de kans dat er tijdens de volgende vijf seconden er nog een persoon naast die persoon in beeld komt?’. Dan kun jij wel zeggen van: ‘nou, heel veel mensen die zo op een vakantielocatie zijn niet alleen, dus ja, vrij hoge kans’. Maar dan heb je het dus over kansvoorspelling in een dimensionaliteit die niks te maken heeft met die ruwe pixeldata maar meer de situatie van mensen, ‘oh het is zo’n vakantielocatie’, wat dan ook, druk, mensen vaak niet alleen op vakantie, etc. Dus Yann's argument ook met JEPA is dat je dus niet moet willen voorspellen op die hoog-dimensionale hoog-variabele camerapixeldata-niveau, maar je wilt in een latente representatie, dus dat is als het ware een soort vertaling van dat camerabeeld naar een ándere representatie van datzelfde, van dezelfde werkelijkheid, niet de zelfde camerabeelden maar van de werkelijke situatie die die camerabeelden beschrijven. En daarin zitten letterlijk misschien vrij letterlijk stukjes informatie die letterlijk alleen maar zeggen van: ‘zijn ze op vakantie ja of nee? is het een persoon ja of nee?’
Wietse: Ik denk als ik je een beetje help zou je kunnen zeggen: je hebt de ruwe realiteit, pixeldata, dan heb je de interpretatie van die realiteit, wat wij bijvoorbeeld als mens doen. Dat is... je kunt naar een museum gaan, is leuk om ook met kinderen te doen, en dan aan kinderen te vragen wat ze zien als ze naar kunst kijken, dat zijn hele andere verhalen dan de meeste mensen. We zijn allemaal subjectief maar kinderen hebben er een handje van. En daarbij gaan we niet alleen meer kijken naar ruwe brushstrokes op een schilderij, maar gaan we interpreteren. En dat doen we vanuit menselijke cultuur, dat doen we ook... daar zijn we ook aan het voorspellen eigenlijk. En wat jij volgens mij zegt is, de resolutie als het ware, de rijkheid, je moet niet op pixelniveau voorspellen, je moet eerst een interpretatie doen van wat daar gebeurt, een interpretatie binnen context eigenlijk. En als je dan binnen die interpretatie gaat voorspellen, hè, bijvoorbeeld een zelfrijdende auto zou je kunnen zeggen: ‘er staat een zwangere vrouw bij een oversteekplaats’. Nou, dat is een situatie eigenlijk die je beschrijft als een soort script in een film. En als je dan gaat zeggen wat gaat hier gebeuren? Nou, er is een oversteekplaats, er is een zwangere vrouw, die zal wat langzamer naar de andere kant gaan lopen. Dat kan een tekstmodel zelfs een beetje voorspellen. Dan ben je niet per se in de pixel-modaliteit aan het voorspellen, je bent in het verhaal, in de interpretatie-modaliteit aan het voorspellen in plaats van in de pixel-modaliteit. Zeg ik dat goed?
Rick: Dat zeg je goed. En het is inderdaad ook zo, en dat is ook belangrijk om te benadrukken, dat het is gewoon een keuze van welke ruwe data ga je die semantische interpretatie leren. En de ‘Bitter Lesson’ is een idee of een soort zienswijze dat je kunt hele slimme efficiënte dingen proberen te bedenken om dat eruit te trekken, dus je kunt bijvoorbeeld zeggen van: ‘nou, ik ga een filter ontwikkelen dat mensen herkent in afbeeldingen en dan krijgen we een los stukje informatie dat puur en alleen gaat over wel of niet mensen in de foto’. Maar dat is heel handmatig. En de Bitter Lesson zegt eigenlijk: ‘je moet gewoon enorm veel data verzamelen en enorm veel compute tegenaan gooien, dus heel veel tijd geven als het ware aan dat model om al die ruwe data te bekijken om vervolgens tot een interpretatie te komen, een latente representatie die hij kan leren van die data’. En wat LeCun eigenlijk gewoon zegt is: dat kan je beter niet uit tekst halen, maar dat kan je beter uit veel ruwere data halen, omdat tekst al een soort gecomprimeerde versie is van een situatie. Daarom zijn taalmodellen bijvoorbeeld...
Wietse: Maar niet zo ruw als pixels. Niet zo... Wat zit er tussen tekst en pixels bij hem? Als ik het goed begrijp dan? Is dat te beschrijven?
Rick: Foto’s misschien. Want je hebt bijvoorbeeld video's is ook time-series, zeg maar, dus heb je ook zeg maar wat er over de tijd-as zeg maar gebeurt. Video met audio is ook alweer meer dan alleen foto's. Dus foto's, video's, video's met audio. Dus eigenlijk hoe dichter je bij de rauwe werkelijkheid komt, hoe rijker de informatie is. Maar je wilt uiteindelijk niet daadwerkelijk de ruwe werkelijkheid, want...
Rick: Je wilt gewoon representaties leren die goed vangen wat ertoe doet.
Wietse: Ja, ja, het is een beetje filosofisch bijna. Hé, want ik zie ook bij Meta, waar LeCun vandaan komt, hebben ze best wel wat open source-modellen uitgebracht als het gaat om objecten herkennen in beeld, dus dieren, mensen en daar een bounding box, een doosje omheen tekenen. Segment Anything. Precies. Als ik die... die segmentation bijvoorbeeld, een voetbalwedstrijd, de bal en de spelers. En dan denk je misschien: ‘oké ja, coole demo man’. Dat is echt best wel bruikbare technologie, want je kan eigenlijk speler tracking doen zonder dat zij bluetooth beacons of whatever voor ultra radio beacons hoeven te dragen. Die segmentation, als ik jou zo begrijp, heeft hiermee te maken dan toch? Want eigenlijk kan je dan gaan beschrijven... je gaat niet de pixels voorspellen van de videofeed van de voetbalwedstrijd, nee, je gaat de spelers, de bal eruit extraheren en de spelsituatie voorspellen in plaats van de pixels. Maar je gaat niet een boek over voetbal gebruiken. Ik ben een beetje aan het zoeken, want het is best wel abstract wat we beschrijven.
Rick: Ja, dus ik kan het nog wel concreter maken en ik denk dat de Segment Anything een goed voorbeeld is. Hoe die JEPA-modellen getraind worden uiteindelijk is door masking. Dus dat je een stukje weghaalt van de afbeelding en dat je dan zegt: ‘wat stond daar?’. Dus fill in the missing blank, zeg maar. En dat wordt gebruikt als basisopzet om dat pre-trainen te doen, dus door al die ruwe data heen te gaan en dat te leren voorspellen.
Wietse: Want wat is dan eigenlijk de... want die... even een paar stapjes nog: LeCun, JEPA-paper, 2022-ish. Een andere manier om AI te trainen of eigenlijk AI te ontwikkelen moet ik zeggen, waar ook training bij komt kijken. Wat is de input-datasource van die JEPA-modellen? Wat moet je erin stoppen?
Rick: Foto's. Maar het generaliseert ook naar rijkere data, dus ook naar video en andere dingen. Dat kan er ook in. En wat je dus dan... hoe weet je nou dat je representatie goed nuttig is? Goed is?
Wietse: Zonder een mens bedoel je.
Rick: Nou, hoe kan je die vraag beantwoorden of je nou een goede representatie hebt geleerd met een model? Daar moet je dat op een of andere manier kwantificeren. Dus je kunt dus gaan van een ruwe beschrijving van een camera naar een andere beschrijving. Nou, hoe machine learning werkt is dat dat neurale netwerken zijn die dan iets vertalen naar een matrix, dus je gaat van de ene matrix, de matrix die letterlijk de camerapixelkleuren beschrijft, naar een nieuwe matrix. Is dat een goede matrix? Of is het een slechte matrix? En één van de dingen waar je dat dus mee kan toetsen is als je dus een taak gaat vervullen, bijvoorbeeld: ‘vervang de bal voor...’ of ‘zeg waar de bal is’, om het even simpel te houden, of teken een hele strakke bounding box om alleen de bal en niet om de speler. En als dus de speler half over de bal zit, dan is het dus... als die echt alleen de bal doet en niet de speler, omdat hij dan denkt: ‘ja, het moet altijd een rondje zijn’, dan heb je zeg maar een goede representatie als hij dat makkelijk kan. En dus de kwaliteit van de representatie is als het ware te meten door te kijken naar hoe snel en efficiënt kun jij een downstream task leren. Dus je pakt als het ware, dat is ook het idee van pre- en post-training: je pre-training, je leert de distributie van de data op met zo’n manier dat je een representatie hebt geleerd. En hoe goed die representatie is, kan je uitdrukken als in: hoe efficiënt kun jij nu leren om taken te vervullen. En wat je dus ziet, en dat is het bijzondere aan deze...
Wietse: Dat zijn dan twee leerprocessen. Daarom zeg je pre- en post. Je hebt het eerste leerproces is goede representaties leren om die vervolgens in te zetten om weer mee te gaan leren, dat zijn als het ware de legoblokken van representatie waarmee je daarna taken gaat leren om uiteindelijk in stap drie ingezet worden om taken te vervullen.
Rick: Ja. En het is niet zo heel exotisch als het klinkt denk ik, want het is ook net als met lezen. Als je hebt leren lezen, dan op een gegeven moment kun je lezen, en daarna kun je mensen vragen gaan stellen over de tekst. Maar als je niet hebt leren lezen, dan zal dat vragen beantwoorden over wat er in de tekst beschreven wordt best wel lastig gaan. Dus het is echt een gewoon een soort logisch vervolg wat bouwt op een bepaald fundament. En daarom wordt het ook foundation-modellen genoemd. En die pre-training voor bijvoorbeeld vision dan, als je een heel goed begrip hebt van semantisch van: ‘oh ja, dit is gewoon een bal en die bal verdwijnt achter die persoon en dat kan gewoon want in de echte wereld heb je diepte en als een object voor een ander object zit dan is het niet te zien tenzij het transparant is, dat heb je ook zeg maar’. Dus die intuïtie over wat die cameradata eigenlijk beschrijft achterliggend, als dat heel goed getraind is in dat model, dan zou het heel makkelijk moeten kunnen zijn om te zeggen: ‘nou, jij bent nu verantwoordelijk voor de bal vinden en exact de positie van de bal, en dat is jouw taak waarop je het goed moet doen’. En dat laat hij gewoon zien in die paper. Dus die paper toont gewoon aan dat met die vorm van die interpretatie van ruwe data dat je daar hele goede taken, zeg maar het trainen van zo’n gepre-traind model voor specifieke taken zoals object-detectie dat dat heel efficiënt is.
Wietse: En is dan nu het idee dat, want heeft hij dan het vertrouwen erin, want het is natuurlijk supertof dat je empirisch bewijst in je paper dat jouw aanvliegroute, jouw strategie, eigenlijk state of the art is, hè, dus niets anders kan het binnen die tijd of met die ceteris paribus best state of the art, zolang alles appels en appels vergelijken binnen die wereld zeg maar waar in alles te vergelijken is. Tof, maar betekent dat dan ook... Ik twijfel wel eens en ik heb er te weinig verstand van om die claim te kunnen bewijzen of onderbouwen dus daarom vraag ik het aan jou: is wat hij aan het doen is op korte termijn toe te passen? Heb je niet kans dat hij ingehaald wordt door patches op een soort op het oude paradigma? Als we het zien als een soort horse race. Ik kan me voorstellen dat hij gelijk heeft dat de tekstuele representatie van de wereld en al die modellen trainen op een lossy en ver van de rauwe realiteit afzittende representatie, namelijk tekst, menselijke cultuur in de vorm van tekst, dus iets wat mensen hebben gezien en hebben opgeschreven in een formaat wat heel dun is en arm in vergelijking met de rauwe realiteit. Dat hij zegt dat is zo dun en arm, daar kan je blijven plakken, maar je komt er niet, dus we moeten een nieuwe op ergens anders beginnen en uiteindelijk gaat mijn paard, ook al rent hij nu nog achteraan, wacht maar als die op stoom is jongen, dan rent hij heel die groep voorbij. Of is het zo, en/of is het zo, dat de bestaande paarden geüpgraded kunnen worden op een manier dat eigenlijk zijn diepte-investering in een nieuw paradigma mogelijk niet op tijd komt?
Rick: Ik denk dat het ongetwijfeld zo zal zijn dat zijn aanpak voor de domeinen waar de tekortkomingen van die taalmodellen het meest duidelijk aanwezig zijn, dat hij daar echt heel veel specifieke dingen kan aanwijzen waarbij hij straks echt superhard veel beter is dan die aanpak die gebaseerd is op wat nu wordt gedaan voor modellen.
Wietse: Als we hem terugpakken die eerdere jagged edge of intelligence, hè, dus die modellen hebben gaten erin. Roteer die as van jaggedness en dan zie je dat LeCun hele andere spikes krijgt en ook de spikes hebben ook de dalen zeg maar, dus je hebt zeg maar waar het goed en slecht is, dat wordt gedraaid en op hele andere gebieden is hij sterker. Als je genoeg sterren over elkaar heen legt en dan draait heb je een cirkel uiteindelijk. Dus in essentie... En dat is ook waarom het denk ik zo boeiend is: uiteindelijk hoe bijzonder goed AI ook werkt voor heel veel van de dingen die we ermee kunnen doen, zijn het eigenlijk een stapel aan hacks die we tot nu toe gebruiken. ‘Oh ja, we hebben nu eenmaal toegang tot heel veel tekstdata, dus gaan we gewoon kijken wat we daaruit kunnen halen. En we hebben heel veel ruwe beelddata, gaan we kijken wat we daaruit kunnen halen’. En we kunnen met die verschillende benaderingen, daarom heb je ook... je hebt sowieso voor mensen die niet in AI werken is misschien niet zo heel duidelijk, maar het hele vision-domein is allemaal diffusion, is allemaal een heel ander paradigma dan de tekstmodellen. Nu zien we de laatste tijd wel dat de transformer-architectuur nu is samengevoegd met diffusion, dus dat het afbeeldingen-domein, dus het maken van genereren van plaatjes, dat is nu Nano Banana. Nano Banana Pro. Dat is nu een combinatie van transformer en diffusion, maar er zit nauwelijks diffusion nog in tekstmodellen. Ook al zijn daar ook experimenten bezig maar dat is nog early-early.
Wietse: Voor de luisteraar: dat is wel grappig om een beetje een intuïtie te krijgen: als je diffusion gaat gebruiken om tekst te genereren, dan wordt de alinea opgebouwd met woorden die op verschillende plekken verschijnen. Dus niet achter elkaar sequentieel als een ketting, maar de woorden poppen gewoon op in de alinea op verschillende plekken en langzaam wordt als het ware het hele verhaal zichtbaar. Om een beetje een gevoel te krijgen bij hoe diffusion in de tekst-modaliteit... Van ruis naar een gekristalliseerd... bizar. Maar ik vind het wel grappig hè, want die hybrids tussen dan bijvoorbeeld transformers en diffusiemodellen, de Nano Banana van deze wereld voor de luisteraars die dat wat meer zegt, zou je dan kunnen zeggen: oké dan is LeCun zijn manier een derde en krijg je een soort nou ja, niet hybrid tussen dan twee maar drie? Triple Hybrid?
Rick: Dat is zeker denkbaar. 100 procent.
Wietse: Dus ze kunnen complementair zijn, die paradigma’s.
Rick: Absoluut. Absoluut. En dat is denk ik... de Bitter Lesson maakt ook dat het zo moeilijk is om een paradigma-afwijking te maken.
Wietse: Hoe bedoel je dat?
Rick: De Bitter Lesson zegt dus: je moet er gewoon meer compute tegenaan gooien en je moet gewoon de boel opschalen. Maar opschalen is duur. Opschalen betekent heel veel data verzamelen, heel veel mensen eraan laten werken om het allemaal engineering werkend te krijgen, want er zijn een hoop uitdagingen als je iets op één GPU werkend hebt op jouw lab-opstelling, en dat is waarschijnlijk hoe JEPA gedaan is, en je wilt het dan in een keer naar twee datacenters schalen, naar honderdduizend GPU’s. Dat is gewoon een hele grote stap en het kan jaren aan engineering kosten om tot dat punt te komen. Is dat de moeite waard? En dan moet je dus een onderzoeker hebben met overtuiging van: ‘ik weet zeker dat voor in ieder geval een hoop problemen dit echt wel veel, veel, veel beter gaat werken dan language-modellen’. Ik denk ook niet dat Yann LeCun denkt dat bijvoorbeeld voor coding JEPA state of the art gaat zijn. Want coding leent zich gewoon heel erg goed voor dat tekstparadigma, want alle code die we tot nu toe met mensen geproduceerd hebben is geschreven in tekst. Het is gebleken. We leven er nu in. En coding is ook... het werkt als een tierelier zeg maar. Het is ook een domein waar het gewoon supergoed werkt, waar het ook veel adoptie vindt en ook heel veel impact heeft. Het is nog eens valideerbaar, we hebben superveel code, het is al een representatie in tekst van een wereld, misschien wel het meest geschikt voor de transformer is coding-modellen eigenlijk. Dus dat is ook waarom je denk ik waarom het goed is dat er dan mensen die gok nemen.
En er was een heel interessant interview met Ilya Sutskever en ik geloof dat hij met Dwarkesh dat interview heeft gedaan vrij recentelijk. In dat interview zegt Ilya dat we een soort van terug zijn in de Age of Research. En daarmee doelt hij op het punt dat we wel bij bepaalde diminishing returns aankomen op het gebied van die standaard transformer language-modellen. Het is een soort terug naar de tekentafel-achtig moment. Soort van ja, want het doel voor veel van deze onderzoekers zoals Yann LeCun, zoals Ilya Sutskever en ik denk ook wel van OpenAI, maar die zitten het diepst al met een bepaalde bet die ze nu zeg maar zo ver mogelijk laten gaan, dat is AGI in de zin van een... Jaggedness is echt een doorn in het oog, zeg maar. Jaggedness is geconstateerd, maar het is verschrikkelijk voor AI-onderzoekers. Dat een model heel slim is en dan draai je het probleem heel iets en dan is het in een keer superdom. Dat is verschrikkelijk. Dat wil je helemaal niet. Want je wilt eigenlijk robuuste algemene intelligentie maken. Zoals mensen. Zoals mensen, meer zoals mensen. Mensen zijn in zekere zin misschien ook wel jagged, want je kan een savant zijn op een bepaald onderwerp maar niet eens... misschien is je taal super brak.
Wietse: Is ook maar net... In... je hebt zo’n paar van die toffe animaties die zijn al gemaakt in de jaren ‘80 volgens mij, dat er wordt ingezoomd. Dus je ziet een mens volgens mij ergens op het strand ofzo, dan zoomen ze in op het atomaire niveau, stap voor stap voor stap voor stap. En daarna zoomen ze uit op het galaxy-niveau zeg maar. En daar tussen... Dat zijn eigenlijk zoom-levels, abstractieniveaus, noem maar op. En ik vind het wel boeiend. Je zou natuurlijk kunnen zeggen: we hadden het net over een soort Triple Hybrid, wat eigenlijk dus een systeem van AI is. Dat als de discussie gaat... ik vind het ook interessant bijvoorbeeld te kijken naar Gary Marcus, die halen we vaak in de nieuwsbrief ook aan, ook om onszelf een beetje op de grond te houden, omdat Gary gewoon heel kritisch schrijft over taalmodellen, kritisch schrijft over de belofte van de labs. En dat creëert wat mij betreft ook een mooie tegenkracht tegen de hype zeg maar. Hij is een soort de anti-hype persoon wat mij betreft op dit gebied.
Maar ik denk dat je kunt alsnog systemen krijgen die minder jagged zijn en bovenmenselijk gaan opereren, terwijl Gary Marcus en LeCun gelijk hebben. Waarom zeg ik dat? Dan schuiven we namelijk het zoomlevel één omhoog en dan zeggen we: ‘als we nou transformers, diffusion en LeCun’s idee en nog twee ideeën in een agentic swarm laten samenwerken en daar de stempel AI/AGI op doen’, dan hebben we toch... Kijk, jij kunt tegen mij zeggen één individu, een mens, is jagged. Ja, fair. Maar een groep van duizend mensen is veel minder jagged, want dat is een soort crowd knowledge zeg maar. Kunnen we niet op diezelfde manier zeggen dat de verschillende AI-expertmodellen in een groep mogelijk ook tot een minder jagged profiel komen? En is de discussie of GPT-5.4 ooit zonder jagged wordt niet het verkeerde zoomlevel?
Rick: Ja, ik denk dat dat een van de grote vragen is eigenlijk waar iedereen zich nu mee bezighoudt: hoe reduceer je die jaggedness? En één antwoord is overduidelijk een nieuw paradigma uitproberen. Dus Yann LeCun is heel erg van het JEPA-paradigma wat we zojuist besproken hebben. Dan heb je David Silver is een nieuw lab begonnen en hij is heel erg van het experiential: ‘je moet die AI dingen laten proberen in de echte wereld en daar feedback-signaal...’ Want dat kunnen baby’s ook, dus je moet in een soort trial and error zou je eigenlijk jezelf uit de modder moeten kunnen trekken zeg maar. En dat vind ik eigenlijk niet eens per se een heel apart zelf op zichzelf staand paradigma, omdat dat eigenlijk is hoe de beste coding-modellen nu op dit moment getraind worden. Maar je zou daar nog meer in kunnen leunen als het ware. Je zou dat nog extremer kunnen doen. En dat is bijvoorbeeld ook hoe AlphaGo en AlphaZero, dat zijn modellen die in dat spel... Self-play toch waar je het over had ook? Ja, dus die hebben leren Go, dat bordspel spelen, door Go zelf met zichzelf te spelen. Dus dat is natuurlijk een heel erg afgebakend domein, maar...
Nou, dat is in ieder geval ook een ander paradigma. Maar het punt is dus dat de integratie van deze verschillende paradigma’s op heel fundamenteel verschillende manieren kan plaatsvinden. Dus je kunt dat aan elkaar knopen als het ware als een soort Rube Goldberg-machine die: ‘oké, jij gaat eerst dit doen en dan kom je met een half resultaat en dan geef ik dat weer door aan het andere model’. Veel van de agentic workflows die ik nu zie. Ja, dan ga je dus een beetje de router-paradigma heen. En er zijn heel veel indicaties dat dat, die naïeve vorm van combineren, eigenlijk waarschijnlijk niet zo goed gaat werken, omdat je dan toch altijd een soort gat blijft houden.
Dus bijvoorbeeld taalmodellen: als je een verkeerssituatie beschrijft in een taalmodel en je zegt: ‘a car was going at blablabla miles an hour, blablabla’, en je beschrijft de hele context, dan kunnen ze sommige dingen heel goed beantwoorden en sommige basale soort van spatial logic kunnen ze helemaal niet goed beantwoorden. Hebben ze echt een soort blinde vlek. Je hebt het typische voorbeeld van: de autowasserette is op 8 minuten van mijn huis lopen. Moet ik met de auto gaan of lopen? En dan zeggen ze: ‘loop maar gewoon’. Maar dan heb je natuurlijk je auto niet bij je. En wij als mens moeten dan lachen dat we denken ‘is dit nou superintelligentie?’ Dus dat soort logica, dat vind ik eigenlijk niet eens echt het voorbeeld waar we net over hadden in een zekere zin, want het is niet per se dat het heel erg leunt op spatial understanding, het is bijna zelfs common sense understanding, want het is gewoon logica.
Wietse: Is een slecht voorbeeld als ik het punt probeer te maken wat gebeurt er als een appel onder een tafel ligt, hè, dat wat meer te maken heeft met de dimensies.
Rick: Precies. Dus stel, stel je hebt een foto geüpload naar ChatGPT en je zegt: ‘teken zeg maar die appel als die doormidden is gesneden en beschrijf dan op welke pixels dit of dat moet zijn’. Dus een soort van visuele manipulatie ofzo. Dat soort dingen kan hij helemaal niet. En wat jij dus schetst van: als je systemen kan combineren en die zijn eigenlijk altijd fundamenteel blind op die gebieden, dus dan heeft JEPA weer iets slims in een spatial domein gedaan en dan geeft hij het weer terug aan een LLM-model en die zegt... die komt dan weer met een of andere domme fout, dus die verpest dan weer een beetje de vooruitgang omdat hij dus weer hele basale fouten introduceert. Dus wat je niet wilt is dat die vormen van intelligentie heel naïef met elkaar verbonden zijn, maar je kunt ze wel blenden met elkaar.
En als je dus kijkt naar transformer-diffusion modellen voor afbeeldingen genereren, dan zie je dat als je die combineert op een slimme manier waarbij ze ook tijdens training... Dus de Nano Banana Pro bijvoorbeeld is niet naïef verbonden. Die is intelligent verbonden. In die zin die zijn echt symbiotisch verbonden met elkaar. Dus dat ze elkaars sterke en zwakke punten compenseren.
Maar zeg jij dan dat... Is dan die... ik zit nu even wat jij... wat ik voor me zie, hè, dus een soort zwerm van verschillende modellen die competenties hebben die verschillen van elkaar maar samen vormen ze een goede groep, hè, en dat heet dan AGI tegen die tijd, dat die approach die ik voor me zie naïef is, hè, om jouw woord te gebruiken. Hoe moeilijk is het om wat er bij Nano Banana gebeurd is, dus eigenlijk een symbiotische integratie van modellen die verschillende strategieën hebben, om dat te doen met bijvoorbeeld niet twee maar vier of vijf verschillende paradigma’s combineren? Praten we dan misschien ineens over 10 jaar in plaats van 10 maanden?
Rick: Ja, dat is denk ik een redelijke aanname dat... Het is sowieso heel afhankelijk van... we vergelijken nu een fictief nieuw paradigma waarvan we niet eens kunnen beoordelen hoe ver het afligt van de huidige paradigma’s. Misschien dat er wel voor energie-efficiënte intelligentie een soort biologisch, een soort bio-computer, physical computing, analog computing iets wordt gebruikt, en dan is misschien integreren een stuk lastiger. Dus hoe dat paradigma... Is dat nog steeds gewoon silicon? Is dat gewoon computers? Werkt dat op GPU’s? Zeg maar, de al die dingen maken hoe integreerbaar ze zijn en hoeveel werk dat kost.
Maar er is in essentie iets nog fundamentelers gaande denk ik, is dat... kijk als ik met... laten we even laten we inderdaad zeggen dat we hebben stukjes die met elkaar kunnen samenwerken en we doen het op een naïeve manier. Dus wat jij een Rube Goldberg-machine noemt, hè, dus touwtjes, houtje-touwtje constructie. Zoals de router was op GPT-5, zo voelde die in ieder geval. En dan heb je natuurlijk een aantal dingen die goed moeten gaan, hè. Stel dat je dat over die... dat we dat zeggen de autowasserette is 8 minuten van mijn huis lopen, kan ik beter lopen of mijn auto pakken? Veel modellen nu, bijna allemaal, niet allemaal maar bijna allemaal zeggen dan ‘je moet lekker gaan lopen’, maar dan kom je daar natuurlijk zonder je auto aan en wij als mens moeten dan lachen dat we denken ‘is dit nou superintelligentie?’.
Dan moet ten eerste dat model weten: ‘ik twijfel’. Dat is stap één, hè. Ik moet iets anders gaan aanroepen in mijn groep, want ik weet het niet. Dus dat moet je fixen. Dus er moet een soort zelfreflectie zijn. Oei, dit is er eentje waar ik niet te snel een uitspraak over moet doen. Ik kan niet alleen naar thinking mode gaan. Je mag hem van mij gewoon pauzeren, want dit gaat gewoon nooit werken.
Wietse: Waarom niet?
Rick: Omdat er heel veel voorbeelden zijn van hoe in het verleden zo’n systemen, expert systemen of andere systemen aan elkaar geknoopt zijn en dat dan altijd dat verbindingsmechanisme de bottleneck is. Waarbij uiteindelijk een systeem zo goed is als zijn zwakste component en dat wordt de zwakste component, dus dan gaat het uiteindelijk niet goed werken. En je ziet gewoon dat bijvoorbeeld Gemini is class-leading, zeg maar het beste op het gebied van multi-modal data, en dat gaat dan over audio en video en image en een stukje tekst tegelijk geven aan het model en dan vragen die modaliteiten te combineren om een antwoord te geven. En dat komt omdat dat model fundamenteel multi-modaal getraind is. Dus ze hebben dat al gecombineerd in het ontwikkel/creatieproces van dat model.
En zolang... Kijk uiteindelijk deze AI zoals we het nu de beste AI’s die we kennen in die specifieke slices, of het nou coding is of afbeelding genereren of video genereren bijvoorbeeld SeeDance 2.0 insane video model uit China. Die bijzondere capaciteiten die komen voort uit het simpele paradigma van machine learning. Zo van: je hebt een systeem, je hebt heel veel data en je traint het model gewoon enorm lang en je blijft maar het model groter maken, blijft maar meer data toevoegen en dan krijg je magic. En dat paradigma werkt. Voor de rest weten we niet iets anders wat werkt. Dat is gewoon: dat werkt. En je moet dus ook een combinatiesysteem... zeg maar datzelfde paradigma moet nog steeds daarvoor werken. Dus dan moet je die systemen knopen aan elkaar en daarna ga je het trainen zeg maar in zijn geheel, omdat het anders nooit gebruik leert maken van elkaars zwakke en sterke punten, omdat het nooit de kans heeft gehad... Het is geen magie. Dat moet het leren.
Wietse: De leerlingen moeten tijdens de opleiding al opgeleid worden voor het team waarin ze terecht gaan komen. Voor die samenwerking als het ware. En die als het ware die samenwerkings-infrastructuur, hè, wat alles dan aan elkaar verbindt. Dat is in het verleden geprobeerd, daarom noem jij het ook een naïeve approach, want daarmee doe je eigenlijk een waardeoordeel van: ‘dan jij denkt dat dit gaat werken, maar dat gaat het echt niet hoor’. En betekent dat dan ook dat jij persoonlijk best wel kunt... Want LeCun is best wel cynisch of... ja die is best wel aan het downhypen zeg maar, aan het anti-hypen van: ‘jongens jongens, wacht even, ik ben ook onder de indruk wat er nu allemaal gebeurt hè, ik zie het ook, maar denk nou niet dat we nu ineens doorstoten naar AGI vanuit wat we nu hebben uitgevonden. Er is nog een hoop te doen’. Hij zegt eigenlijk: we missen nog hele componenten van de cirkel, hè, die jaggedness, we moeten nieuwe sterren gaan maken die we naast elkaar kunnen leggen en die zomaar aan elkaar knopen gaat niet helpen dus we moeten ook nog eens hybrids gaan maken met zeven verschillende dingen en dat is ff niet binnen zes maanden gefixt.
Rick: Nou, en daar is dus wel... we gaan weer helemaal terug naar het begin van het gesprek, want daar hadden we het over auto-research en dat je dus nu ziet dat dat steeds sneller en steeds capabeler gaat als je vraagt aan een AI coding agent: ‘implementeer dit voor mij en test of het werkt’. En heel veel van dit werk, of het nou zeg maar het JEPA-idee opschalen is en de engineering werkzaamheden die daarvoor nodig zijn, dat is nog steeds allemaal software engineering. Tuurlijk, het is ook een stukje datacenters bouwen en die GPU’s installeren, verbinden met de stroom, etc. Maar als er al een datacenter staat en je hoeft alleen maar in plaats van transformer te trainen, train je nu JEPA, dan kan een agent dat binnen een paar uur gefixt hebben. En als we straks voor elkaar krijgen om meerdere agents productief samen te laten werken op het gebied van coding, want dat is heel dichtbij, dat werkt al vandaag en dat in rap tempo wordt dat beter, is het combineren van dit soort ideeën ook iets wat steeds sneller gaat. Dus dan heb je het niet per se over 10 jaar. Juist omdat je als het ware krachtige instrumenten ontwikkelt en we daar dichtbij zijn voor zelfversnelling. Het is niet per toeval dat de labs zoals OpenAI hebben gezegd: ‘we gaan double downen op transformers’. Die hebben ook al al die bezwaren gehoord van wat je wel en niet met transformers kan. Maar die geloven wel dat je tot het punt kan komen dat het die jaggedness of die tekortkomingen kan gaan adresseren door bijvoorbeeld hybride aanpakken of varianten van een transformer-systeem misschien wel helemaal van scratch trainen, want dat kan nog steeds hè, je kan nog steeds iets helemaal van scratch trainen in een paar maanden op heel, heel grote schaal. En dan komen die dingen misschien samen en dan zo druk je misschien de jaggedness eruit gewoon puur met die coding agent.
Wietse: Ja dit is wel boeiend hè, want eigenlijk als even als voor het gemak van het gesprek: LeCun zit hier ook aan tafel, dan vraag ik aan hem voor wat er nog uitgevonden moet worden aan spelers in het team en de coördinatie binnen het team, hoe lang duurt dat nog? En dat hij dan zegt: ‘ja daar zijn we nog wel tien jaar mee bezig’. En als ik het dan aan hem vraag: ‘wie is we?’, dat hij daar dan misschien toch ook nog met menselijke intuïtie zit dat hij denkt dat wíj als mensen dit allemaal moeten gaan uitvinden. Want wat ik jou nu hoor zeggen is eigenlijk: ik ben het met hem eens, hè, de vraag is alleen of de bottleneck die hij ziet voor hoeveel novel science en oplossingen er nog gedaan moeten worden niet ten dele opgelost wordt en versneld wordt door uit de hand gelopen previous paradigm transformers die als junior researchers LeCun’s problemen gaan oplossen in een tempo dat zelfs hij misschien intuïtief... we zijn heel erg aan het gokken nu op wat hij denkt en voelt hè, die man is 100 keer zo slim als ik, dus dat is prima. En ja, dus die zit nu tegen mij te zeggen ‘nee zelfs ik heb in mijn tien jaar rekening gehouden met keer tienduizend, zo moeilijk is dit probleem’, weet je wel. Maar toch wat ik merk wel voor mij is mijn intuïtie is ik ben constant... toen ik vandaag in de trein zat naar de studio zat ik op een gegeven moment gewoon te denken: volgens mij heb ik er het meeste aan om te reflecteren op mijn eigen intuïties.
Daarmee bedoel ik te zeggen: ik vind het... we heb je het typisch voorbeeld, dat wordt in heel veel eerstejaars economie-opleidingen altijd aangehaald, dat wij als mens een bijzonder slechte intuïtie hebben als het gaat om compound interest, om exponential. Ja, omdat we eigenlijk geen interne simulatie kunnen draaien van exponentials, alleen maar lineair, omdat we dat het meeste hebben gezien als wezen, dan is mijn invulling. We zien niet zo vaak exponentials en daardoor hebben we daar geen intuïtie voor, maar ze bestaan wel. Geschiedenis zit vol met exponentials. Dus hier zou je... ik merk dat in een soort hyper-exponentials of whatever, daar zullen vast mooie wiskundige namen voor zijn. Ik heb al een bijzonder slechte intuïtie voor exponentials, ik heb een bijzonder slechte intuïtie voor vier dimensies in plaats van drie, hè, daar kan je blijkbaar als wiskundige na 10 jaar werken met vier dimensies een intuïtie voor ontwikkelen. Maar ik merk dus ook dat in veel gesprekken, ook nu met jou, dat wij dan zeggen: ‘ja maar dat duurt nog wel tien jaar’. Maar zeggen we dan dat... houden we daar dan constant rekening mee met het feit dat er ook door AI geduwd wordt in wie die wetenschap aan het doen is?
Rick: Ja, ik denk dus dat de tijdslijnen uiteindelijk het product zijn van een hele complexe soort samenloop van zaken, want stroom-beschikbaarheid, de maatschappelijke het maatschappelijk enthousiasme voor het bouwen van meer datacenters, de kwaliteit van coding agents, de verruiming van wat coding agents wel en niet autonoom kunnen. Zeg maar, al die dingen zijn samen bepalend voor de totaalsnelheid. En dat is lastig te voorspellen. Maar wat je wel dus nu ziet, en daarom denk ik dat er zo’n moment is van auto-research als subtrend die nu heel actief besproken wordt, de autonome AI-onderzoeker die code schrijft, tests draait en dat daar resultaten mee laat zien en dus het proces enorm versnelt, makkelijk factor 10, echt makkelijk factor 10. Dat kan wel gewoon al die tijdslijnen verkorten.
Wietse: En dan is misschien nog één van de blinde vlekken die daar zit, in ieder geval bij mijzelf, is dat er een verschil is tussen executie, dus taken uitvoeren en interpreteren wat dat betekent, dus het resultaat van die taak weer verwerken binnen een systeem. Wat probeer ik te zeggen? Er is een heel oud software engineering boek waar de Myth of the Man-Month, de mythe van de mannenmaand, oftewel... en dan met man vooral grotendeels engineers wordt bedoeld. Ja de Mythical Man-Month dankjewel. Het idee dat als je een project hebt dat met één persoon 10 maanden duurt, dat als je er 10 personen tegenaan gooit, dat het dan nog maar één maand duurt. En dan blijkt het ineens 14 maanden te duren omdat de overhead van het toevoegen van die extra personen het langer laat duren. En er zitten zelfs grafieken in dat boek van bij hoeveel mensen je weer terugkomt op de oude 10 maanden, bij 20 ofzo, en dan boven de 20 ga je inderdaad terug naar 6 maanden en al dit soort ik roep nu getallen als voorbeeld. Punt is dat veel van de problemen in de fuzzy realiteit van ja waar realiteit ook de wereld raakt hè we leven niet alleen in computergames dat daar als jij een complex systeem hebt waar nodes in zitten van stukjes software die tot resultaten moeten komen en dat al die nodes ineens instant resultaat gaan leveren van de een op de andere dag. Dus alle blokkers in jouw bedrijf die technisch waren duren niet meer 10 minuten over maar allemaal geven ze gewoon meteen instant antwoord. Dan heb je niet ineens een instant bedrijf. Nee, je hebt nu een deel van je nodes in je informatiesysteem die instant zijn geworden. Er is ook een hele leuke wetmatigheid hiervoor die wordt gebruikt ook voor het analyseren van de maximaal behaalbare speedup als je wel puur kijkt naar het computational probleem, het heet Amdahl's Law. En dat gaat over parallellisatie versus dingen sequentieel doen. En die zegt gewoon simpelweg dat de maximale speedup is het sequentiële deel bepaalt uiteindelijk als het parallelle deel oneindig zou kunnen schalen dan bepaalt puur en alleen het sequentiële gedeelte de maximale speedup.
Wietse: Kan je een voorbeeld geven?
Rick: Ja dus nu om met concrete getallen te komen, stel je hebt een probleem wat je wilt oplossen in code en het is een berekening, misschien een weersberekening of het trainen van een model, en je krijgt het voor elkaar om 95 procent van dat probleem helemaal parallel te doen. Je hebt 5 miljoen GPU’s en je doet het op elk van die GPU's zet je een stukje van het probleem waardoor je instant klaar bent, maar je hebt alleen nog 5 procent wat je niet kan gebruiken. Dan is het 5 procent zorgt ervoor dat je 20x maximale speedup is. Want als je nog steeds die 5 procent sequentieel gaat doen, dan domineert dat deel nu gewoon de tijd die het kost. En dus is het volledig reduceren van bottlenecks, zoals jij zegt, niet direct dan een volledige speedup.
Wietse: Als 20 rijbanen op een snelweg eindigen bij één brug, kan je alles daarnaast... maar uiteindelijk vind jij dan: ‘hé, de nieuwe bottleneck is nu dat ene bruggetje waar al die auto’s die met z’n twintig naast elkaar reden overheen moeten’. En dan had jij het nog over dat je zei ‘in een puur computational realm’, oftewel als alles informatie was.
Rick: Ja, en dan heb je dat is niet dat alles informatie is. Maar wat wel een interessante bruggetje is naar de fysieke wereld, als we het nu dan toch hebben over je hebt je digitale wereld maar dus ook nog een fysieke wereld, en dat daar is wel ook best wel veel snelle ontwikkeling nu op het gebied van robotics. En kun je voor een... dus autonomous driving, zeg maar zelfrijdende auto’s, die werken. Ze zijn nog niet beter dan mensen, maar ze zijn beter dan mensen maar ze zijn nog niet perfect, maar ze zijn wel vele malen veiliger dan menselijke bestuurders. En zo heb je nu de trend van humanoid robots en die zijn nog heel basaal maar worden wel in rap tempo beter. En dan heb je het weer over die intuïtie van exponentials: hoeveel zinnigs kunnen wij nu zeggen over de snelheid van verbetering van humanoid robots als we nog niet eens begrijpen hoe veel sneller die coding agents beter worden en wat een veel betere coding agent betekent voor de snelheid waarmee we de humanoid robots beter kunnen maken?
Want als zeg maar het maken van die AI-systemen uiteindelijk een heel groot fysiek component blijkt te hebben omdat we een aantal keren bijvoorbeeld hele datacenters opnieuw moeten inrichten, als dat volledig geautomatiseerd is, dan kan je dat ook helemaal digitaal aansturen en wordt dat door een robot uitgevoerd. En ik weet dat heel veel mensen denken ‘ja maar nu ga je echt te ver dat we humanoids hebben en dat die coding agents ook heel goed zijn en ja daar zijn we gewoon nog lang niet’. Maar het is wel exact de realiteit waar keihard gedrukt wordt om naartoe te komen. En ik denk met goede reden, omdat als we daar eenmaal zijn, dan ben je in staat om heel veel grote problemen die als je die zeg maar dat coding gedeelte helemaal hebt opgelost, dus je kan alle software die je kan bedenken kan je praktisch instant schrijven en je kunt alle fysieke stappen die gezet moeten worden om het gat te dichten, stel je bent een farmabedrijf en je moet ook logistiek zeg maar de medicijnen naar de mensen toe brengen zodat ze het ook daadwerkelijk de medicatie kunnen nemen ik noem maar wat, dat kan wel heel veel welvaartcreatie uiteindelijk opleveren.
Wietse: Ja het is een beetje Hassabis’ idee, Demis Hassabis' idee van ‘de laatste uitvinding is een synthetische uitvinder’. Want als je eenmaal een hele grote... als je een uitvinder hebt uitgevonden, ja, dan gaat de rest vanzelf. En ik denk dat de laatst het laatste misschien wel om het af te sluiten is als je al een tijdje programmeur bent en je bent zoals ik ook heel erg bezig met AI-onderzoek en ideeën implementeren, ideeën bedenken dan implementeren, testen of ze werken en dan dat riedeltje herhalen, dan zie je nu wat die coding agents zelfstandig voor elkaar krijgen, wat Karpathy dus liet zien dat hij een grafiek post op zijn Twitter waarbij hij liet zien van: ‘ik heb een systeem gebouwd’, hij is echt een van de beste, hij is zeg maar Michael Jordan van AI-onderzoekers. En hij ziet dus, hij zegt: ‘ik begon met een systeem wat ik zo goed geoptimaliseerd had als ik ongeveer wist’. En dan liet hij die grafiek zien, dat was het startpunt. En die AI-agent die vindt gewoon verbetering na verbetering na verbetering, er staan volgens mij 40 puntjes op die grafiek en dan zie je dat lijntje naar beneden gaan. En dan ben je zelf als programmeur gebruik je deze coding agents om jouw werk gedeeltelijk te automatiseren en dan voel je gewoon eens van: ‘damn, het kan gewoon echt’. Het zijn echte ideeën. Hij doet het helemaal zelf. Het zijn echt capabele uitvoeringen ervan. Dus hij heeft niet de kantjes eraf gelopen en zich 10 keer gestoten. Nee, hij heeft gewoon netjes, goed, dit geprobeerd, tot de conclusie gekomen en het op de juiste manier verwerkt. Dan voel je ineens: holy shit we zijn wel veel dichter bij die realiteit dan we denken.
Wietse: Ja ik denk ook dat je hebt eigenlijk twee dingen nodig op z’n minst om tot een soort dat gevoel over je heen te krijgen wat jij nu beschrijft, wat Karpathy heeft gehad, wat ik op mijn eigen manier binnen mijn eigen werk een aantal keren heb meegemaakt, vooral in de laatste maanden. Een gevoel waardoor ik vrienden wil gaan opbellen om ze te vertellen er is iets substantieels aan de hand. Daar heb je twee dingen voor nodig: ten eerste heb je een principe nodig dat werkt, dus iets wat een cirkel kan maken en zichzelf kan verbeteren zeg maar, ik zeg het heel ff vaag maar iets recursiefs wat eigen onderzoek kan doen, auto-research. Dat heb je nodig. Dat is er nu eigenlijk. En dan heb je nog nodig dat dat de principes die je daar hebt, dat dat idee generaliseert naar alle andere domeinen of in ieder geval genoeg domeinen die weer door-generaliseren naar de rest. En ik denk dat jij en ik, ik spreek even voor ons allebei, niet kunnen garanderen dat dat niet zo is. Die tweede.
En het is altijd een soort inschatting, weet je wel. Toen ik GPT-3.5 zag, toen dacht ik ook wel van: ‘wow, superbijzonder, vet dat dit nu kan’. Maar je wist wel gewoon gut check: we zitten nog superver af van AGI, wat dat dan ook mag zijn. Maar je voelt nu gewoon dat de technologie een bepaald punt heeft bereikt dat het... je weet holy shit alles wordt heel anders. En dan weten we nog steeds eigenlijk niet hoe dicht we bij nog betere intelligentie zijn en er kunnen nog steeds allemaal... maar je voelt wel van: hé, het kan wel eens dichterbij zijn dan we denken.
En dan heeft iedereen het over, stel je surveyt een aantal experts uit het veld over: wat zijn jouw AGI-timelines? En dan kan je het vragen aan Demis Hassabis, je kan het vragen aan Sam Altman, je kan het vragen aan wie dan ook zeg maar daar... Demis Hassabis 5 tot 10, Sam Altman 1 tot 2, Dario 1 tot 2 op dit moment. En Shane Legg, de andere co-founder van DeepMind, die zit al een tijdje consistent op 2028, omdat hij het gevoel heeft dat we een stuk dichterbij zijn, ook weer opnieuw bevestigd voor hem voor zijn gevoel zegt hij ook publiekelijk door de recente doorbraken die er zijn geweest. Iedereen heeft het over het decembermoment, dat in december zijn veel tech-leaders die in hun vakantie echt even up and close zijn gegaan met de laatste modellen. En dat waren toen Opus 4.5. En toen echt zagen: ‘ho, dit werkt echt mega goed’.
En we moeten het nog maar zien. Dat is sowieso nog... ik kan niet zeggen ‘we zijn er al’. Maar het gaat wel een hele extreme kant op, waarbij de... dat is ook denk ik een ding, mensen moeten denk ik realiseren dat we vóórdat we bij AGI zijn, wat de meeste mensen als AGI zouden bestempelen, zouden we bij een soort AGI 0.5 kunnen zijn, soort halve AGI, die zeker nog niet door iedereen AGI genoemd wordt, maar wel extreem disruptief is en alles verandert aan hoe we de maatschappij organiseren in allerlei landen van China tot Amerika tot aan heel Europa. Dat zeg maar de impact van een sub-AGI systeem kan nog steeds enorm zijn.
Wietse: Ja, de uitvinding van een getalenteerde, junior onderzoeksassistent is al gigantisch substantieel. Als het echt dat is hè, in de volledigheid. Als het dat is in de volledigheid. En ik denk om af te sluiten dat er vonkjes zijn, vonkjes van novelty, dus nieuwe dingen die wij nog niet hebben uitgevonden, strategieën die nergens op papier staan maar ontstaan in die modellen. Die vervolgens verwerkt worden in de modellen zelf en de nieuwe versies van die modellen gaan weer door-uitvinden. Dat lijkt nu in kleine versies en testjes en domeintjes te werken. En als dat generaliseerbaar is naar meer, dan is het allemaal wat dichterbij om het lekker vaag te zeggen, dan dat velen van ons inclusief wij misschien kunnen begrijpen. Tegelijkertijd is meer personen tegen een softwareproject aangooien niet de oplossing per se om een softwareproject te versnellen. Dus ik denk dat en het is zo dat we nog allemaal dingen, we, wie we is trouwens dat weten we niet, maar in ieder geval dat er een groep aan onderzoekers met AI samen nog fundamentele uitvindingen moet doen die ook nog eens aan elkaar gelijnd moeten worden met beter dan tape om ze allemaal samen te laten werken. En dan nog als, als, als, als, als, als... duurt het waarschijnlijk geen 10 jaar meer.
Rick: Drie.
Wietse: Drie houden we erin, dat sluiten we mee af. Dankjewel man. Tot de volgende keer.
Rick: Leuk gesprek. Hoi hoi.
AI transcriptie kan fouten bevatten.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment