06-11-2025

Gemini 3‑preview onthult sterke checkpoints, prijsindicaties en wat je kunt verwachten.

Introductie

Google’s next‑generation large language model, Gemini 3, lijkt op het punt te staan om publiekelijk te worden uitgebracht. Een korte vermelding van Gemini 3.0 Pro op Vertex AI—met een voorlopige uitrol‑datum “11‑2025”—suggereert dat het model op elk moment kan verschijnen. Na wekenlang testen via een reeks interne checkpoints, heb ik een uitgebreide samenvatting samengesteld van wat het model kan, waar het nog tekortschiet, en hoe het prijslandschap eruit zou kunnen zien.

De weg naar Gemini 3: Van AB‑tests tot checkpoint‑chaos

Vroege hints in AI Studio

De eerste publieke aanwijzing verscheen in Google’s AI Studio, waar het selecteren van Gemini 2.5 Pro af en toe een ander checkpoint‑ID opleverde dat begon met 2HTT. Netwerk‑logs identificeerden dit als Gemini 3.0 Pro. Het checkpoint kwam slechts één keer per 40‑50 prompts naar voren, maar de resultaten waren opvallend:

Nauwkeurige plattegrond‑lay-outs met correct geplaatste deuren en meubels
Een SVG‑panda die een burger eet met een juiste compositie
Een 3‑js Pokéball met realistische belichting
Een Minecraft‑achtige scène die een nieuwe norm stelde voor één‑shot 3D‑generatie
Een vlindersimulatie die, hoewel iets achter GPT‑5, toch indruk maakte
Sterke prestaties op raadsels en “AIME‑style” wiskunde‑opgaven

Deze resultatenchten het model naar de top van de interne ranglijst van de auteur, met ongeveer 25 % verbetering ten opzichte van Sonnet 4.5.

Het “Middelpunt” checkpoint – ECPT

Google’s volgende checkpoint, gelabeld ECPT, voelde merkbaar nerfed aan. De output‑kwaliteit zakte op verschillende vlakken:

Plattegrond‑ontwerpen verloren samenhang
De SVG‑panda leek onsamenhangend
Schaakzetten waren sub‑optimaal
3‑js‑belichting en de Minecraft‑scene werden plat en traag

Ondanks deze regressies presteerde het model nog steeds beter dan Sonnet op de meeste wiskundevragen, wat suggereert dat het checkpoint waarschijnlijk een gekwantiseerde of minder redeneervaardige variant was, bedoeld voor bredere rollout‑tests.

Het herstel: X28 checkpoint

Speculatie binnen de community wees op een nieuw “Pro” checkpoint, later geïdentificeerd als X28. Bij een her-test met de oorspronkelijke 11‑vragenreeks plus enkele extra’s leverde X28 een duidelijke stap omhoog ten opzichte van 2HT:

Plattegronden werden echt realistisch, met functionele deuren, logische indelingen en dynamische lichtregeling.
De SVG‑panda at nu daadwerkelijk de burger in plaats van alleen te poseren.
3‑js Pokéball‑scènes hadden rijkere achtergronden en verfijnde afwerking.
De Minecraft‑scene kreeg rivieren en een schonere verlichting.
De vlindersimulatie bevatte rotsen, bloemen en minder clipping‑artefacten.
De Rust‑CLI voor afbeeldingsconversie en een Blender‑script leverden professioneel‑niveau resultaten.
Een degree‑of‑separation‑netwerk‑demo toonde een nette UI zonder de gebruikelijke “paarse‑vibe” standaard.
Tool‑calling via de RU‑human‑relay koos correct de eerste functie.

Al met al vertegenwoordigde X28 een 5‑10 % verbetering ten opzichte van 2HT en een aanzienlijke sprong boven de huidige Sonnet‑modellen.

Belangrijkste observaties over checkpoints

Thinking‑Variant gedrag – De sterkste checkpoints vertonen een tragere eerste token gevolgd door een gelijkmatige output, wat duidt op diepere interne overweging.
Consistentie – High‑end checkpoints genereren bijna deterministische resultaten bij herhaalde prompts, een groot voordeel voor ontwikkelaars die betrouwbare applicaties bouwen.
Design‑gevoelig – Het model kiest lettertypen, spatiëring en‑beslissingen die handgemaakt aanvoelen in plaats van generiek.
Tool‑Calling – Ruwe redeneercapaciteit is solide, maar betrouwbare keten‑vorming van functieroepen blijft de kritieke scharnierpunt voor productie‑agents.
Nerfed checkpoints – Likely dienen ze veiligheid, latentie‑ en schaal‑tests; ze zijn bruikbaar maar niet de doorbraak waar velen op hoopten.

Prijsverwachtingen

Parity met Sonnet – Als Google Gemini 3 Pro prijst op een niveau vergelijkbaar met Sonnet 4.5, dan rechtvaardigen de prestatie‑winsten de kosten.
Premium pricing – Hogere tarieven zouden gecompenseerd moeten worden door superieure tool‑call‑betrouwbaarheid, hogere doorvoersnelheid en consistente kwaliteit over lange sessies.
Aggressive pricing – Een sub‑Sonnet prijs zou een grote gebruikersbasis kunnen aantrekken, vooral gezien het nu volwassen Gemini‑ecosysteem (CLI, Jewels, AI Studio‑generators).

Hoe Gemini 3 zich verhoudt tot concurrenten

Kenmerk	Gemini 3 (sterke checkpoints)	Sonnet 4.5	GPT‑5	Claude
Ruimtelijk redeneren & 3‑D één‑shots	≥ Opus (top‑niveau)	Goed maar minder consistent	Concurrerend	Goed
Wiskunde‑ & fysicasimulaties	Concurrerend, soms overtroffen door GPT‑5	Sterk	Sterk	–
Consistentie bij regeneraties	Hoog (vooral X28/2HT)	Gemiddeld	Gemiddeld	Gemiddeld
Betrouwbaarheid van tool‑calling	Veelbelovend, vereist meer real‑world testing	Goed	Goed	Goed

Als de publieke release overeenkomt met de X28‑ of 2HT‑checkpoints, zou Gemini 3 het beste mainstream‑model voor ontwikkelaars kunnen worden. Een lancering die lijkt op ECPT zou nog steeds een verbetering boven Sonnet zijn, maar niet de generatiesprong die velen verwachten.

Praktische benchmark‑tips

Vermijd “web‑style” demo’s – Simpele HTML/CSS‑outputs zijn makkelijk voor elk frontier‑model en weerspiegelen niet de echte capaciteiten.
Stress 3‑D + wiskunde – Gebruik 3‑js‑scènes die echte berekeningen vereisen om verschillen bloot te leggen.
Meet consistentie – Test dezelfde prompt meerdere keren; noteer de latentie tot de eerste token en de stabiliteit van de output.
Evalueer toolcalling ketens – Controleer of het model multi‑step functieroepen kan plannen en uitvoeren, niet alleen één enkele API‑call.

Conclusie

Van het vroege AB‑test checkpoint 2HT via de dip met ECPT tot het sterke herstel met X28, wijst het bewijs op een voorzichtig optimistisch vooruitzicht voor Gemini 3. Mocht Google een model uitbrengen dat vergelijkbaar is met de X28/2HT‑checkpoints, dan krijgen ontwikkelaars eindelijk een mainstream LLM die diepe redenering, design‑intuïtie en betrouwbare tool‑gebruik combineert.

Zelfs een nerfed release zou Sonnet voor veel workflows overtreffen, maar de echte doorbraak hangt af van het finale checkpoint dat Google kiest voor de publieke preview. Zodra het model in Vertex AI landt, zal een volledige benchmark – inclusief token‑economie, latentie en succespercentages van tool‑calls – de prijs‑/prestatie‑vergelijking verhelderen.

De toekomst van AI‑gedreven ontwikkeling ziet er rooskleuriger uit dan ooit.

Gemini 3‑preview onthult sterke checkpoints, prijsindicaties en wat je kunt verwachten.

Gemini 3‑preview onthult sterke checkpoints, prijsindicaties en wat je kunt verwachten.

Introductie

De weg naar Gemini 3: Van AB‑tests tot checkpoint‑chaos

Vroege hints in AI Studio

Het “Middelpunt” checkpoint – ECPT

Het herstel: X28 checkpoint

Belangrijkste observaties over checkpoints

Prijsverwachtingen

Hoe Gemini 3 zich verhoudt tot concurrenten

Praktische benchmark‑tips

Conclusie

Gemini 3‑preview onthult sterke checkpoints, prijsindicaties en wat je kunt verwachten.

Gemini 3‑preview onthult sterke checkpoints, prijsindicaties en wat je kunt verwachten.

De weg naar Gemini 3: Van AB‑tests tot checkpoint‑chaos

Hoe Gemini 3 zich verhoudt tot concurrenten