spdup.net

Technologienieuws

Gemini 3‑preview onthult sterke checkpoints, prijsindicaties en wat je kunt verwachten.


Gemini 3‑preview onthult sterke checkpoints, prijsindicaties en wat je kunt verwachten.

Introductie

Google’s next‑generation large language model, Gemini 3, lijkt op het punt te staan om publiekelijk te worden uitgebracht. Een korte vermelding van Gemini 3.0 Pro op Vertex AI—met een voorlopige uitrol‑datum “11‑2025”—suggereert dat het model op elk moment kan verschijnen. Na wekenlang testen via een reeks interne checkpoints, heb ik een uitgebreide samenvatting samengesteld van wat het model kan, waar het nog tekortschiet, en hoe het prijslandschap eruit zou kunnen zien.


De weg naar Gemini 3: Van AB‑tests tot checkpoint‑chaos

Vroege hints in AI Studio

De eerste publieke aanwijzing verscheen in Google’s AI Studio, waar het selecteren van Gemini 2.5 Pro af en toe een ander checkpoint‑ID opleverde dat begon met 2HTT. Netwerk‑logs identificeerden dit als Gemini 3.0 Pro. Het checkpoint kwam slechts één keer per 40‑50 prompts naar voren, maar de resultaten waren opvallend:

  • Nauwkeurige plattegrond‑lay-outs met correct geplaatste deuren en meubels
  • Een SVG‑panda die een burger eet met een juiste compositie
  • Een 3‑js Pokéball met realistische belichting
  • Een Minecraft‑achtige scène die een nieuwe norm stelde voor één‑shot 3D‑generatie
  • Een vlindersimulatie die, hoewel iets achter GPT‑5, toch indruk maakte
  • Sterke prestaties op raadsels en “AIME‑style” wiskunde‑opgaven

Deze resultatenchten het model naar de top van de interne ranglijst van de auteur, met ongeveer 25 % verbetering ten opzichte van Sonnet 4.5.

Het “Middelpunt” checkpoint – ECPT

Google’s volgende checkpoint, gelabeld ECPT, voelde merkbaar nerfed aan. De output‑kwaliteit zakte op verschillende vlakken:

  • Plattegrond‑ontwerpen verloren samenhang
  • De SVG‑panda leek onsamenhangend
  • Schaakzetten waren sub‑optimaal
  • 3‑js‑belichting en de Minecraft‑scene werden plat en traag

Ondanks deze regressies presteerde het model nog steeds beter dan Sonnet op de meeste wiskundevragen, wat suggereert dat het checkpoint waarschijnlijk een gekwantiseerde of minder redeneervaardige variant was, bedoeld voor bredere rollout‑tests.

Het herstel: X28 checkpoint

Speculatie binnen de community wees op een nieuw “Pro” checkpoint, later geïdentificeerd als X28. Bij een her-test met de oorspronkelijke 11‑vragenreeks plus enkele extra’s leverde X28 een duidelijke stap omhoog ten opzichte van 2HT:

  • Plattegronden werden echt realistisch, met functionele deuren, logische indelingen en dynamische lichtregeling.
  • De SVG‑panda at nu daadwerkelijk de burger in plaats van alleen te poseren.
  • 3‑js Pokéball‑scènes hadden rijkere achtergronden en verfijnde afwerking.
  • De Minecraft‑scene kreeg rivieren en een schonere verlichting.
  • De vlindersimulatie bevatte rotsen, bloemen en minder clipping‑artefacten.
  • De Rust‑CLI voor afbeeldingsconversie en een Blender‑script leverden professioneel‑niveau resultaten.
  • Een degree‑of‑separation‑netwerk‑demo toonde een nette UI zonder de gebruikelijke “paarse‑vibe” standaard.
  • Tool‑calling via de RU‑human‑relay koos correct de eerste functie.

Al met al vertegenwoordigde X28 een 5‑10 % verbetering ten opzichte van 2HT en een aanzienlijke sprong boven de huidige Sonnet‑modellen.


Belangrijkste observaties over checkpoints

  • Thinking‑Variant gedrag – De sterkste checkpoints vertonen een tragere eerste token gevolgd door een gelijkmatige output, wat duidt op diepere interne overweging.
  • Consistentie – High‑end checkpoints genereren bijna deterministische resultaten bij herhaalde prompts, een groot voordeel voor ontwikkelaars die betrouwbare applicaties bouwen.
  • Design‑gevoelig – Het model kiest lettertypen, spatiëring en‑beslissingen die handgemaakt aanvoelen in plaats van generiek.
  • Tool‑Calling – Ruwe redeneercapaciteit is solide, maar betrouwbare keten‑vorming van functieroepen blijft de kritieke scharnierpunt voor productie‑agents.
  • Nerfed checkpoints – Likely dienen ze veiligheid, latentie‑ en schaal‑tests; ze zijn bruikbaar maar niet de doorbraak waar velen op hoopten.

Prijsverwachtingen

  • Parity met Sonnet – Als Google Gemini 3 Pro prijst op een niveau vergelijkbaar met Sonnet 4.5, dan rechtvaardigen de prestatie‑winsten de kosten.
  • Premium pricing – Hogere tarieven zouden gecompenseerd moeten worden door superieure tool‑call‑betrouwbaarheid, hogere doorvoersnelheid en consistente kwaliteit over lange sessies.
  • Aggressive pricing – Een sub‑Sonnet prijs zou een grote gebruikersbasis kunnen aantrekken, vooral gezien het nu volwassen Gemini‑ecosysteem (CLI, Jewels, AI Studio‑generators).

Hoe Gemini 3 zich verhoudt tot concurrenten

KenmerkGemini 3 (sterke checkpoints)Sonnet 4.5GPT‑5Claude
Ruimtelijk redeneren & 3‑D één‑shots≥ Opus (top‑niveau)Goed maar minder consistentConcurrerendGoed
Wiskunde‑ & fysicasimulatiesConcurrerend, soms overtroffen door GPT‑5SterkSterk
Consistentie bij regeneratiesHoog (vooral X28/2HT)GemiddeldGemiddeldGemiddeld
Betrouwbaarheid van tool‑callingVeelbelovend, vereist meer real‑world testingGoedGoedGoed

Als de publieke release overeenkomt met de X28‑ of 2HT‑checkpoints, zou Gemini 3 het beste mainstream‑model voor ontwikkelaars kunnen worden. Een lancering die lijkt op ECPT zou nog steeds een verbetering boven Sonnet zijn, maar niet de generatiesprong die velen verwachten.


Praktische benchmark‑tips

  • Vermijd “web‑style” demo’s – Simpele HTML/CSS‑outputs zijn makkelijk voor elk frontier‑model en weerspiegelen niet de echte capaciteiten.
  • Stress 3‑D + wiskunde – Gebruik 3‑js‑scènes die echte berekeningen vereisen om verschillen bloot te leggen.
  • Meet consistentie – Test dezelfde prompt meerdere keren; noteer de latentie tot de eerste token en de stabiliteit van de output.
  • Evalueer toolcalling ketens – Controleer of het model multi‑step functieroepen kan plannen en uitvoeren, niet alleen één enkele API‑call.

Conclusie

Van het vroege AB‑test checkpoint 2HT via de dip met ECPT tot het sterke herstel met X28, wijst het bewijs op een voorzichtig optimistisch vooruitzicht voor Gemini 3. Mocht Google een model uitbrengen dat vergelijkbaar is met de X28/2HT‑checkpoints, dan krijgen ontwikkelaars eindelijk een mainstream LLM die diepe redenering, design‑intuïtie en betrouwbare tool‑gebruik combineert.

Zelfs een nerfed release zou Sonnet voor veel workflows overtreffen, maar de echte doorbraak hangt af van het finale checkpoint dat Google kiest voor de publieke preview. Zodra het model in Vertex AI landt, zal een volledige benchmark – inclusief token‑economie, latentie en succespercentages van tool‑calls – de prijs‑/prestatie‑vergelijking verhelderen.

De toekomst van AI‑gedreven ontwikkeling ziet er rooskleuriger uit dan ooit.

Bekijk Originele Video