Gemini 3 Pro domineert nieuwe agentische benchmarks en overtreft Sonnet en GPT‑5.1 in programmeertests.
Gemini 3 Pro domineert nieuwe agentische benchmarks en overtreft Sonnet en GPT‑5.1 in programmeertests.
Inleiding
De nieuwste release van Gemini 3 Pro is snel uitgegroeid tot een maatstaf in het AI‑ondersteunde programmeerveld. In een reeks rigoureuze tests – variërend van klassieke programmeeruitdagingen tot complexe agentische workflows – behaalde Gemini 3 Pro niet alleen perfecte scores op gevestigde benchmarks, maar overtrof ook toonaangevende concurrenten zoals Claude Sonnet, Claude Opus en GPT‑5.1 CodeX. Dit artikel bespreekt de nieuwe benchmark‑suite, de methodologie achter de scores en de praktische implicaties voor ontwikkelaars die op zoek zijn naar krachtige, kosteneffectieve AI‑ondersteuning.
Nieuwe Benchmark‑suite
Om Gemini 3 Pro te evalueren buiten de traditionele Kingbench 2.0, werden twee extra benchmarks geïntroduceerd:
- GDscript‑bench – 60 vragen gericht op de open‑source Godot‑game‑engine’s eigen scripttaal, GDscript. Elke taak wordt gevalideerd met unit‑tests en een LLM‑judge die de codekwaliteit beoordeelt.
- Spelt‑bench – Ontworpen om het vermogen van het model te meten om code te genereren voor het Spelt‑framework, eveneens gescoord via unit‑tests en een LLM‑judge.
Beide benchmarks zijn bedoeld om zwakke punten bloot te leggen die veel grote taalmodellen (LLM’s) vertonen bij niche‑ of domeinspecifieke talen.
Score‑methodologie en Intelligentie‑index
Elke benchmark levert een ruwe score op die vervolgens wordt samengevoegd tot een Intelligentie‑index – een gewogen gemiddelde dat de nadruk legt op programmeervaardigheid. De index omvat ook een prijs‑prestaties‑analyse op basis van de werkelijke API‑gebruikskosten.
| Model | Intelligentie‑index | Kingbench 2.0 | GDscript‑bench | Spelt‑bench |
|---|---|---|---|---|
| Gemini 3 Pro | 60,4 | 100 % (perfect) | 20,8 | 83,3 |
| Claude Sonnet | 37,5 | 50 % | 15,2 | 70,1 |
| Claude Opus | 34,9 | 45 % | 14,9 | 68,4 |
| GPT‑5.1 CodeX | 31,3 | 40 % | 13,7 | 65,0 |
De prijs‑prestaties‑grafiek toonde aan dat Gemini 3 Pro de volledige suite voltooide voor slechts $2,85, een bedrag dat duidelijk lager ligt dan de kosten die Sonnet maakte voor vergelijkbare runs.
Agentische benchmarks met Kilo Code
Naast statische codegeneratie omvatte de evaluatie ook agentische taken – scenario’s waarin het model een reeks acties orkestreert, zoals het bouwen van volledige applicaties vanuit een beschrijving. Alle tests werden uitgevoerd met Kilo Code, een populair agentisch framework dat direct integreert met Gemini 3 Pro via de preview‑API.
Belangrijke agentische testcases
- Movie Tracker‑app – Genereerde een functionele startpagina en sub‑pagina’s. De output was beknopt en vereiste minimale nabewerking.
- Godot FPS‑game‑extensie – Voegde een stap‑teller en gezondheidsbalk toe die reageerden op springacties. Het model exposeerde correct configuratie‑instellingen voor het stap‑doel.
- Go TUI‑calculator – Produceerde een volledig operationele terminal‑UI‑calculator met nauwkeurige rekenkunde en soepele navigatie.
- Spelt‑applicatie – Leverde een werkende, maar minder gepolijste UI dan Sonnet; desalniettemin bleef de kernfunctionaliteit intact.
- Open‑Code‑challenge – Historisch gedomineerd door multi‑model‑agents zoals CodeBuff; Gemini 3 Pro slaagde erin SVG‑generatie en UI‑esthetiek te verwerken zonder de hoge kosten.
- Nux‑app – Genereerde uitgebreide code die niet kon starten vanwege talrijke runtime‑fouten; deze mislukking weerspiegelde de prestaties van concurrerende modellen.
- Tari‑image‑tool – Implementeerde een robuuste interface voor het bladeren, bijsnijden en annoteren van afbeeldingen, waarmee sterke generatiemogelijkheden werden aangetoond.
In totaal behaalde Gemini 3 Pro een 71,4 % succesratio op het agentische leaderboard, waarmee de 70 %-drempel voor de eerste keer werd doorbroken en de voorheen dominante CodeBuff‑systemen werden overtroffen.
Beschikbaarheid en integratie
Hoewel Gemini 3 Pro nog niet toegankelijk is via de publieke Gemini‑CLI (zowel gratis als pro‑tiers staan op een wachtlijst), kunnen ontwikkelaars het model oproepen via de API of via de anti‑gravity editor, die gratis toegang biedt. De integratie van het model met Kilo Code vereiste slechts een eenvoudige configuratiewijziging om het preview‑model te selecteren.
Implicaties voor ontwikkelaars
- Hogere productiviteit: Het behalen van perfecte scores op klassieke benchmarks en sterke resultaten op agentische taken suggereert dat Gemini 3 Pro zowel geïsoleerde codegeneratie als complexe workflow‑orchestratie aankan.
- Kostenefficiëntie: Voor minder dan $3 voor een volledige test‑suite biedt het model een overtuigend prijs‑prestatie‑verhouding voor teams die schaalbare AI‑ondersteuning nodig hebben zonder het budget te overschrijden.
- Domeinflexibiliteit: Het succes op de GDscript‑ en Spelt‑benchmarks geeft aan dat Gemini 3 Pro zich kan aanpassen aan niche‑programmeermilieu’s, een veelvoorkomend pijnpunt voor veel LLM’s.
- Verbeterpotentieel: De mislukking van de Nux‑app en incidentele hallucinaties in langere agentische reeksen benadrukken gebieden waar prompt‑engineering of systeem‑niveau afstemming de betrouwbaarheid verder kan verhogen.
Conclusie
Het uitgebreide testregime toont aan dat Gemini 3 Pro een nieuwe norm heeft gesteld voor AI‑gedreven programmeerondersteuning. Met perfecte prestaties op Kingbench, top‑scores op de nieuw geïntroduceerde GDscript‑ en Spelt‑benchmarks, en een recordbrekende 71,4 % succesratio op agentische taken, overtreft het model gevestigde concurrenten zowel in capaciteit als in kosten.
Voor ontwikkelaars en organisaties die AI willen integreren in hun ontwikkel‑pipelines, biedt Gemini 3 Pro een krachtige combinatie van nauwkeurigheid, veelzijdigheid en betaalbaarheid – waardoor het een sterke kandidaat is voor de volgende generatie programmeer‑workflows.