19.11.2025

Gemini 3 Pro dominiert neue agentische Benchmarks und übertrifft Sonnet sowie GPT‑5.1 in Codierungstests.

Einführung

Die neueste Version von Gemini 3 Pro hat sich schnell als Maßstab‑Setzer im Bereich KI‑unterstütztes Programmieren etabliert. In einer Reihe rigoroser Tests – von klassischen Programmieraufgaben bis hin zu komplexen agentenbasierten Workflows – erzielte Gemini 3 Pro nicht nur perfekte Werte bei etablierten Benchmarks, sondern übertraf auch führende Konkurrenten wie Claude Sonnet, Claude Opus und GPT‑5.1 CodeX. Dieser Artikel zerlegt die neue Benchmark‑Suite, die Methodik hinter den Ergebnissen und die praktischen Auswirkungen für Entwickler, die leistungsstarke und kosteneffiziente KI‑Unterstützung suchen.

Neue Benchmark‑Suite

Um Gemini 3 Pro über das herkömmliche Kingbench 2.0 hinaus zu bewerten, wurden zwei zusätzliche Benchmarks eingeführt:

GDscript Bench – 60 Fragen, die sich auf die native Skriptsprache der Open‑Source‑Game‑Engine Godot, GDscript, konzentrieren. Jede Aufgabe wird durch Unit‑Tests und einen LLM‑Judge validiert, der die Code‑Qualität beurteilt.
Spelt Bench – Entwickelt, um die Fähigkeit des Modells zu messen, Code für das Spelt‑Framework zu erzeugen; ebenfalls bewertet über Unit‑Tests und einen LLM‑Judge.

Beide Benchmarks sollen Schwächen aufdecken, die viele große Sprachmodelle (LLMs) bei Nischen‑ oder domänenspezifischen Sprachen zeigen.

Bewertungs‑Methodik und Intelligenz‑Index

Jeder Benchmark liefert einen Rohwert, der anschließend zu einem Intelligenz‑Index kombiniert wird – einem gewichteten Mittelwert, der die Programmier‑Kompetenz besonders betont. Der Index beinhaltet zudem eine Kosten‑Leistungs‑Analyse, basierend auf den tatsächlichen API‑Nutzungskosten.

Modell	Intelligenz‑Index	Kingbench 2.0	GDscript Bench	Spelt Bench
Gemini 3 Pro	60,4	100 % (perfekt)	20,8	83,3
Claude Sonnet	37,5	50 %	15,2	70,1
Claude Opus	34,9	45 %	14,9	68,4
GPT‑5.1 CodeX	31,3	40 %	13,7	65,0

Das Kosten‑Leistungs‑Diagramm zeigte, dass Gemini 3 Pro die gesamte Suite für nur 2,85 $ abschloss – ein Betrag, der deutlich unter den Kosten liegt, die Sonnet für vergleichbare Durchläufe verursachte.

Agenten‑Benchmarks mit Kilo Code

Über die reine Code‑Generierung hinaus wurden auch agentenbasierte Aufgaben bewertet – Szenarien, in denen das Modell eine Abfolge von Aktionen orchestriert, etwa das Erstellen kompletter Anwendungen aus einer Beschreibung. Alle Tests wurden mit Kilo Code durchgeführt, einem populären agentenbasierten Framework, das direkt über die Preview‑API mit Gemini 3 Pro verbunden ist.

Zentrale agentenbasierte Testfälle

Movie Tracker App – Erzeugte eine funktionale Startseite und Unterseiten. Die Ausgabe war kompakt und erforderte nur minimale Nachbearbeitung.
Godot FPS Game Extension – Fügte einen Schrittzähler und eine Gesundheitsanzeige hinzu, die auf Sprung‑Aktionen reagierten. Das Modell stellte korrekt Konfigurationseinstellungen für das Schritt‑Ziel bereit.
Go TUI Calculator – Liefert einen voll funktionsfähigen Terminal‑UI‑Rechner mit präziser Arithmetik und flüssiger Navigation.
Spelt Application – Bot eine funktionierende, wenn auch weniger polierte UI im Vergleich zu Sonnet; die Kernfunktionalität war jedoch intakt.
Open‑Code Challenge – Historisch dominiert von Multi‑Modell‑Agenten wie CodeBuff, gelang Gemini 3 Pro die Aufgabe, SVG‑Generierung und UI‑Ästhetik ohne hohe Kosten zu bewältigen.
Nux App – Erzeugte umfangreichen Code, der aufgrund zahlreicher Laufzeit‑Fehler nicht startete; dieses Scheitern spiegelte die Leistung konkurrierender Modelle wider.
Tari Image Tool – Implementierte eine robuste Oberfläche zum Durchsuchen, Zuschneiden und Annotieren von Bildern und demonstrierte starke Generierungs‑Fähigkeiten.

Insgesamt erreichte Gemini 3 Pro eine Erfolgsquote von 71,4 % in der agentenbasierten Rangliste und überschritt damit erstmals die 70‑%‑Marke, wodurch das zuvor dominierende CodeBuff‑System übertroffen wurde.

Verfügbarkeit und Integration

Obwohl Gemini 3 Pro noch nicht über das öffentliche Gemini‑CLI (sowohl kostenlose als auch Pro‑Stufen stehen auf einer Warteliste) zugänglich ist, können Entwickler das Modell über die API oder den Anti‑Gravity‑Editor, der freien Zugang bietet, ansteuern. Die Integration des Modells in Kilo Code erforderte lediglich eine einfache Konfigurationsänderung, um das Preview‑Modell auszuwählen.

Auswirkungen für Entwickler

Höhere Produktivität: Perfekte Ergebnisse bei klassischen Benchmarks und starke Leistungen bei agentenbasierten Aufgaben deuten darauf hin, dass Gemini 3 Pro sowohl isolierte Code‑Generierung als auch komplexe Workflow‑Orchestrierung bewältigen kann.
Kosteneffizienz: Unter 3 $ für eine komplette Testsuite bietet das Modell ein überzeugendes Preis‑Leistungs‑Verhältnis für Teams, die skalierbare KI‑Unterstützung benötigen, ohne das Budget zu sprengen.
Domänen‑Flexibilität: Der Erfolg bei den GDscript‑ und Spelt‑Benchmarks zeigt, dass Gemini 3 Pro sich an Nischen‑Programmierumgebungen anpassen kann – ein häufiges Schmerz‑Punkt‑Problem vieler LLMs.
Verbesserungspotenzial: Das Scheitern der Nux‑App und gelegentliche Halluzinationen in längeren agentenbasierten Sequenzen verdeutlichen Bereiche, in denen Prompt‑Engineering oder systemweite Feinabstimmungen die Zuverlässigkeit weiter steigern könnten.

Fazit

Das umfassende Testregime beweist, dass Gemini 3 Pro einen neuen Standard für KI‑gestützte Programmier‑Assistenz gesetzt hat. Mit perfekter Leistung bei Kingbench, Spitzenwerten in den neu eingeführten GDscript‑ und Spelt‑Benchmarks und einer rekordverdächtigen Erfolgsquote von 71,4 % bei agentenbasierten Aufgaben übertrifft das Modell etablierte Konkurrenten sowohl in Fähigkeit als auch in Kosten.

Für Entwickler und Unternehmen, die KI in ihre Entwicklungs‑Pipelines integrieren wollen, bietet Gemini 3 Pro eine kraftvolle Kombination aus Genauigkeit, Vielseitigkeit und Erschwinglichkeit – ein starker Kandidat für die nächste Generation von Coding‑Workflows.

Gemini 3 Pro dominiert neue agentische Benchmarks und übertrifft Sonnet sowie GPT‑5.1 in Codierungstests.

Gemini 3 Pro dominiert neue agentische Benchmarks und übertrifft Sonnet sowie GPT‑5.1 in Codierungstests.

Einführung

Neue Benchmark‑Suite

Bewertungs‑Methodik und Intelligenz‑Index

Agenten‑Benchmarks mit Kilo Code

Zentrale agentenbasierte Testfälle

Verfügbarkeit und Integration

Auswirkungen für Entwickler

Fazit

Gemini 3 Pro dominiert neue agentische Benchmarks und übertrifft Sonnet sowie GPT‑5.1 in Codierungstests.

Gemini 3 Pro dominiert neue agentische Benchmarks und übertrifft Sonnet sowie GPT‑5.1 in Codierungstests.