06.11.2025

Gemini‑3-Vorschau enthüllt starke Meilensteine, Preis‑Hinweise und das, was zu erwarten ist.

Einführung

Das nächste Generation‑Großmodell von Google, Gemini 3, scheint kurz vor einer öffentlichen Veröffentlichung zu stehen. Ein kurzer Eintrag für Gemini 3.0 Pro auf Vertex AI – inklusive eines vorläufigen Rollout‑Datums „11‑2025“ – lässt vermuten, dass das Modell jederzeit erscheinen könnte. Nach wochenlangem Testen einer Reihe interner Checkpoints habe ich eine umfassende Zusammenfassung erstellt, was das Modell kann, wo es noch Schwächen hat und wie die Preisgestaltung aussehen könnte.

Der Weg zu Gemini 3: Von AB‑Tests zu Checkpoint‑Chaos

Frühe Hinweise im AI Studio

Der erste öffentliche Hinweis kam im Google‑AI‑Studio, wo die Auswahl von Gemini 2.5 Pro gelegentlich eine andere Checkpoint‑ID beginnend mit 2HTT zurückgab. Netzwerk‑Logs identifizierten dies als Gemini 3.0 Pro. Der Checkpoint tauchte nur etwa alle 40‑50 Eingaben auf, aber die Ergebnisse waren beeindruckend:

Präzise Grundriss‑Layouts mit korrekt platzierten Türen und Möbeln
Ein SVG‑Panda, der einen Burger isst, mit richtiger Komposition
Eine 3‑js‑Pokéball‑Darstellung mit realistischem Licht
Eine Minecraft‑ähnliche Szene, die einen neuen Maßstab für One‑Shot‑3D‑Generierung setzte
Eine Schmetterlings‑Simulation, die zwar leicht hinter GPT‑5 zurückblieb, aber dennoch beeindruckte
Starke Leistungen bei Rätseln und „AIME‑artigen“ Mathematikaufgaben

Diese Resultate katapultierten das Modell an die Spitze der internen Rangliste des Autors und lieferten etwa 25 % Verbesserung gegenüber Sonnet 4.5.

Der „Mittlere“ Checkpoint – ECPT

Der nächste Checkpoint von Google, bezeichnet als ECPT, wirkte merklich abgeschwächt. Die Ausgabequalität sank in mehreren Bereichen:

Grundriss‑Entwürfe verloren an Kohärenz
Der SVG‑Panda wirkte zersplittert
Schachzüge waren suboptimal
3‑js‑Beleuchtung und die Minecraft‑Szene wurden flach und ruckelig

Trotz dieser Rückschritte übertraf das Modell Sonnet bei den meisten Mathe‑Fragen, was darauf hindeutet, dass es sich wahrscheinlich um eine quantisierte oder weniger tiefgründige Variante handelte, die für breitere Rollout‑Tests gedacht war.

Das Come‑back: X28‑Checkpoint

Spekulationen der Community deuteten auf einen neuen „Pro“‑Checkpoint hin, später als X28 identifiziert. Beim erneuten Testen mit der ursprünglichen 11‑Fragen‑Suite plus einigen Extras zeigte X28 einen klaren Fortschritt gegenüber 2HT:

Grundrisse wurden wirklich realistisch, mit funktionierenden Türen, sinnvollen Layouts und dynamischer Lichtsteuerung.
Der SVG‑Panda aß tatsächlich den Burger statt nur zu posieren.
3‑js‑Pokéball‑Szenen boten reichhaltigere Hintergründe und verfeinerten Schliff.
Die Minecraft‑Szene erhielt Flüsse und sauberere Beleuchtung.
Die Schmetterlings‑Simulation enthielt Felsen, Blumen und weniger Clipping‑Artefakte.
Das Rust‑CLI für Bildkonvertierung und ein Blender‑Skript lieferten professionelle Ergebnisse.
Eine Degree‑of‑Separation‑Netzwerk‑Demo zeigte ein sauberes UI ohne das übliche „purple‑vibe“‑Standarddesign.
Tool‑Calling über den RU‑Human‑Relay wählte die erste Funktion korrekt.

Insgesamt stellte X28 eine 5‑10 % Verbesserung gegenüber 2HT dar und einen deutlichen Sprung gegenüber den aktuellen Sonnet‑Modellen.

Zentrale Beobachtungen über die Checkpoints hinweg

Thinking‑Variant‑Verhalten – Die stärksten Checkpoints zeigen ein langsameres erstes Token, gefolgt von gleichmäßigem Output, was auf tiefere interne Überlegungen hindeutet.
Konsistenz – High‑End‑Checkpoints erzeugen nahezu deterministische Ergebnisse bei wiederholten Eingaben, ein großer Vorteil für Entwickler, die zuverlässige Anwendungen bauen.
Design‑Sensibilität – Das Modell wählt Schriftarten, Abstände und Layout‑Entscheidungen, die sich handgefertigt statt generisch anfühlen.
Tool‑Calling – Das reine Reasoning ist solide, doch das zuverlässige Ketten von Funktionsaufrufen bleibt der kritische Hebel für produktive Agenten.
Abgeschwächte Checkpoints – Wahrscheinlich für Sicherheits‑, Latenz‑ und Skalierungstests eingesetzt; sie sind nützlich, aber nicht der Durchbruch, den viele erhofft hatten.

Preiserwartungen

Parity mit Sonnet – Wenn Google Gemini 3 Pro zu einem Preis anbietet, der mit Sonnet 4.5 vergleichbar ist, rechtfertigen die Leistungsgewinne die Kosten.
Premium‑Preisgestaltung – Höhere Preise müssten durch überlegene Tool‑Call‑Zuverlässigkeit, höhere Durchsatzraten und konsistente Qualität über lange Sitzungen ausgeglichen werden.
Aggressive Preisgestaltung – Ein Unter‑Sonnet‑Preis könnte eine große Nutzerbasis anziehen, besonders angesichts des jetzt reifen Gemini‑Ökosystems (CLI, Jewels, AI‑Studio‑Generatoren).

Wie Gemini 3 im Vergleich zu Wettbewerbern abschneidet

Feature	Gemini 3 (starke Checkpoints)	Sonnet 4.5	GPT‑5	Claude
Räumliches Denken & 3‑D‑One‑Shots	≥ Opus (Spitzenklasse)	Gut, aber weniger konsistent	Wettbewerbsfähig	Gut
Mathe‑ & Physik‑Simulationen	Wettbewerbsfähig, manchmal von GPT‑5 übertroffen	Stark	Stark	–
Konsistenz bei Regenerationen	Hoch (insbesondere X28/2HT)	Mittel	Mittel	Mittel
Zuverlässigkeit von Tool‑Calling	Vielversprechend, benötigt mehr Real‑World‑Tests	Gut	Gut	Gut

Wenn die öffentliche Version den X28‑ oder 2HT‑Checkpoints entspricht, könnte Gemini 3 das beste Mainstream‑Modell für Entwickler werden. Ein Launch, der ECPT ähnelt, wäre zwar immer noch eine Verbesserung gegenüber Sonnet, aber nicht der generationenübergreifende Sprung, den viele erwarten.

Praktische Benchmark‑Tipps

Vermeiden Sie „Web‑Style“-Demos – Einfache HTML/CSS‑Ausgaben sind für jedes Frontier‑Modell leicht zu erzeugen und spiegeln nicht die wahre Leistungsfähigkeit wider.
Belasten Sie 3‑D + Mathe – Nutzen Sie 3‑js‑Szenen, die reale Berechnungen erfordern, um Unterschiede sichtbar zu machen.
Messen Sie Konsistenz – Testen Sie denselben Prompt mehrfach; notieren Sie die Latenz bis zum ersten Token und die Stabilität des Outputs.
Bewerten Sie Tool‑Calling‑Ketten – Verifizieren Sie, dass das Modell mehrstufige Funktionsaufrufe planen und ausführen kann, nicht nur einen einzelnen API‑Aufruf.

Fazit

Von dem frühen AB‑Test‑Checkpoint 2HT über den Einbruch mit ECPT bis hin zum starken Come‑back mit X28 deutet die Evidenz auf eine vorsichtig optimistische Aussicht für Gemini 3 hin. Sollte Google ein Modell veröffentlichen, das den X28/2HT‑Checkpoints entspricht, erhalten Entwickler endlich ein Mainstream‑LLM, das tiefes Reasoning, Design‑Intuition und zuverlässige Tool‑Nutzung kombiniert.

Selbst ein abgeschwächtes Release würde Sonnet in vielen Workflows übertreffen, doch der eigentliche Durchbruch hängt vom finalen Checkpoint ab, den Google für die öffentliche Vorschau wählt. Sobald das Modell in Vertex AI verfügbar ist, wird ein vollständiger Benchmark – inklusive Token‑Ökonomie, Latenz und Erfolgsraten beim Tool‑Calling – die Preis‑zu‑Leistung‑Gleichung klar machen.

Die Zukunft der KI‑gestützten Entwicklung sieht heller aus denn je.

Gemini‑3-Vorschau enthüllt starke Meilensteine, Preis‑Hinweise und das, was zu erwarten ist.

Gemini‑3-Vorschau enthüllt starke Meilensteine, Preis‑Hinweise und das, was zu erwarten ist.

Einführung

Der Weg zu Gemini 3: Von AB‑Tests zu Checkpoint‑Chaos

Frühe Hinweise im AI Studio

Der „Mittlere“ Checkpoint – ECPT

Das Come‑back: X28‑Checkpoint

Zentrale Beobachtungen über die Checkpoints hinweg

Preis­erwartungen

Wie Gemini 3 im Vergleich zu Wettbewerbern abschneidet

Praktische Benchmark‑Tipps

Fazit

Der Weg zu Gemini 3: Von AB‑Tests zu Checkpoint‑Chaos

Frühe Hinweise im AI Studio

Preiserwartungen

Wie Gemini 3 im Vergleich zu Wettbewerbern abschneidet