06/11/2025

L'anteprima di Gemini 3 rivela checkpoint solidi, indizi sui prezzi e cosa aspettarsi.

L’anteprima di Gemini 3 rivela checkpoint solidi, indizi sui prezzi e cosa aspettarsi.

Introduzione

Il prossimo modello di linguaggio di grandi dimensioni di Google, Gemini 3, sembra essere sul punto di una pubblicazione. Una breve inserzione per Gemini 3.0 Pro su Vertex AI—con una data di rilascio provvisoria “11‑2025”—suggerisce che il modello potrebbe arrivare in qualsiasi momento. Dopo settimane di test su una serie di checkpoint interni,ato un riepilogo completo di ciò che il modello è in grado di fare, dove ancora manca, e come potrebbe apparire il panorama dei prezzi.

Il percorso verso Gemini 3: dagli AB test al caos dei checkpoint

Prime indicazioni in AI Studio

Il primo indizio pubblico è comparso in AI Studio di Google, dove la selezione di Gemini 2.5 Pro a volte restituisce un ID di checkpoint diverso che inizia con 2HTT. I log di rete lo hanno identificato come Gemini 3.0 Pro. Il checkpoint è comparso solo una volta ogni 40‑50 richieste, ma i risultati sono stati sorprendenti:

Layout di planimetrie accurati con porte e arredi posizionati correttamente
Un panda SVG che mangia un burger con composizione corretta
Una Pokéball in 3‑js resa con illuminazione realistica
Una scena in stile Minecraft che ha fissato un nuovo standard per la generazione 3D “one‑shot”
Una simulazione di farfalla che, pur rimanendo leggermente indietro rispetto a GPT‑5, ha comunque impressionato
Ottime prestazioni su indovinelli e problemi matematici “stile AIME”

Questi risultati hanno spinto il modello in cima alla classifica interna dell’autore, con un miglioramento di circa 25 % rispetto a Sonnet 4.5.

Il checkpoint “intermedio” – ECPT

Il checkpoint successivo di Google, etichettato ECPT, è risultato visibilmente nerfato. La qualità dell’output è calata su diverse dimensioni:

I progetti di planimetrie hanno perso coerenza
Il panda SVG è apparso disgiunto
Le mosse di scacchi erano sub‑ottimali
L’illuminazione in 3‑js e la scena Minecraft sono diventate piatte e lente

Nonostante queste regressioni, il modello ha comunque superato Sonnet nella maggior parte delle domande di matematica, suggerendo che il checkpoint fosse probabilmente una variante quantizzata o a ragionamento più limitato destinata a test di rollout più ampi.

Il ritorno in forma: checkpoint X28

Le speculazioni della community hanno indicato un nuovo checkpoint “Pro”, successivamente identificato come X28. Quando è stato nuovamente testato con la suite originale di 11 domande più qualche extra, X28 ha mostrato un chiaro passo avanti rispetto a 2HT:

Le planimetrie sono diventate veramente realistiche, con porte funzionali, layout sensati e controlli di illuminazione dinamici.
Il panda SVG ora mangia davvero il burger invece di limitarsi a posare.
Le scene Pokéball in 3‑js presentavano sfondi più ricchi e una rifinitura più curata.
La scena Minecraft ha aggiunto fiumi e un’illuminazione più pulita.
La simulazione della farfalla includeva rocce, fiori e meno artefatti di clipping.
Il CLI Rust per la conversione di immagini e uno script Blender hanno prodotto risultati di livello professionale.
Una demo di rete “degree‑of‑separation” ha mostrato un’interfaccia pulita senza ileto tema “purple‑vibe”.
Il tool‑calling tramite il relay umano RU ha selezionato correttamente la prima funzione.

Nel complesso, X28 ha rappresentato un miglioramento del 5‑10 % rispetto a 2HT e un salto sostanziale rispetto ai modelli Sonnet attuali.

Osservazioni chiave sui checkpoint

Comportamento “Thinking‑Variant” – I checkpoint più forti mostrano un primo token più lento seguito da un output costante, indice di una deliberazione interna più profonda.
Coerenza – I checkpoint di fascia alta generano risultati quasi deterministici su richieste ripetute, un vantaggio importante per gli sviluppatori che costruiscono applicazioni affidabili.
Sensibilità al design – Il modello sceglie font, spaziature e layout che sembrano fatti a mano piuttosto che generici.
Tool‑Calling – Il ragionamento grezzo è solido, ma la catena affidabile di chiamate a funzioni resta il punto critico per gli agenti in produzione.
Checkpoint nerfati – Probabilmente servono a test di sicurezza, latenza e scalabilità; sono utili ma non rappresentano la svolta sperata da molti.

Aspettative sui prezzi

Parità con Sonnet – Se Google prezza Gemini 3 Pro a un livello comparabile a Sonnet 4.5, i guadagni di performance giustificano il costo.
Prezzo premium – Tariffe più alte dovrebbero essere compensate da una maggiore affidabilità nel tool‑calling, da un throughput più elevato e da una qualità costante su sessioni lunghe.
Prezzo aggressivo – Un prezzo inferiore a quello di Sonnet potrebbe attrarre una vasta base di utenti, soprattutto considerando l’ecosistema Gemini ormai maturo (CLI, Jewels, generatori AI Studio).

Come Gemini 3 si confronta con i concorrenti

Caratteristica	Gemini 3 (checkpoint forti)	Sonnet 4.5	GPT‑5	Claude
Ragionamento spaziale & 3‑D one‑shot	≥ Opus (top tier)	Buono ma meno coerente	Competitivo	Buono
Simulazioni matematiche & fisiche	Competitivo, a volte superato da GPT‑5	Forte	Forte	—
Coerenza tra rigenerazioni	Alta (soprattutto X28/2HT)	Media	Media	Media
Affidabilità del tool‑calling	Promettente, necessita di più test reali	Buona	Buona	Buona

Se il rilascio pubblico rispecchia i checkpoint X28 o 2HT, Gemini 3 potrebbe diventare il miglior modello mainstream per gli sviluppatori. Un lancio simile a ECPT rappresenterebbe comunque un miglioramento rispetto a Sonnet, ma non il salto generazionale tanto atteso.

Consigli pratici per il benchmark

Evita demo “web‑style” – Output semplici in HTML/CSS sono facili per qualsiasi modello di frontiera e non riflettono la vera capacità.
Metti alla prova 3‑D + Matematica – Usa scene 3‑js che richiedono calcoli reali per far emergere le differenze.
Misura la coerenza – Testa lo stesso prompt più volte; annota la latenza del primo token e la stabilità dell’output.
Valuta le catene di tool‑calling – Verifica che il modello possa pianificare ed eseguire chiamate a funzioni multi‑step, non solo un singolo API hit.

Conclusione

Dal checkpoint AB‑test iniziale 2HT, passando per il calo con ECPT e il forte rimbalzo con X28, le evidenze indicano una prospettiva cautamente ottimistica per Gemini 3. Se Google rilascerà un modello comparabile ai checkpoint X28/2HT, gli sviluppatori avranno finalmente a disposizione un LLM mainstream che combina ragionamento profondo, intuizione di design e uso affidabile degli strumenti.

Anche una versione nerfata supererebbe Sonnet in molti flussi di lavoro, ma la vera svolta dipenderà dal checkpoint finale che Google sceglierà per l’anteprima pubblica. Quando il modello arriverà su Vertex AI, un benchmark completo—che includa economia dei token, latenza e tassi di successo del tool‑calling—chiarirà l’equazione prezzo‑prestazioni.

Il futuro dello sviluppo guidato dall’IA non è mai stato così luminoso.

L'anteprima di Gemini 3 rivela checkpoint solidi, indizi sui prezzi e cosa aspettarsi.

L’anteprima di Gemini 3 rivela checkpoint solidi, indizi sui prezzi e cosa aspettarsi.