L'anteprima di Gemini 3 rivela checkpoint solidi, indizi sui prezzi e cosa aspettarsi.
L’anteprima di Gemini 3 rivela checkpoint solidi, indizi sui prezzi e cosa aspettarsi.
Introduzione
Il prossimo modello di linguaggio di grandi dimensioni di Google, Gemini 3, sembra essere sul punto di una pubblicazione. Una breve inserzione per Gemini 3.0 Pro su Vertex AI—con una data di rilascio provvisoria “11‑2025”—suggerisce che il modello potrebbe arrivare in qualsiasi momento. Dopo settimane di test su una serie di checkpoint interni,ato un riepilogo completo di ciò che il modello è in grado di fare, dove ancora manca, e come potrebbe apparire il panorama dei prezzi.
Il percorso verso Gemini 3: dagli AB test al caos dei checkpoint
Prime indicazioni in AI Studio
Il primo indizio pubblico è comparso in AI Studio di Google, dove la selezione di Gemini 2.5 Pro a volte restituisce un ID di checkpoint diverso che inizia con 2HTT. I log di rete lo hanno identificato come Gemini 3.0 Pro. Il checkpoint è comparso solo una volta ogni 40‑50 richieste, ma i risultati sono stati sorprendenti:
- Layout di planimetrie accurati con porte e arredi posizionati correttamente
- Un panda SVG che mangia un burger con composizione corretta
- Una Pokéball in 3‑js resa con illuminazione realistica
- Una scena in stile Minecraft che ha fissato un nuovo standard per la generazione 3D “one‑shot”
- Una simulazione di farfalla che, pur rimanendo leggermente indietro rispetto a GPT‑5, ha comunque impressionato
- Ottime prestazioni su indovinelli e problemi matematici “stile AIME”
Questi risultati hanno spinto il modello in cima alla classifica interna dell’autore, con un miglioramento di circa 25 % rispetto a Sonnet 4.5.
Il checkpoint “intermedio” – ECPT
Il checkpoint successivo di Google, etichettato ECPT, è risultato visibilmente nerfato. La qualità dell’output è calata su diverse dimensioni:
- I progetti di planimetrie hanno perso coerenza
- Il panda SVG è apparso disgiunto
- Le mosse di scacchi erano sub‑ottimali
- L’illuminazione in 3‑js e la scena Minecraft sono diventate piatte e lente
Nonostante queste regressioni, il modello ha comunque superato Sonnet nella maggior parte delle domande di matematica, suggerendo che il checkpoint fosse probabilmente una variante quantizzata o a ragionamento più limitato destinata a test di rollout più ampi.
Il ritorno in forma: checkpoint X28
Le speculazioni della community hanno indicato un nuovo checkpoint “Pro”, successivamente identificato come X28. Quando è stato nuovamente testato con la suite originale di 11 domande più qualche extra, X28 ha mostrato un chiaro passo avanti rispetto a 2HT:
- Le planimetrie sono diventate veramente realistiche, con porte funzionali, layout sensati e controlli di illuminazione dinamici.
- Il panda SVG ora mangia davvero il burger invece di limitarsi a posare.
- Le scene Pokéball in 3‑js presentavano sfondi più ricchi e una rifinitura più curata.
- La scena Minecraft ha aggiunto fiumi e un’illuminazione più pulita.
- La simulazione della farfalla includeva rocce, fiori e meno artefatti di clipping.
- Il CLI Rust per la conversione di immagini e uno script Blender hanno prodotto risultati di livello professionale.
- Una demo di rete “degree‑of‑separation” ha mostrato un’interfaccia pulita senza ileto tema “purple‑vibe”.
- Il tool‑calling tramite il relay umano RU ha selezionato correttamente la prima funzione.
Nel complesso, X28 ha rappresentato un miglioramento del 5‑10 % rispetto a 2HT e un salto sostanziale rispetto ai modelli Sonnet attuali.
Osservazioni chiave sui checkpoint
- Comportamento “Thinking‑Variant” – I checkpoint più forti mostrano un primo token più lento seguito da un output costante, indice di una deliberazione interna più profonda.
- Coerenza – I checkpoint di fascia alta generano risultati quasi deterministici su richieste ripetute, un vantaggio importante per gli sviluppatori che costruiscono applicazioni affidabili.
- Sensibilità al design – Il modello sceglie font, spaziature e layout che sembrano fatti a mano piuttosto che generici.
- Tool‑Calling – Il ragionamento grezzo è solido, ma la catena affidabile di chiamate a funzioni resta il punto critico per gli agenti in produzione.
- Checkpoint nerfati – Probabilmente servono a test di sicurezza, latenza e scalabilità; sono utili ma non rappresentano la svolta sperata da molti.
Aspettative sui prezzi
- Parità con Sonnet – Se Google prezza Gemini 3 Pro a un livello comparabile a Sonnet 4.5, i guadagni di performance giustificano il costo.
- Prezzo premium – Tariffe più alte dovrebbero essere compensate da una maggiore affidabilità nel tool‑calling, da un throughput più elevato e da una qualità costante su sessioni lunghe.
- Prezzo aggressivo – Un prezzo inferiore a quello di Sonnet potrebbe attrarre una vasta base di utenti, soprattutto considerando l’ecosistema Gemini ormai maturo (CLI, Jewels, generatori AI Studio).
Come Gemini 3 si confronta con i concorrenti
| Caratteristica | Gemini 3 (checkpoint forti) | Sonnet 4.5 | GPT‑5 | Claude |
|---|---|---|---|---|
| Ragionamento spaziale & 3‑D one‑shot | ≥ Opus (top tier) | Buono ma meno coerente | Competitivo | Buono |
| Simulazioni matematiche & fisiche | Competitivo, a volte superato da GPT‑5 | Forte | Forte | — |
| Coerenza tra rigenerazioni | Alta (soprattutto X28/2HT) | Media | Media | Media |
| Affidabilità del tool‑calling | Promettente, necessita di più test reali | Buona | Buona | Buona |
Se il rilascio pubblico rispecchia i checkpoint X28 o 2HT, Gemini 3 potrebbe diventare il miglior modello mainstream per gli sviluppatori. Un lancio simile a ECPT rappresenterebbe comunque un miglioramento rispetto a Sonnet, ma non il salto generazionale tanto atteso.
Consigli pratici per il benchmark
- Evita demo “web‑style” – Output semplici in HTML/CSS sono facili per qualsiasi modello di frontiera e non riflettono la vera capacità.
- Metti alla prova 3‑D + Matematica – Usa scene 3‑js che richiedono calcoli reali per far emergere le differenze.
- Misura la coerenza – Testa lo stesso prompt più volte; annota la latenza del primo token e la stabilità dell’output.
- Valuta le catene di tool‑calling – Verifica che il modello possa pianificare ed eseguire chiamate a funzioni multi‑step, non solo un singolo API hit.
Conclusione
Dal checkpoint AB‑test iniziale 2HT, passando per il calo con ECPT e il forte rimbalzo con X28, le evidenze indicano una prospettiva cautamente ottimistica per Gemini 3. Se Google rilascerà un modello comparabile ai checkpoint X28/2HT, gli sviluppatori avranno finalmente a disposizione un LLM mainstream che combina ragionamento profondo, intuizione di design e uso affidabile degli strumenti.
Anche una versione nerfata supererebbe Sonnet in molti flussi di lavoro, ma la vera svolta dipenderà dal checkpoint finale che Google sceglierà per l’anteprima pubblica. Quando il modello arriverà su Vertex AI, un benchmark completo—che includa economia dei token, latenza e tassi di successo del tool‑calling—chiarirà l’equazione prezzo‑prestazioni.
Il futuro dello sviluppo guidato dall’IA non è mai stato così luminoso.