Recensione di Anthropic Claude Opus 4.5 – Prestazioni, prezzi e benchmark reali
Recensione di Anthropic Claude Opus 4.5 – Prestazioni, prezzi e benchmark reali
Introduzione
Anthropic ha appena rilasciato Claude Opus 4.5, il suo nuovo modello di punta pensato per la programmazione, gli agenti autonomi e l’uso informatico nel mondo reale. Posizionato come diretto concorrente del Gemini 3 Pro di Google, Opus 4.5 promette non solo prestazioni superiori nei compiti tecnici, ma anche un prezzo notevolmente più basso. In questo articolo analizziamo i costi del modello, i risultati dei benchmark e i test reali per capire se Opus 4.5 è all’altezza del clamore.
Prezzi e Efficienza dei Costi
Una delle modifiche più evidenti con Opus 4.5 è la riduzione drammatica dei costi per token:
- Token di input: 5 $ per milione (da 15 $)
- Token di output: 25 $ per milione (da 75 $)
Questo cambiamento rende il modello molto più accessibile per carichi di lavoro quotidiani, soprattutto per gli sviluppatori che devono tenere sotto controllo i costi delle API. Anthropic fornisce anche indicazioni su come ridurre la lunghezza del contesto per contenere ulteriormente le spese, evidenziando un’attenzione verso implementazioni pratiche e consapevoli dei costi.
Prestazioni nei Benchmark
Benchmark di Programmazione
Opus 4.5 mostra guadagni impressionanti in una varietà di valutazioni di coding:
- Ader Polyglot: 89,4 % di successo vs. 78,8 % di Sonnet 4.5
- Aentic Coding SBench: 80,9 % vs. 77,2 % di Sonnet 4.5 e 74,5 % di Opus 4.1
- Terminal Bench 2.0: 59,3 % (in crescita rispetto al 46,5 % di Opus 4.1)
- Coding multilingue (C, Go, Java, JS/TS, PHP, Ruby, Rust): Opus 4.5 supera Sonnet 4.5 e Opus 4.1 con tassi di superamento più alti e intervalli di errore più stretti.
Benchmark di Coerenza a Lungo Termine e Agenti
- Vending Bench (coerenza a lungo termine): Il costo sale da 3.849,74 $ (Sonnet 4.5) a 4.967,6 $ per Opus 4.5, indicando una performance stabile su esecuzioni prolungate.
- Browse‑Comp‑Plus: 72,9 % di successo vs. 67,2 % di Sonnet 4.5 quando si combinano cancellazione dei risultati degli strumenti, memoria e reset del contesto.
Sicurezza e Robustezza
Anche le metriche di sicurezza migliorano:
- Comportamento preoccupante: scende a ~10 % per Opus 4.5, inferiore a Sonnet 4.5 e ai modelli concorrenti di Frontier.
- Susceptibilità a injection di prompt (K=1): 4,7 % per Opus 4.5 vs. 7,3 % per Sonnet 4.5; rimane il valore più basso tra i modelli testati.
Ragionamento e Intelligenza Generale
Al di fuori del puro coding, Opus 4.5 resta competitivo nei compiti di ragionamento intensivo:
- ARC‑AI2: 37,6 % (un salto notevole rispetto al 13,6 % di Sonnet)
- GPQA‑Diamond: 87,0 %
- Visual Reasoning (MMU‑Val): 80,7 %
Test nel Mondo Reale
Compiti Non‑Agenti
Al modello è stato chiesto di generare vari output creativi:
- Planimetria: Funzionale ma non ottimale.
- SVG di un panda che tiene un burger: Output di bassa qualità.
- Pokéball in Three.js: Accettabile, sebbene lo sfondo possa essere migliorato.
- Scacchiera con autoplay: Non ha funzionato.
- Scena in stile Minecraft nello stile Kandinsky: Qualità molto alta, una delle migliori generazioni osservate.
- Simulazione di farfalla: Fisica realistica e fedeltà visiva impressionante.
- Strumento CI in Rust e script Blender: Entrambi hanno prodotto codice solido e utilizzabile.
- Domande di matematica e indovinelli: Risposte corrette, contribuendo a un punteggio del 74 % nei test di ragionamento generale—ancora al di sotto dei checkpoint di Gemini 3 Pro.
Benchmark Agenti
Utilizzando l’interfaccia Kilo Code (che integra i modelli Claude senza soluzione di continuità), Opus 4.5 ha eccelso in diversi compiti di sviluppo end‑to‑end:
- App tracker di film Expo (API TMDB): Generata un’interfaccia UI completamente funzionale con navigazione e gestione dati.
- Calcolatrice terminale in Go (Bubble Tea): Codice pulito e funzionante.
- Prototipo di gioco “Godo”: Funzionale, ma gli elementi UI (barra della salute, contatore di passi) erano posizionati male.
- Modifica di repository open‑source: Aggiunto un comando SVG in un’unica modifica precisa.
- App di gestione task Spelt: Implementati login, creazione board, storage SQLite e funzionalità CRUD completa.
- Applicazioni Next.js e Tari: Entrambe eseguite senza problemi rilevanti.
Questi risultati hanno collocato Opus 4.5 al primo posto della classifica Agentic.
Confronto con Gemini 3
Mentre Opus 4.5 offre capacità di backend e debugging superiori, la sua produzione front‑end resta indietro rispetto a Gemini 3, che genera costantemente design UI più puliti (ad es. meno artefatti “viola”). Un flusso di lavoro pratico potrebbe prevedere:
- Usare Opus 4.5 per logica di backend, integrazione API e lavori algoritmici complessi.
- Passare a Gemini 3 per rifinire componenti front‑end e design visivo.
Anche le considerazioni di costo sono rilevanti. Gemini 3 ottiene un punteggio del 71,4 % per circa 8 $, mentre Opus 4.5 raggiunge il 77,1 % a circa 48 $. Il boost di prestazioni comporta un prezzo più alto, rendendo Opus 4.5 più adatto a scenari in cui il budget è meno vincolato e sono richiesti risultati di alto livello.
Punti di Forza e Limiti
Punti di forza
- Precisione eccezionale nella programmazione su più linguaggi.
- Elevate prestazioni agentiche per compiti di sviluppo end‑to‑end.
- Metriche di sicurezza e robustezza migliorate.
- Prezzo dei token più basso rispetto alle versioni precedenti di Opus.
Limiti
- La generazione front‑end produce ancora estetiche UI sub‑ottimali.
- Costo complessivo più elevato rispetto a modelli concorrenti come Gemini 3.
- Alcuni output creativi (es. grafiche SVG) rimangono incoerenti.
Conclusione
Claude Opus 4.5 rappresenta un salto significativo per Anthropic, offrendo una competenza di coding all’avanguardia, solide capacità agentiche e una sicurezza potenziata, il tutto a un prezzo dei token più accessibile rispetto ai modelli precedenti. Sebbene la sua produzione front‑end e il rapporto costo‑prestazioni siano ancora dietro a Gemini 3, Opus 4.5 eccelle nello sviluppo backend e nei compiti di ragionamento complesso. Per sviluppatori e organizzazioni che privilegiano una generazione backend robusta e sono disposti a investire in prestazioni di alto livello, Opus 4.5 è una scelta convincente. Accoppiarlo con un modello focalizzato sul front‑end come Gemini 3 può fornire un flusso di lavoro equilibrato e conveniente per lo sviluppo full‑stack.