25/11/2025

Recensione di Anthropic Claude Opus 4.5 – Prestazioni, prezzi e benchmark reali

Introduzione

Anthropic ha appena rilasciato Claude Opus 4.5, il suo nuovo modello di punta pensato per la programmazione, gli agenti autonomi e l’uso informatico nel mondo reale. Posizionato come diretto concorrente del Gemini 3 Pro di Google, Opus 4.5 promette non solo prestazioni superiori nei compiti tecnici, ma anche un prezzo notevolmente più basso. In questo articolo analizziamo i costi del modello, i risultati dei benchmark e i test reali per capire se Opus 4.5 è all’altezza del clamore.

Prezzi e Efficienza dei Costi

Una delle modifiche più evidenti con Opus 4.5 è la riduzione drammatica dei costi per token:

Token di input: 5 $ per milione (da 15 $)
Token di output: 25 $ per milione (da 75 $)

Questo cambiamento rende il modello molto più accessibile per carichi di lavoro quotidiani, soprattutto per gli sviluppatori che devono tenere sotto controllo i costi delle API. Anthropic fornisce anche indicazioni su come ridurre la lunghezza del contesto per contenere ulteriormente le spese, evidenziando un’attenzione verso implementazioni pratiche e consapevoli dei costi.

Prestazioni nei Benchmark

Benchmark di Programmazione

Opus 4.5 mostra guadagni impressionanti in una varietà di valutazioni di coding:

Ader Polyglot: 89,4 % di successo vs. 78,8 % di Sonnet 4.5
Aentic Coding SBench: 80,9 % vs. 77,2 % di Sonnet 4.5 e 74,5 % di Opus 4.1
Terminal Bench 2.0: 59,3 % (in crescita rispetto al 46,5 % di Opus 4.1)
Coding multilingue (C, Go, Java, JS/TS, PHP, Ruby, Rust): Opus 4.5 supera Sonnet 4.5 e Opus 4.1 con tassi di superamento più alti e intervalli di errore più stretti.

Benchmark di Coerenza a Lungo Termine e Agenti

Vending Bench (coerenza a lungo termine): Il costo sale da 3.849,74 $ (Sonnet 4.5) a 4.967,6 $ per Opus 4.5, indicando una performance stabile su esecuzioni prolungate.
Browse‑Comp‑Plus: 72,9 % di successo vs. 67,2 % di Sonnet 4.5 quando si combinano cancellazione dei risultati degli strumenti, memoria e reset del contesto.

Sicurezza e Robustezza

Anche le metriche di sicurezza migliorano:

Comportamento preoccupante: scende a ~10 % per Opus 4.5, inferiore a Sonnet 4.5 e ai modelli concorrenti di Frontier.
Susceptibilità a injection di prompt (K=1): 4,7 % per Opus 4.5 vs. 7,3 % per Sonnet 4.5; rimane il valore più basso tra i modelli testati.

Ragionamento e Intelligenza Generale

Al di fuori del puro coding, Opus 4.5 resta competitivo nei compiti di ragionamento intensivo:

ARC‑AI2: 37,6 % (un salto notevole rispetto al 13,6 % di Sonnet)
GPQA‑Diamond: 87,0 %
Visual Reasoning (MMU‑Val): 80,7 %

Test nel Mondo Reale

Compiti Non‑Agenti

Al modello è stato chiesto di generare vari output creativi:

Planimetria: Funzionale ma non ottimale.
SVG di un panda che tiene un burger: Output di bassa qualità.
Pokéball in Three.js: Accettabile, sebbene lo sfondo possa essere migliorato.
Scacchiera con autoplay: Non ha funzionato.
Scena in stile Minecraft nello stile Kandinsky: Qualità molto alta, una delle migliori generazioni osservate.
Simulazione di farfalla: Fisica realistica e fedeltà visiva impressionante.
Strumento CI in Rust e script Blender: Entrambi hanno prodotto codice solido e utilizzabile.
Domande di matematica e indovinelli: Risposte corrette, contribuendo a un punteggio del 74 % nei test di ragionamento generale—ancora al di sotto dei checkpoint di Gemini 3 Pro.

Benchmark Agenti

Utilizzando l’interfaccia Kilo Code (che integra i modelli Claude senza soluzione di continuità), Opus 4.5 ha eccelso in diversi compiti di sviluppo end‑to‑end:

App tracker di film Expo (API TMDB): Generata un’interfaccia UI completamente funzionale con navigazione e gestione dati.
Calcolatrice terminale in Go (Bubble Tea): Codice pulito e funzionante.
Prototipo di gioco “Godo”: Funzionale, ma gli elementi UI (barra della salute, contatore di passi) erano posizionati male.
Modifica di repository open‑source: Aggiunto un comando SVG in un’unica modifica precisa.
App di gestione task Spelt: Implementati login, creazione board, storage SQLite e funzionalità CRUD completa.
Applicazioni Next.js e Tari: Entrambe eseguite senza problemi rilevanti.

Questi risultati hanno collocato Opus 4.5 al primo posto della classifica Agentic.

Confronto con Gemini 3

Mentre Opus 4.5 offre capacità di backend e debugging superiori, la sua produzione front‑end resta indietro rispetto a Gemini 3, che genera costantemente design UI più puliti (ad es. meno artefatti “viola”). Un flusso di lavoro pratico potrebbe prevedere:

Usare Opus 4.5 per logica di backend, integrazione API e lavori algoritmici complessi.
Passare a Gemini 3 per rifinire componenti front‑end e design visivo.

Anche le considerazioni di costo sono rilevanti. Gemini 3 ottiene un punteggio del 71,4 % per circa 8 $, mentre Opus 4.5 raggiunge il 77,1 % a circa 48 $. Il boost di prestazioni comporta un prezzo più alto, rendendo Opus 4.5 più adatto a scenari in cui il budget è meno vincolato e sono richiesti risultati di alto livello.

Punti di Forza e Limiti

Punti di forza

Precisione eccezionale nella programmazione su più linguaggi.
Elevate prestazioni agentiche per compiti di sviluppo end‑to‑end.
Metriche di sicurezza e robustezza migliorate.
Prezzo dei token più basso rispetto alle versioni precedenti di Opus.

Limiti

La generazione front‑end produce ancora estetiche UI sub‑ottimali.
Costo complessivo più elevato rispetto a modelli concorrenti come Gemini 3.
Alcuni output creativi (es. grafiche SVG) rimangono incoerenti.

Conclusione

Claude Opus 4.5 rappresenta un salto significativo per Anthropic, offrendo una competenza di coding all’avanguardia, solide capacità agentiche e una sicurezza potenziata, il tutto a un prezzo dei token più accessibile rispetto ai modelli precedenti. Sebbene la sua produzione front‑end e il rapporto costo‑prestazioni siano ancora dietro a Gemini 3, Opus 4.5 eccelle nello sviluppo backend e nei compiti di ragionamento complesso. Per sviluppatori e organizzazioni che privilegiano una generazione backend robusta e sono disposti a investire in prestazioni di alto livello, Opus 4.5 è una scelta convincente. Accoppiarlo con un modello focalizzato sul front‑end come Gemini 3 può fornire un flusso di lavoro equilibrato e conveniente per lo sviluppo full‑stack.