spdup.net

Notizie tecnologiche

Recensione di Anthropic Claude Opus 4.5 – Prestazioni, prezzi e benchmark reali


Recensione di Anthropic Claude Opus 4.5 – Prestazioni, prezzi e benchmark reali

Introduzione

Anthropic ha appena rilasciato Claude Opus 4.5, il suo nuovo modello di punta pensato per la programmazione, gli agenti autonomi e l’uso informatico nel mondo reale. Posizionato come diretto concorrente del Gemini 3 Pro di Google, Opus 4.5 promette non solo prestazioni superiori nei compiti tecnici, ma anche un prezzo notevolmente più basso. In questo articolo analizziamo i costi del modello, i risultati dei benchmark e i test reali per capire se Opus 4.5 è all’altezza del clamore.

Prezzi e Efficienza dei Costi

Una delle modifiche più evidenti con Opus 4.5 è la riduzione drammatica dei costi per token:

  • Token di input: 5 $ per milione (da 15 $)
  • Token di output: 25 $ per milione (da 75 $)

Questo cambiamento rende il modello molto più accessibile per carichi di lavoro quotidiani, soprattutto per gli sviluppatori che devono tenere sotto controllo i costi delle API. Anthropic fornisce anche indicazioni su come ridurre la lunghezza del contesto per contenere ulteriormente le spese, evidenziando un’attenzione verso implementazioni pratiche e consapevoli dei costi.

Prestazioni nei Benchmark

Benchmark di Programmazione

Opus 4.5 mostra guadagni impressionanti in una varietà di valutazioni di coding:

  • Ader Polyglot: 89,4 % di successo vs. 78,8 % di Sonnet 4.5
  • Aentic Coding SBench: 80,9 % vs. 77,2 % di Sonnet 4.5 e 74,5 % di Opus 4.1
  • Terminal Bench 2.0: 59,3 % (in crescita rispetto al 46,5 % di Opus 4.1)
  • Coding multilingue (C, Go, Java, JS/TS, PHP, Ruby, Rust): Opus 4.5 supera Sonnet 4.5 e Opus 4.1 con tassi di superamento più alti e intervalli di errore più stretti.

Benchmark di Coerenza a Lungo Termine e Agenti

  • Vending Bench (coerenza a lungo termine): Il costo sale da 3.849,74 $ (Sonnet 4.5) a 4.967,6 $ per Opus 4.5, indicando una performance stabile su esecuzioni prolungate.
  • Browse‑Comp‑Plus: 72,9 % di successo vs. 67,2 % di Sonnet 4.5 quando si combinano cancellazione dei risultati degli strumenti, memoria e reset del contesto.

Sicurezza e Robustezza

Anche le metriche di sicurezza migliorano:

  • Comportamento preoccupante: scende a ~10 % per Opus 4.5, inferiore a Sonnet 4.5 e ai modelli concorrenti di Frontier.
  • Susceptibilità a injection di prompt (K=1): 4,7 % per Opus 4.5 vs. 7,3 % per Sonnet 4.5; rimane il valore più basso tra i modelli testati.

Ragionamento e Intelligenza Generale

Al di fuori del puro coding, Opus 4.5 resta competitivo nei compiti di ragionamento intensivo:

  • ARC‑AI2: 37,6 % (un salto notevole rispetto al 13,6 % di Sonnet)
  • GPQA‑Diamond: 87,0 %
  • Visual Reasoning (MMU‑Val): 80,7 %

Test nel Mondo Reale

Compiti Non‑Agenti

Al modello è stato chiesto di generare vari output creativi:

  • Planimetria: Funzionale ma non ottimale.
  • SVG di un panda che tiene un burger: Output di bassa qualità.
  • Pokéball in Three.js: Accettabile, sebbene lo sfondo possa essere migliorato.
  • Scacchiera con autoplay: Non ha funzionato.
  • Scena in stile Minecraft nello stile Kandinsky: Qualità molto alta, una delle migliori generazioni osservate.
  • Simulazione di farfalla: Fisica realistica e fedeltà visiva impressionante.
  • Strumento CI in Rust e script Blender: Entrambi hanno prodotto codice solido e utilizzabile.
  • Domande di matematica e indovinelli: Risposte corrette, contribuendo a un punteggio del 74 % nei test di ragionamento generale—ancora al di sotto dei checkpoint di Gemini 3 Pro.

Benchmark Agenti

Utilizzando l’interfaccia Kilo Code (che integra i modelli Claude senza soluzione di continuità), Opus 4.5 ha eccelso in diversi compiti di sviluppo end‑to‑end:

  • App tracker di film Expo (API TMDB): Generata un’interfaccia UI completamente funzionale con navigazione e gestione dati.
  • Calcolatrice terminale in Go (Bubble Tea): Codice pulito e funzionante.
  • Prototipo di gioco “Godo”: Funzionale, ma gli elementi UI (barra della salute, contatore di passi) erano posizionati male.
  • Modifica di repository open‑source: Aggiunto un comando SVG in un’unica modifica precisa.
  • App di gestione task Spelt: Implementati login, creazione board, storage SQLite e funzionalità CRUD completa.
  • Applicazioni Next.js e Tari: Entrambe eseguite senza problemi rilevanti.

Questi risultati hanno collocato Opus 4.5 al primo posto della classifica Agentic.

Confronto con Gemini 3

Mentre Opus 4.5 offre capacità di backend e debugging superiori, la sua produzione front‑end resta indietro rispetto a Gemini 3, che genera costantemente design UI più puliti (ad es. meno artefatti “viola”). Un flusso di lavoro pratico potrebbe prevedere:

  1. Usare Opus 4.5 per logica di backend, integrazione API e lavori algoritmici complessi.
  2. Passare a Gemini 3 per rifinire componenti front‑end e design visivo.

Anche le considerazioni di costo sono rilevanti. Gemini 3 ottiene un punteggio del 71,4 % per circa 8 $, mentre Opus 4.5 raggiunge il 77,1 % a circa 48 $. Il boost di prestazioni comporta un prezzo più alto, rendendo Opus 4.5 più adatto a scenari in cui il budget è meno vincolato e sono richiesti risultati di alto livello.

Punti di Forza e Limiti

Punti di forza

  • Precisione eccezionale nella programmazione su più linguaggi.
  • Elevate prestazioni agentiche per compiti di sviluppo end‑to‑end.
  • Metriche di sicurezza e robustezza migliorate.
  • Prezzo dei token più basso rispetto alle versioni precedenti di Opus.

Limiti

  • La generazione front‑end produce ancora estetiche UI sub‑ottimali.
  • Costo complessivo più elevato rispetto a modelli concorrenti come Gemini 3.
  • Alcuni output creativi (es. grafiche SVG) rimangono incoerenti.

Conclusione

Claude Opus 4.5 rappresenta un salto significativo per Anthropic, offrendo una competenza di coding all’avanguardia, solide capacità agentiche e una sicurezza potenziata, il tutto a un prezzo dei token più accessibile rispetto ai modelli precedenti. Sebbene la sua produzione front‑end e il rapporto costo‑prestazioni siano ancora dietro a Gemini 3, Opus 4.5 eccelle nello sviluppo backend e nei compiti di ragionamento complesso. Per sviluppatori e organizzazioni che privilegiano una generazione backend robusta e sono disposti a investire in prestazioni di alto livello, Opus 4.5 è una scelta convincente. Accoppiarlo con un modello focalizzato sul front‑end come Gemini 3 può fornire un flusso di lavoro equilibrato e conveniente per lo sviluppo full‑stack.

Guarda il Video Originale