spdup.net

Tech-Nachrichten

Anthropic Claude Opus 4.5 Review – Leistung, Preisgestaltung und reale Benchmarks


Anthropic Claude Opus 4.5 Review – Leistung, Preisgestaltung und reale Benchmarks

Einführung

Anthropic hat gerade Claude Opus 4.5 veröffentlicht, das neueste Flaggschiff‑Modell, das sich auf Programmierung, autonome Agenten und den realen Computereinsatz konzentriert. Als direkter Konkurrent zu Googles Gemini 3 Pro positioniert, verspricht Opus 4.5 nicht nur höhere Leistungen bei technischen Aufgaben, sondern auch einen deutlich niedrigeren Preis. In diesem Artikel zerlegen wir die Preisgestaltung, Benchmark‑Ergebnisse und Praxis‑Tests, um zu prüfen, ob Opus 4.5 dem Hype gerecht wird.

Preisgestaltung und Kosteneffizienz

Eine der auffälligsten Änderungen bei Opus 4.5 ist die dramatische Senkung der Token‑Kosten:

  • Eingabetoken: 5 $ pro Million (statt 15 $)
  • Ausgabetoken: 25 $ pro Million (statt 75 $)

Durch diese Preisverschiebung wird das Modell für tägliche Workloads weitaus zugänglicher, insbesondere für Entwickler, die die API‑Nutzung erschwinglich halten müssen. Anthropic gibt zudem Hinweise, wie man die Kontextlänge reduziert, um die Kosten weiter zu senken – ein klares Zeichen für praxisorientierte, kostenbewusste Einsätze.

Benchmark‑Leistung

Programmier‑Benchmarks

Opus 4.5 zeigt beeindruckende Fortschritte in einer Reihe von Programmier‑Evaluierungen:

  • Ader Polyglot: 89,4 % Erfolg vs. Sonnet 4.5 mit 78,8 %
  • Aentic Coding SBench: 80,9 % vs. Sonnet 4.5 mit 77,2 % und Opus 4.1 mit 74,5 %
  • Terminal Bench 2.0: 59,3 % (gegenüber Opus 4.1 mit 46,5 %)
  • Multilingual Coding (C, Go, Java, JS/TS, PHP, Ruby, Rust): Opus 4.5 liegt vor Sonnet 4.5 und Opus 4.1 mit höheren Pass‑Raten und engeren Fehlermargen.

Agentische und Langzeit‑Kohärenz‑Benchmarks

  • Vending Bench (Langzeit‑Kohärenz): Kosten steigen von 3.849,74 $ (Sonnet 4.5) auf 4.967,6 $ für Opus 4.5, was stabile Leistung über längere Durchläufe hinweg anzeigt.
  • Browse‑Comp‑Plus: 72,9 % Erfolg vs. Sonnet 4.5 mit 67,2 % bei Nutzung von Tool‑Ergebnis‑Bereinigung, Speicher und Kontext‑Reset.

Sicherheit und Robustheit

Auch die Sicherheitsmetriken verbessern sich:

  • Problematisches Verhalten: sinkt auf ~10 % bei Opus 4.5, niedriger als bei Sonnet 4.5 und konkurrierenden Frontier‑Modellen.
  • Anfälligkeit für Prompt‑Injection (K=1): 4,7 % bei Opus 4.5 vs. 7,3 % bei Sonnet 4.5; das niedrigste Ergebnis aller getesteten Modelle.

Schlussfolgerung und Allgemeine Intelligenz

Abseits reiner Programmierung bleibt Opus 4.5 bei schweren Reasoning‑Aufgaben wettbewerbsfähig:

  • ARC‑AI2: 37,6 % (ein großer Sprung gegenüber Sonnet’s 13,6 %)
  • GPQA‑Diamond: 87,0 %
  • Visuelles Reasoning (MMU‑Val): 80,7 %

Praxis‑Tests

Nicht‑agentische Aufgaben

Das Modell wurde aufgefordert, verschiedene kreative Ausgaben zu erzeugen:

  • Grundriss: funktional, aber nicht optimal.
  • SVG eines Pandas mit Burger: minderwertige Ausgabe.
  • Pokéball in Three.js: akzeptabel, Hintergrund könnte verbessert werden.
  • Schachbrett mit Autoplay: funktionierte nicht.
  • Minecraft‑ähnliche Szene im Kandinsky‑Stil: sehr hohe Qualität, eine der besten beobachteten Generationen.
  • Schmetterlings‑Simulation: realistische Physik und beeindruckende visuelle Treue.
  • Rust‑CI‑Tool und Blender‑Skript: beide lieferten soliden, nutzbaren Code.
  • Mathe‑ und Rätsel‑Fragen: korrekt beantwortet, was zu 74 % bei allgemeinen Reasoning‑Tests führte – noch unter den Benchmarks von Gemini 3 Pro.

Agentische Benchmarks

Unter Nutzung der Kilo‑Code‑Schnittstelle (die Claude‑Modelle nahtlos integriert) glänzte Opus 4.5 in mehreren End‑to‑End‑Entwicklungsaufgaben:

  • Expo‑Movie‑Tracker‑App (TMDB‑API): erzeugte ein voll funktionsfähiges UI mit Navigation und Datenhandling.
  • Go‑Terminal‑Rechner (Bubble Tea): lieferte sauberen, funktionierenden Code.
  • „Godo“-Spiel‑Prototyp: funktional, aber UI‑Elemente (Lebensbalken, Schrittzähler) schlecht platziert.
  • Open‑Source‑Repository‑Modifikation: fügte einen SVG‑Befehl in einem einzigen, präzisen Edit hinzu.
  • Spelt‑Task‑Management‑App: implementierte Login, Board‑Erstellung, SQLite‑Speicherung und vollständige CRUD‑Funktionalität.
  • Next.js‑ und Tari‑Anwendungen: liefen ohne größere Probleme.

Damit belegte Opus 4.5 den Spitzenplatz auf der Agentic‑Leaderboard.

Vergleich mit Gemini 3

Während Opus 4.5 überlegene Backend‑ und Debugging‑Fähigkeiten bietet, bleibt die Front‑End‑Ausgabe hinter Gemini 3 zurück, das konsequent sauberere UI‑Designs erzeugt (z. B. weniger „lila“ UI‑Artefakte). Ein praxisnaher Workflow könnte folgendermaßen aussehen:

  1. Opus 4.5 für Backend‑Logik, API‑Integration und komplexe algorithmische Arbeiten einsetzen.
  2. Gemini 3 für das Feintuning von Front‑End‑Komponenten und visuellem Design nutzen.

Auch die Kosten spielen eine Rolle. Gemini 3 erzielt 71,4 % bei etwa 8 $, während Opus 4.5 77,1 % bei rund 48 $ erreicht. Der Leistungszuwachs kommt mit einem höheren Preis, sodass Opus 4.5 am besten für Szenarien geeignet ist, in denen das Budget weniger streng ist und Spitzenresultate gefordert werden.

Stärken und Schwächen

Stärken

  • Außergewöhnliche Programmiergenauigkeit in mehreren Sprachen.
  • Starke agentische Leistung bei End‑to‑End‑Entwicklungsaufgaben.
  • Verbesserte Sicherheits‑ und Robustheitsmetriken.
  • Niedrigere Token‑Preise im Vergleich zu früheren Opus‑Versionen.

Schwächen

  • Front‑End‑Generierung liefert noch suboptimale UI‑Ästhetik.
  • Höhere Gesamtkosten gegenüber Konkurrenzmodellen wie Gemini 3.
  • Bestimmte kreative Ausgaben (z. B. SVG‑Grafiken) bleiben inkonsistent.

Fazit

Claude Opus 4.5 stellt einen bedeutenden Sprung für Anthropic dar: modernste Programmierfähigkeiten, solide agentische Kompetenzen und erhöhte Sicherheit – alles zu einem günstigeren Token‑Preis als bei den Vorgängern. Während Front‑End‑Ausgabe und Kosten‑zu‑Leistung‑Verhältnis noch hinter Gemini 3 zurückbleiben, glänzt Opus 4.5 in Backend‑Entwicklung und komplexen Reasoning‑Aufgaben. Für Entwickler und Unternehmen, die robuste Backend‑Generierung priorisieren und bereit sind, für Spitzenleistung zu investieren, ist Opus 4.5 eine überzeugende Wahl. In Kombination mit einem front‑end‑fokussierten Modell wie Gemini 3 lässt sich ein ausgewogener, kosteneffizienter Full‑Stack‑Workflow realisieren.

Originalvideo Ansehen