25/11/2025

Revisão do Anthropic Claude Opus 4.5 – Desempenho, Preço e Benchmarks do Mundo Real

Introdução

A Anthropic acabou de lançar o Claude Opus 4.5, seu mais novo modelo‑estrela voltado para programação, agentes autônomos e uso de computador no mundo real. Posicionado como concorrente direto do Gemini 3 Pro, da Google, o Opus 4.5 promete não apenas desempenho superior em tarefas técnicas, mas também um preço consideravelmente mais baixo. Neste artigo analisamos a precificação do modelo, os resultados em benchmarks e os testes práticos para ver se o Opus 4.5 corresponde à expectativa.

Precificação e Eficiência de Custos

Uma das mudanças mais notáveis no Opus 4.5 é a drástica redução nos custos por token:

Tokens de entrada: US$ 5 por milhão (antes US$ 15)
Tokens de saída: US$ 25 por milhão (antes US$ 75)

Essa alteração torna o modelo muito mais acessível para cargas de trabalho diárias, especialmente para desenvolvedores que precisam manter o uso da API dentro do orçamento. A Anthropic também oferece orientações para reduzir o comprimento do contexto, diminuindo ainda mais os custos, o que demonstra foco em implantações práticas e conscientes de preço.

Desempenho em Benchmarks

Benchmarks de Programação

O Opus 4.5 apresenta ganhos impressionantes em diversas avaliações de codificação:

Ader Polyglot: 89,4 % de sucesso vs. 78,8 % do Sonnet 4.5
Aentic Coding SBench: 80,9 % vs. 77,2 % do Sonnet 4.5 e 74,5 % do Opus 4.1
Terminal Bench 2.0: 59,3 % (acima dos 46,5 % do Opus 4.1)
Codificação Multilíngue (C, Go, Java, JS/TS, PHP, Ruby, Rust): Opus 4.5 lidera Sonnet 4.5 e Opus 4.1 com taxas de aprovação mais altas e intervalos de erro menores.

Benchmarks de Coerência de Longo Prazo e Agentes

Vending Bench (coerência de longo prazo): O custo sobe de US$ 3.849,74 (Sonnet 4.5) para US$ 4.967,60 no Opus 4.5, indicando desempenho estável em execuções prolongadas.
Browse‑Comp‑Plus: 72,9 % de sucesso vs. 67,2 % do Sonnet 4.5 quando combinados com limpeza de resultados de ferramentas, memória e reinicialização de contexto.

Segurança e Robustez

As métricas de segurança também melhoram:

Comportamento preocupante: cai para ~10 % no Opus 4.5, inferior ao Sonnet 4.5 e aos modelos concorrentes da Frontier.
Susceptibilidade a injeção de prompt (K=1): 4,7 % no Opus 4.5 vs. 7,3 % no Sonnet 4.5; continua sendo a menor taxa entre os modelos testados.

Raciocínio e Inteligência Geral

Fora da codificação pura, o Opus 4.5 se mantém competitivo em tarefas de raciocínio intenso:

ARC‑AI2: 37,6 % (um salto grande em relação aos 13,6 % do Sonnet)
GPQA‑Diamond: 87,0 %
Raciocínio Visual (MMU‑Val): 80,7 %

Testes no Mundo Real

Tarefas Não‑Agentes

O modelo foi solicitado a gerar diferentes tipos de conteúdo criativo:

Planta baixa: funcional, mas não ótima.
SVG de um panda segurando um hambúrguer: saída de baixa qualidade.
Pokéball em Three.js: aceitável, embora o fundo pudesse ser melhorado.
Tabuleiro de xadrez com autoplay: não funcionou.
Cena ao estilo Minecraft em estilo Kandinsky: qualidade muito alta, uma das melhores gerações observadas.
Simulação de borboleta: física realista e fidelidade visual impressionante.
Ferramenta CI em Rust e script Blender: ambos produziram código sólido e utilizável.
Questões de matemática e enigmas: respostas corretas, contribuindo para 74 % de acerto em testes gerais de raciocínio — ainda abaixo dos marcos do Gemini 3 Pro.

Benchmarks Agentes

Usando a interface Kilo Code (que integra os modelos Claude de forma fluida), o Opus 4.5 destacou‑se em várias tarefas de desenvolvimento ponta‑a‑ponta:

Aplicativo de rastreamento de filmes (API TMDB): gerou UI totalmente funcional com navegação e tratamento de dados.
Calculadora de terminal em Go (Bubble Tea): produziu código limpo e funcional.
Protótipo de jogo “Godo”: funcional, porém elementos de UI (barra de vida, contador de passos) estavam mal posicionados.
Modificação de repositório open‑source: adicionou um comando SVG em um único e preciso commit.
Aplicativo de gerenciamento de tarefas Spelt: implementou login, criação de quadros, armazenamento SQLite e CRUD completo.
Aplicações Next.js e Tari: ambas rodaram sem problemas maiores.

Esses resultados colocaram o Opus 4.5 no topo do ranking de agentes.

Comparação com Gemini 3

Embora o Opus 4.5 ofereça capacidades superiores de backend e depuração, sua geração de front‑end ainda fica atrás do Gemini 3, que consistentemente produz designs de UI mais limpos (por exemplo, menos artefatos “roxos”). Um fluxo de trabalho prático poderia ser:

Usar o Opus 4.5 para lógica de backend, integração de APIs e trabalhos algorítmicos complexos.
Mudar para o Gemini 3 na fase de polimento de componentes front‑end e design visual.

Questões de custo também são relevantes. O Gemini 3 atinge 71,4 % de pontuação por cerca de US$ 8, enquanto o Opus 4.5 chega a 77,1 % por aproximadamente US$ 48. O ganho de desempenho vem com um preço mais alto, tornando o Opus 4.5 mais adequado para cenários onde o orçamento é menos restrito e resultados de alto nível são imprescindíveis.

Pontos Fortes e Limitações

Pontos Fortes

Precisão excepcional em codificação em múltiplas linguagens.
Desempenho robusto em tarefas agentes de desenvolvimento ponta‑a‑ponta.
Métricas de segurança e robustez aprimoradas.
Preço de token mais baixo em relação às versões anteriores do Opus.

Limitações

Geração de front‑end ainda produz estética de UI subótima.
Custo total mais elevado comparado a modelos concorrentes como o Gemini 3.
Alguns resultados criativos (por exemplo, gráficos SVG) permanecem inconsistentes.

Conclusão

Claude Opus 4.5 representa um salto significativo para a Anthropic, oferecendo proficiência de codificação de ponta, capacidades agentes sólidas e segurança aprimorada — tudo a um preço de token mais acessível que seus predecessores. Embora sua produção de front‑end e o custo por desempenho ainda fiquem atrás do Gemini 3, o Opus 4.5 se destaca no desenvolvimento de backend e em tarefas de raciocínio complexo. Para desenvolvedores e organizações que priorizam geração robusta de backend e estão dispostos a investir em desempenho de alto nível, o Opus 4.5 é uma escolha atraente. Combiná‑lo com um modelo focado em front‑end, como o Gemini 3, pode proporcionar um fluxo de trabalho equilibrado e custo‑efetivo para desenvolvimento full‑stack.