Revisão do Anthropic Claude Opus 4.5 – Desempenho, Preço e Benchmarks do Mundo Real
Revisão do Anthropic Claude Opus 4.5 – Desempenho, Preço e Benchmarks do Mundo Real
Introdução
A Anthropic acabou de lançar o Claude Opus 4.5, seu mais novo modelo‑estrela voltado para programação, agentes autônomos e uso de computador no mundo real. Posicionado como concorrente direto do Gemini 3 Pro, da Google, o Opus 4.5 promete não apenas desempenho superior em tarefas técnicas, mas também um preço consideravelmente mais baixo. Neste artigo analisamos a precificação do modelo, os resultados em benchmarks e os testes práticos para ver se o Opus 4.5 corresponde à expectativa.
Precificação e Eficiência de Custos
Uma das mudanças mais notáveis no Opus 4.5 é a drástica redução nos custos por token:
- Tokens de entrada: US$ 5 por milhão (antes US$ 15)
- Tokens de saída: US$ 25 por milhão (antes US$ 75)
Essa alteração torna o modelo muito mais acessível para cargas de trabalho diárias, especialmente para desenvolvedores que precisam manter o uso da API dentro do orçamento. A Anthropic também oferece orientações para reduzir o comprimento do contexto, diminuindo ainda mais os custos, o que demonstra foco em implantações práticas e conscientes de preço.
Desempenho em Benchmarks
Benchmarks de Programação
O Opus 4.5 apresenta ganhos impressionantes em diversas avaliações de codificação:
- Ader Polyglot: 89,4 % de sucesso vs. 78,8 % do Sonnet 4.5
- Aentic Coding SBench: 80,9 % vs. 77,2 % do Sonnet 4.5 e 74,5 % do Opus 4.1
- Terminal Bench 2.0: 59,3 % (acima dos 46,5 % do Opus 4.1)
- Codificação Multilíngue (C, Go, Java, JS/TS, PHP, Ruby, Rust): Opus 4.5 lidera Sonnet 4.5 e Opus 4.1 com taxas de aprovação mais altas e intervalos de erro menores.
Benchmarks de Coerência de Longo Prazo e Agentes
- Vending Bench (coerência de longo prazo): O custo sobe de US$ 3.849,74 (Sonnet 4.5) para US$ 4.967,60 no Opus 4.5, indicando desempenho estável em execuções prolongadas.
- Browse‑Comp‑Plus: 72,9 % de sucesso vs. 67,2 % do Sonnet 4.5 quando combinados com limpeza de resultados de ferramentas, memória e reinicialização de contexto.
Segurança e Robustez
As métricas de segurança também melhoram:
- Comportamento preocupante: cai para ~10 % no Opus 4.5, inferior ao Sonnet 4.5 e aos modelos concorrentes da Frontier.
- Susceptibilidade a injeção de prompt (K=1): 4,7 % no Opus 4.5 vs. 7,3 % no Sonnet 4.5; continua sendo a menor taxa entre os modelos testados.
Raciocínio e Inteligência Geral
Fora da codificação pura, o Opus 4.5 se mantém competitivo em tarefas de raciocínio intenso:
- ARC‑AI2: 37,6 % (um salto grande em relação aos 13,6 % do Sonnet)
- GPQA‑Diamond: 87,0 %
- Raciocínio Visual (MMU‑Val): 80,7 %
Testes no Mundo Real
Tarefas Não‑Agentes
O modelo foi solicitado a gerar diferentes tipos de conteúdo criativo:
- Planta baixa: funcional, mas não ótima.
- SVG de um panda segurando um hambúrguer: saída de baixa qualidade.
- Pokéball em Three.js: aceitável, embora o fundo pudesse ser melhorado.
- Tabuleiro de xadrez com autoplay: não funcionou.
- Cena ao estilo Minecraft em estilo Kandinsky: qualidade muito alta, uma das melhores gerações observadas.
- Simulação de borboleta: física realista e fidelidade visual impressionante.
- Ferramenta CI em Rust e script Blender: ambos produziram código sólido e utilizável.
- Questões de matemática e enigmas: respostas corretas, contribuindo para 74 % de acerto em testes gerais de raciocínio — ainda abaixo dos marcos do Gemini 3 Pro.
Benchmarks Agentes
Usando a interface Kilo Code (que integra os modelos Claude de forma fluida), o Opus 4.5 destacou‑se em várias tarefas de desenvolvimento ponta‑a‑ponta:
- Aplicativo de rastreamento de filmes (API TMDB): gerou UI totalmente funcional com navegação e tratamento de dados.
- Calculadora de terminal em Go (Bubble Tea): produziu código limpo e funcional.
- Protótipo de jogo “Godo”: funcional, porém elementos de UI (barra de vida, contador de passos) estavam mal posicionados.
- Modificação de repositório open‑source: adicionou um comando SVG em um único e preciso commit.
- Aplicativo de gerenciamento de tarefas Spelt: implementou login, criação de quadros, armazenamento SQLite e CRUD completo.
- Aplicações Next.js e Tari: ambas rodaram sem problemas maiores.
Esses resultados colocaram o Opus 4.5 no topo do ranking de agentes.
Comparação com Gemini 3
Embora o Opus 4.5 ofereça capacidades superiores de backend e depuração, sua geração de front‑end ainda fica atrás do Gemini 3, que consistentemente produz designs de UI mais limpos (por exemplo, menos artefatos “roxos”). Um fluxo de trabalho prático poderia ser:
- Usar o Opus 4.5 para lógica de backend, integração de APIs e trabalhos algorítmicos complexos.
- Mudar para o Gemini 3 na fase de polimento de componentes front‑end e design visual.
Questões de custo também são relevantes. O Gemini 3 atinge 71,4 % de pontuação por cerca de US$ 8, enquanto o Opus 4.5 chega a 77,1 % por aproximadamente US$ 48. O ganho de desempenho vem com um preço mais alto, tornando o Opus 4.5 mais adequado para cenários onde o orçamento é menos restrito e resultados de alto nível são imprescindíveis.
Pontos Fortes e Limitações
Pontos Fortes
- Precisão excepcional em codificação em múltiplas linguagens.
- Desempenho robusto em tarefas agentes de desenvolvimento ponta‑a‑ponta.
- Métricas de segurança e robustez aprimoradas.
- Preço de token mais baixo em relação às versões anteriores do Opus.
Limitações
- Geração de front‑end ainda produz estética de UI subótima.
- Custo total mais elevado comparado a modelos concorrentes como o Gemini 3.
- Alguns resultados criativos (por exemplo, gráficos SVG) permanecem inconsistentes.
Conclusão
Claude Opus 4.5 representa um salto significativo para a Anthropic, oferecendo proficiência de codificação de ponta, capacidades agentes sólidas e segurança aprimorada — tudo a um preço de token mais acessível que seus predecessores. Embora sua produção de front‑end e o custo por desempenho ainda fiquem atrás do Gemini 3, o Opus 4.5 se destaca no desenvolvimento de backend e em tarefas de raciocínio complexo. Para desenvolvedores e organizações que priorizam geração robusta de backend e estão dispostos a investir em desempenho de alto nível, o Opus 4.5 é uma escolha atraente. Combiná‑lo com um modelo focado em front‑end, como o Gemini 3, pode proporcionar um fluxo de trabalho equilibrado e custo‑efetivo para desenvolvimento full‑stack.