spdup.net

Notícias de tecnologia

Revisão do Anthropic Claude Opus 4.5 – Desempenho, Preço e Benchmarks do Mundo Real


Revisão do Anthropic Claude Opus 4.5 – Desempenho, Preço e Benchmarks do Mundo Real

Introdução

A Anthropic acabou de lançar o Claude Opus 4.5, seu mais novo modelo‑estrela voltado para programação, agentes autônomos e uso de computador no mundo real. Posicionado como concorrente direto do Gemini 3 Pro, da Google, o Opus 4.5 promete não apenas desempenho superior em tarefas técnicas, mas também um preço consideravelmente mais baixo. Neste artigo analisamos a precificação do modelo, os resultados em benchmarks e os testes práticos para ver se o Opus 4.5 corresponde à expectativa.

Precificação e Eficiência de Custos

Uma das mudanças mais notáveis no Opus 4.5 é a drástica redução nos custos por token:

  • Tokens de entrada: US$ 5 por milhão (antes US$ 15)
  • Tokens de saída: US$ 25 por milhão (antes US$ 75)

Essa alteração torna o modelo muito mais acessível para cargas de trabalho diárias, especialmente para desenvolvedores que precisam manter o uso da API dentro do orçamento. A Anthropic também oferece orientações para reduzir o comprimento do contexto, diminuindo ainda mais os custos, o que demonstra foco em implantações práticas e conscientes de preço.

Desempenho em Benchmarks

Benchmarks de Programação

O Opus 4.5 apresenta ganhos impressionantes em diversas avaliações de codificação:

  • Ader Polyglot: 89,4 % de sucesso vs. 78,8 % do Sonnet 4.5
  • Aentic Coding SBench: 80,9 % vs. 77,2 % do Sonnet 4.5 e 74,5 % do Opus 4.1
  • Terminal Bench 2.0: 59,3 % (acima dos 46,5 % do Opus 4.1)
  • Codificação Multilíngue (C, Go, Java, JS/TS, PHP, Ruby, Rust): Opus 4.5 lidera Sonnet 4.5 e Opus 4.1 com taxas de aprovação mais altas e intervalos de erro menores.

Benchmarks de Coerência de Longo Prazo e Agentes

  • Vending Bench (coerência de longo prazo): O custo sobe de US$ 3.849,74 (Sonnet 4.5) para US$ 4.967,60 no Opus 4.5, indicando desempenho estável em execuções prolongadas.
  • Browse‑Comp‑Plus: 72,9 % de sucesso vs. 67,2 % do Sonnet 4.5 quando combinados com limpeza de resultados de ferramentas, memória e reinicialização de contexto.

Segurança e Robustez

As métricas de segurança também melhoram:

  • Comportamento preocupante: cai para ~10 % no Opus 4.5, inferior ao Sonnet 4.5 e aos modelos concorrentes da Frontier.
  • Susceptibilidade a injeção de prompt (K=1): 4,7 % no Opus 4.5 vs. 7,3 % no Sonnet 4.5; continua sendo a menor taxa entre os modelos testados.

Raciocínio e Inteligência Geral

Fora da codificação pura, o Opus 4.5 se mantém competitivo em tarefas de raciocínio intenso:

  • ARC‑AI2: 37,6 % (um salto grande em relação aos 13,6 % do Sonnet)
  • GPQA‑Diamond: 87,0 %
  • Raciocínio Visual (MMU‑Val): 80,7 %

Testes no Mundo Real

Tarefas Não‑Agentes

O modelo foi solicitado a gerar diferentes tipos de conteúdo criativo:

  • Planta baixa: funcional, mas não ótima.
  • SVG de um panda segurando um hambúrguer: saída de baixa qualidade.
  • Pokéball em Three.js: aceitável, embora o fundo pudesse ser melhorado.
  • Tabuleiro de xadrez com autoplay: não funcionou.
  • Cena ao estilo Minecraft em estilo Kandinsky: qualidade muito alta, uma das melhores gerações observadas.
  • Simulação de borboleta: física realista e fidelidade visual impressionante.
  • Ferramenta CI em Rust e script Blender: ambos produziram código sólido e utilizável.
  • Questões de matemática e enigmas: respostas corretas, contribuindo para 74 % de acerto em testes gerais de raciocínio — ainda abaixo dos marcos do Gemini 3 Pro.

Benchmarks Agentes

Usando a interface Kilo Code (que integra os modelos Claude de forma fluida), o Opus 4.5 destacou‑se em várias tarefas de desenvolvimento ponta‑a‑ponta:

  • Aplicativo de rastreamento de filmes (API TMDB): gerou UI totalmente funcional com navegação e tratamento de dados.
  • Calculadora de terminal em Go (Bubble Tea): produziu código limpo e funcional.
  • Protótipo de jogo “Godo”: funcional, porém elementos de UI (barra de vida, contador de passos) estavam mal posicionados.
  • Modificação de repositório open‑source: adicionou um comando SVG em um único e preciso commit.
  • Aplicativo de gerenciamento de tarefas Spelt: implementou login, criação de quadros, armazenamento SQLite e CRUD completo.
  • Aplicações Next.js e Tari: ambas rodaram sem problemas maiores.

Esses resultados colocaram o Opus 4.5 no topo do ranking de agentes.

Comparação com Gemini 3

Embora o Opus 4.5 ofereça capacidades superiores de backend e depuração, sua geração de front‑end ainda fica atrás do Gemini 3, que consistentemente produz designs de UI mais limpos (por exemplo, menos artefatos “roxos”). Um fluxo de trabalho prático poderia ser:

  1. Usar o Opus 4.5 para lógica de backend, integração de APIs e trabalhos algorítmicos complexos.
  2. Mudar para o Gemini 3 na fase de polimento de componentes front‑end e design visual.

Questões de custo também são relevantes. O Gemini 3 atinge 71,4 % de pontuação por cerca de US$ 8, enquanto o Opus 4.5 chega a 77,1 % por aproximadamente US$ 48. O ganho de desempenho vem com um preço mais alto, tornando o Opus 4.5 mais adequado para cenários onde o orçamento é menos restrito e resultados de alto nível são imprescindíveis.

Pontos Fortes e Limitações

Pontos Fortes

  • Precisão excepcional em codificação em múltiplas linguagens.
  • Desempenho robusto em tarefas agentes de desenvolvimento ponta‑a‑ponta.
  • Métricas de segurança e robustez aprimoradas.
  • Preço de token mais baixo em relação às versões anteriores do Opus.

Limitações

  • Geração de front‑end ainda produz estética de UI subótima.
  • Custo total mais elevado comparado a modelos concorrentes como o Gemini 3.
  • Alguns resultados criativos (por exemplo, gráficos SVG) permanecem inconsistentes.

Conclusão

Claude Opus 4.5 representa um salto significativo para a Anthropic, oferecendo proficiência de codificação de ponta, capacidades agentes sólidas e segurança aprimorada — tudo a um preço de token mais acessível que seus predecessores. Embora sua produção de front‑end e o custo por desempenho ainda fiquem atrás do Gemini 3, o Opus 4.5 se destaca no desenvolvimento de backend e em tarefas de raciocínio complexo. Para desenvolvedores e organizações que priorizam geração robusta de backend e estão dispostos a investir em desempenho de alto nível, o Opus 4.5 é uma escolha atraente. Combiná‑lo com um modelo focado em front‑end, como o Gemini 3, pode proporcionar um fluxo de trabalho equilibrado e custo‑efetivo para desenvolvimento full‑stack.

Assistir Vídeo Original