spdup.net

Notícias de tecnologia

Revisão do Claude 4.5 Haiku – Por que o modelo mais recente da Anthropic deixa a desejar


Revisão do Claude 4.5 Haiku – Por que o modelo mais recente da Anthropic deixa a desejar

Introdução

A Anthropic anunciou o modelo Claude 4.5 Haiku como o próximo passo em sua linha de IA, prometendo desempenho comparável ao carro‑chefe Claude Sonnet 4 enquanto entrega um terço do custo e o dobro da velocidade. O lançamento foi apresentado como uma grande vitória para desenvolvedores que precisam de um modelo de raciocínio rápido e acessível.

Entretanto, uma série de testes práticos revela uma história muito diferente. Em tarefas de codificação, geração visual e fluxos de trabalho de agentes autônomos, o Claude 4.5 Haiku consistentemente tem desempenho inferior, muitas vezes de forma dramática. Este artigo detalha as constatações, examina a estratégia de preços e oferece alternativas para quem busca um modelo confiável e econômico.


Visão geral do Claude 4.5 Haiku

  • Posicionamento: Comercializado como um modelo “pequeno” para uso cotidiano, posicionado ao lado do Claude Opus (alto padrão) e do Claude Sonnet (faixa média).
  • Alegações: 1/3 do custo do Sonnet 4, >2× mais rápido na inferência e capacidade de codificação comparável.
  • Disponibilidade: Integrado ao Claude Code, ao aplicativo web Claude e oferecido como substituto direto do Sonnet 4 nas chamadas de API.

O material promocional destacava gráficos que sugeriam um equilíbrio suave entre velocidade, preço e capacidade. A realidade, como os testes demonstram, é bem menos favorável.


Benchmarks e testes do mundo real

Geração visual

TesteResultadoQualidade esperada
Planta baixa SVGLayout incoerente, paredes se cruzam aleatoriamenteDiagrama arquitetônico utilizável
Panda segurando um hambúrguer (SVG)Panda reconhecível, mas composição pobreIlustração limpa e bem equilibrada
Pokéball 3‑JSGeometria quebrada, código não funcionalObjeto 3‑D interativo
Renderização de tabuleiro de xadrezQuadrados desalinhados, peças ausentesRepresentação precisa do tabuleiro
Clone de Minecraft baseado na webNão funcional, ativos faltandoAmbiente sandbox jogável
Borboleta em um jardimAceitável, porém sem destaqueImagem detalhada e esteticamente agradável

Os resultados visuais eram ou totalmente inutilizáveis ou, no melhor dos casos, medíocres. Para um modelo anunciado como assistente capaz de raciocínio, tais falhas são um sinal de alerta.

Desempenho em codificação e agentes

  • Aplicativo Movie Tracker (integração Clawed Code): Retornou um erro 404; o endpoint gerado nunca se materializou.
  • Calculadora de terminal Go: Produziu erros de sintaxe e layout sem sentido, tornando a ferramenta inutilizável.
  • Protótipo do jogo Godo: Repleto de erros em tempo de execução; o código não compilou.
  • Geração de repositório de código aberto: Estruturas de arquivos consistentemente malformadas e dependências quebradas.
  • Ferramenta CLI & script Blender: Nenhum dos dois executou; ambos continham erros fatais.

Execuções repetidas (mais de cinco tentativas por teste) geraram os mesmos resultados ruins, indicando deficiências sistêmicas em vez de falhas pontuais.


Preço vs. desempenho

Os níveis de preço da Anthropic espelham a estrutura de três modelos da OpenAI:

  • Opus ≈ GPT‑5 (alto padrão)
  • Sonnet ≈ GPT‑5 (faixa média)
  • Haiku ≈ GPT‑5 Mini (baixo padrão)

Entretanto, Claude 4.5 Haiku custa aproximadamente três vezes mais que alternativas comparáveis como GLM‑4.6‑6 (≈ US$ 0,50‑1,75 por milhão de tokens) enquanto entrega ~200 % menos desempenho nos mesmos benchmarks. O ponto de preço do modelo, portanto, faz pouco sentido tanto para uso empresarial quanto para consumidores.


Por que o modelo falha

  1. Regressão nas capacidades centrais – O Sonnet 4 estabeleceu um alto padrão para assistência de codificação; o Haiku 4.5 fica aquém em praticamente todas as métricas.
  2. Público‑alvo desalinhado – O modelo parece otimizado para volume de API corporativo, não para utilidade prática, sacrificando qualidade por ganhos marginais de velocidade.
  3. Pressão estratégica – A Anthropic parece motivada a exibir modelos “baratos e rápidos” para agradar investidores, priorizando manchetes de benchmark sobre desempenho funcional.
  4. Falta de treinamento orientado a benchmarks – Diferente das versões anteriores da Anthropic, que evitavam overfitting em benchmarks, o Haiku parece ter sido afinado para métricas de custo em detrimento da habilidade prática.

Alternativas recomendadas

Se você precisa de um modelo rápido e acessível para codificação, resumir textos ou raciocínio simples, considere as seguintes opções:

  • GLM‑4.6‑6 – Assistência de codificação forte, custo de token menor e boas pontuações em benchmarks.
  • GPT‑5 Mini – Desempenho equilibrado com preço competitivo.
  • Gro Code Fast – Otimizado para geração rápida de código a um preço razoável.

Esses modelos superam consistentemente o Claude 4.5 Haiku tanto em precisão quanto em eficiência de custos.


Conclusão

O Claude 4.5 Haiku da Anthropic foi apresentado como sucessor de baixo custo e alta velocidade do Sonnet 4, mas testes extensivos mostram que ele é significativamente mais fraco em codificação, geração visual e tarefas de agentes autônomos. Seu preço não condiz com o desempenho degradado, tornando‑o uma escolha ruim para desenvolvedores e empresas.

Para quem está avaliando modelos de IA hoje, as evidências sugerem evitar o Haiku 4.5 e optar por alternativas comprovadas como GLM‑4.6‑6, GPT‑5 Mini ou Gro Code Fast. Essas opções entregam a velocidade e a acessibilidade prometidas sem sacrificar a confiabilidade que os fluxos de trabalho modernos de IA exigem.

Assistir Vídeo Original