19/11/2025

Gemini 3 Pro domina novos benchmarks agentic, supera Sonnet e GPT‑5.1 nos testes de codificação.

Introdução

O lançamento mais recente do Gemini 3 Pro rapidamente se tornou um referência no cenário de programação assistida por IA. Em uma série de testes rigorosos — que vão de desafios clássicos de codificação a fluxos de trabalho agentes complexos — o Gemini 3 Pro não apenas obteve pontuações perfeitas nos benchmarks estabelecidos, como também superou rivais de destaque como Claude Sonnet, Claude Opus e GPT‑5.1 CodeX. Este artigo detalha a nova suíte de benchmarks, a metodologia por trás das pontuações e as implicações práticas para desenvolvedores que buscam assistência de IA de alto desempenho e custo‑efetivo.

Nova Suíte de Benchmark

Para avaliar o Gemini 3 Pro além do tradicional Kingbench 2.0, foram introduzidos dois benchmarks adicionais:

Benchmark GDscript – 60 questões focadas na linguagem de script nativa do motor de jogos open‑source Godot, GDscript. Cada tarefa é validada com testes unitários e um juiz LLM que avalia a qualidade do código.
Benchmark Spelt – Projetado para medir a capacidade do modelo de gerar código para o framework Spelt, também pontuado via testes unitários e um juiz LLM.

Ambos os benchmarks visam expor fraquezas que muitos grandes modelos de linguagem (LLMs) apresentam ao lidar com linguagens de nicho ou específicas de domínio.

Metodologia de Pontuação e Índice de Inteligência

Cada benchmark gera uma pontuação bruta que é então combinada em um Índice de Inteligência — uma média ponderada que enfatiza a proficiência em codificação. O índice também incorpora uma análise custo‑benefício baseada nos custos reais de uso da API.

Modelo	Índice de Inteligência	Kingbench 2.0	Benchmark GDscript	Benchmark Spelt
Gemini 3 Pro	60,4	100 % (perfeito)	20,8	83,3
Claude Sonnet	37,5	50 %	15,2	70,1
Claude Opus	34,9	45 %	14,9	68,4
GPT‑5.1 CodeX	31,3	40 %	13,7	65,0

O gráfico custo‑benefício mostrou que o Gemini 3 Pro completou toda a suíte por apenas US$ 2,85, valor notavelmente inferior ao gasto do Sonnet em execuções comparáveis.

Benchmarks Agentes com Kilo Code

Além da geração estática de código, a avaliação também cobriu tarefas agentes — cenários em que o modelo orquestra uma sequência de ações, como construir aplicações completas a partir de uma descrição. Todos os testes foram realizados usando Kilo Code, um framework agente popular que se integra diretamente ao Gemini 3 Pro via API preview.

Principais Casos de Teste Agente

Aplicativo Movie Tracker – Gerou uma página inicial funcional e páginas internas. A saída foi concisa e exigiu pouca pós‑processamento.
Extensão de Jogo FPS no Godot – Adicionou um contador de passos e uma barra de vida que respondia a ações de salto. O modelo expôs corretamente as configurações de alvo de passos.
Calculadora TUI em Go – Produziu uma calculadora de interface de terminal totalmente operacional, com aritmética precisa e navegação fluida.
Aplicação Spelt – Entregou uma UI funcional, embora menos polida que a do Sonnet; ainda assim, a funcionalidade central permaneceu intacta.
Desafio Open‑Code – Historicamente dominado por agentes multi‑modelo como CodeBuff, o Gemini 3 Pro teve sucesso, lidando com geração de SVG e estética de UI sem incorrer em altos custos.
Aplicativo Nux – Gerou código extenso que falhou ao iniciar devido a inúmeros erros de tempo de execução; essa falha refletiu o desempenho dos modelos concorrentes.
Ferramenta de Imagem Tari – Implementou uma interface robusta para navegação, recorte e anotação de imagens, demonstrando forte capacidade de geração.

No geral, o Gemini 3 Pro alcançou uma taxa de sucesso de 71,4 % no ranking agente, ultrapassando a marca de 70 % pela primeira vez e superando o anteriormente dominante sistema CodeBuff.

Disponibilidade e Integração

Embora o Gemini 3 Pro ainda não esteja acessível pelo CLI público do Gemini (os planos gratuito e pro estão em lista de espera), desenvolvedores podem invocar o modelo via API ou através do editor anti‑gravidade, que oferece acesso gratuito. A integração do modelo com o Kilo Code exigiu apenas uma simples alteração de configuração para selecionar o modelo preview.

Implicações para Desenvolvedores

Maior Produtividade: Pontuações perfeitas em benchmarks clássicos e resultados fortes em tarefas agentes sugerem que o Gemini 3 Pro pode lidar tanto com geração de código isolada quanto com orquestração de fluxos de trabalho complexos.
Eficiência de Custos: Com menos de US$ 3 para uma suíte completa de testes, o modelo apresenta uma proposta de valor atraente para equipes que precisam de assistência de IA escalável sem inflacionar o orçamento.
Flexibilidade de Domínio: O sucesso nos benchmarks GDscript e Spelt indica que o Gemini 3 Pro consegue se adaptar a ambientes de programação de nicho, um ponto crítico para muitos LLMs.
Espaço para Aperfeiçoamento: A falha no aplicativo Nux e as alucinações ocasionais em sequências agentes mais longas destacam áreas onde engenharia de prompts ou ajustes de nível de sistema podem melhorar ainda mais a confiabilidade.

Conclusão

O regime de testes abrangente demonstra que o Gemini 3 Pro estabeleceu um novo padrão para assistência de codificação impulsionada por IA. Com desempenho perfeito no Kingbench, pontuações máximas nos recém‑introduzidos benchmarks GDscript e Spelt, e uma taxa recorde de 71,4 % de sucesso em tarefas agentes, o modelo supera concorrentes estabelecidos tanto em capacidade quanto em custo.

Para desenvolvedores e organizações que desejam integrar IA em seus pipelines de desenvolvimento, o Gemini 3 Pro oferece uma combinação poderosa de precisão, versatilidade e acessibilidade — tornando‑se um forte candidato para fluxos de trabalho de codificação de próxima geração.