Prévia do Gemini 3 revela pontos de verificação robustos, indícios de preços e o que esperar.
Prévia do Gemini 3 revela pontos de verificação robustos, indícios de preços e o que esperar.
Introdução
O próximo modelo de linguagem de grande escala da Google, Gemini 3, parece estar à beira de um lançamento público. Uma breve listagem do Gemini 3.0 Pro no Vertex AI — com uma data de rollout provisória “11‑2025” — sugere que o modelo pode ser lançado a qualquer momento. Depois de semanas testando uma série de checkpoints internos, compilei um resumo abrangente do que o modelo consegue fazer, onde ainda falha e como pode ser a estrutura de preços.
O Caminho até o Gemini 3: Dos Testes AB ao Caos dos Checkpoints
Pistas Iniciais no AI Studio
A primeira pista pública apareceu no AI Studio da Google, onde selecionar Gemini 2.5 Pro ocasionalmente devolvia um ID de checkpoint diferente começando com 2HTT. Os logs de rede identificaram isso como Gemini 3.0 Pro. O checkpoint surgia apenas uma vez a cada 40‑50 prompts, mas os resultados eram impressionantes:
- Layouts de plantas baixas precisos, com portas e móveis posicionados corretamente
- Um panda em SVG comendo um hambúrguer com composição adequada
- Uma Pokébola em 3‑js renderizada com iluminação realista
- Uma cena ao estilo Minecraft que estabeleceu um novo padrão para geração 3D em um único disparo
- Uma simulação de borboleta que, embora um pouco atrás do GPT‑5, ainda impressionava
- Desempenho forte em enigmas e problemas de matemática “no estilo AIME”
Esses resultados colocaram o modelo no topo da leaderboard interna do autor, entregando cerca de 25 % de melhoria em relação ao Sonnet 4.5.
O Checkpoint “Médio” – ECPT
O próximo checkpoint da Google, rotulado ECPT, parecia notavelmente enfraquecido. A qualidade da caiu em várias dimensões:
- Designs de plantas baixas perderam coerência
- O panda em SVG ficou desarticulado
- Movimentos de xadrez foram sub‑ótimos
- Iluminação em 3‑js e a cena Minecraft tornaram‑se planas e lentas
Apesar desses retrocessos, o modelo ainda superava o Sonnet na maioria das questões de matemática, sugerindo que o checkpoint era provavelmente uma variante quantizada ou de menor capacidade de raciocínio destinada a testes de rollout mais amplos.
O Retorno: Checkpoint X28
A especulação da comunidade apontou para um novo checkpoint “Pro”, posteriormente identificado como X28. Quando reavaliado com a suíte original de 11 questões mais algumas extras, o X28 apresentou um salto claro em relação ao 2HT:
- Plantas baixas tornaram‑se realmente realistas, com portas funcionais, layouts sensatos e controles de iluminação dinâmicos.
- O panda em SVG agora realmente comia o hambúrguer, em vez de apenas posar.
- As cenas de Pokébola em 3‑js apresentaram fundos mais ricos e polimento refinado.
- A cena Minecraft adicionou rios e iluminação mais limpa.
- A simulação da borboleta incluiu rochas, flores e menos artefatos de clipping.
- O CLI Rust para conversão de imagens e um script Blender produziram resultados de nível profissional.
- A demonstração de rede de grau de separação renderizou uma UI limpa sem o habitual “purple‑vibe” padrão.
- A chamada de ferramentas via o relay humano RU selecionou a primeira função corretamente.
No geral, o X28 representou uma melhoria de 5‑10 % em relação ao 2HT e um salto substancial em relação aos modelos Sonnet atuais.
Observações Principais entre os Checkpoints
- Comportamento de Variante de Pensamento – Os checkpoints mais fortes exibem um primeiro token mais lento seguido de saída constante, indicando deliberação interna mais profunda.
- Consistência – Checkpoints de ponta geram resultados quase determinísticos em prompts repetidos, vantagem importante para desenvolvedores que constroem aplicações confiáveis.
- Sensibilidade de Design – O modelo escolhe fontes, espaçamentos e layouts que parecem feitos à mão, em vez de genéricos.
- Chamada de Ferramentas – O raciocínio bruto é sólido, mas a cadeia confiável de chamadas de funções ainda é o ponto crítico para agentes de produção.
- Checkpoints Enfraquecidos – Provavelmente servem a testes de segurança, latência e escalabilidade; são úteis, mas não representam a ruptura que muitos esperavam.
Expectativas de Preço
- Paridade com Sonnet – Se a Google precificar o Gemini 3 Pro em um nível comparável ao Sonnet 4.5, os ganhos de desempenho justificam o custo.
- Preço Premium – Tarifas mais altas precisariam ser compensadas por confiabilidade superior nas chamadas de ferramentas, maior taxa de transferência e qualidade consistente em sessões longas.
- Preço Agressivo – Um ponto de preço abaixo do Sonnet poderia atrair uma grande base de usuários, especialmente considerando o ecossistema Gemini já maduro (CLI, Jewels, geradores do AI Studio).
Como o Gemini 3 se Compara com os Concorrentes
| Recurso | Gemini 3 (checkpoints fortes) | Sonnet 4.5 | GPT‑5 | Claude |
|---|---|---|---|---|
| Raciocínio espacial & disparos 3‑D únicos | ≥ Opus (topo) | Bom, mas menos consistente | Competitivo | Bom |
| Simulações de matemática & física | Competitivo, às vezes superado pelo GPT‑5 | Forte | Forte | — |
| Consistência entre regenerações | Alta (especialmente X28/2HT) | Moderada | Moderada | Moderada |
| Confiabilidade de chamada de ferramentas | Promissora, precisa de mais testes reais | Boa | Boa | Boa |
Se o lançamento público refletir os checkpoints X28 ou 2HT, o Gemini 3 pode se tornar o melhor modelo mainstream para desenvolvedores. Um lançamento semelhante ao ECPT ainda seria uma melhoria sobre o Sonnet, mas não o salto geracional que muitos antecipam.
Dicas Práticas de Benchmark
- Evite demos “estilo web” – Saídas simples de HTML/CSS são fáceis para qualquer modelo de ponta e não refletem a capacidade real.
- Pressione 3‑D + Matemática – Use cenas 3‑js que exijam cálculos reais para expor diferenças.
- Meça Consistência – Teste o mesmo prompt várias vezes; anote a latência do primeiro token e a estabilidade da saída.
- Avalie Cadeias de Chamada de Ferramentas – Verifique se o modelo pode planejar e executar chamadas de funções em múltiplas etapas, não apenas um único request de API.
Conclusão
Do checkpoint AB‑test inicial 2HT, passando pela queda com ECPT, até o forte retorno com X28, as evidências apontam para uma perspectiva cautelosamente otimista para o Gemini 3. Caso a Google entregue um modelo comparável aos checkpoints X28/2HT, os desenvolvedores finalmente terão um LLM mainstream que combina raciocínio profundo, intuição de design e uso confiável de ferramentas.
Mesmo um lançamento enfraquecido ainda superaria o Sonnet em muitos fluxos de trabalho, mas a verdadeira ruptura dependerá do checkpoint final que a Google escolher para a pré‑visualização pública. Quando o modelo chegar ao Vertex AI, um benchmark completo — incluindo economia de tokens, latência e taxas de sucesso nas chamadas de ferramentas — esclarecerá a relação preço‑desempenho.
O futuro do desenvolvimento impulsionado por IA nunca pareceu tão promissor.