Modelo de Uso de Computador Google Gemini 2.5 surge como principal agente de automação web.
Modelo de Uso de Computador Google Gemini 2.5 surge como principal agente de automação web.
Introdução
Enquanto a comunidade de IA aguardava ansiosamente o Gemini 3, o Google surpreendeu os desenvolvedores ao lançar o Gemini 2.5 Computer Use. Construído sobre a arquitetura Gemini 2.5 Pro, este modelo foi ajustado para interação com navegadores web e promete rivalizar com os agentes existentes da Anthropic e da OpenAI. Em conjunto com ferramentas como Browserbase e Playwright, o Gemini 2.5 Computer Use pode navegar em sites, testar interfaces de usuário e executar uma variedade de tarefas baseadas na web de forma automática.
O que é o Gemini 2.5 Computer Use?
O Gemini 2.5 Computer Use é uma versão especializada do modelo Gemini 2.5 Pro que se concentra em entender e interagir com navegadores web. Ao contrário dos LLMs de propósito geral, ele ainda não está otimizado para navegação em nível de sistema operacional, o que a equipe afirma ser uma escolha deliberada — a maioria dos usuários precisa mais de automação web do que de controle de desktop.
Principais recursos
- Ajustado para navegação web – destaca‑se em navegação de páginas, preenchimento de formulários e inspeção de UI.
- Inferência rápida – mantém a velocidade do Gemini 2.5 Pro, tornando‑o adequado para tarefas em tempo real.
- Janela de contexto ampla – suporta até 128 000 tokens, embora o preço siga o modelo de nível superior Sonnet nessa escala.
- Integração via API – acessado por meio de um endpoint dedicado que espelha a abordagem da Anthropic para agentes habilitados por ferramentas.
Integração com cadeias de ferramentas existentes
O Google colaborou com a Browserbase para oferecer uma implementação de referência chamada Agent Quick Start. O fluxo de trabalho envolve clonar o repositório, instalar dependências, definir a chave da API Gemini e invocar o script principal com uma consulta em linguagem natural.
Os desenvolvedores também podem configurar o agente para ser executado dentro de navegadores sandbox ou outros ambientes isolados. O suporte futuro de plataformas como Kilo, Rue e Klein permitirá que o modelo verifique componentes de UI e automatize pipelines de teste diretamente nesses ecossistemas.
Passos para iniciar rapidamente
- Clone o repositório Agent Quick Start.
- Instale os pacotes Python/Node necessários.
- Adicione suas credenciais da API Gemini.
- Execute o script principal com a descrição da tarefa (ex.: “Verificar o fluxo de login em example.com”).
Desempenho e benchmarks
Como o Gemini 2.5 Computer Use foi construído especificamente para navegação web, benchmarks tradicionais de nível de SO não estão disponíveis. Testes internos iniciais mostram que ele supera o Gemini 2.5 em tarefas centradas na web e iguala ou ultrapassa a velocidade de agentes concorrentes para cargas de trabalho semelhantes.
Um experimento notável envolveu pedir ao modelo que resolvesse o puzzle diário do Wordle. O modelo falhou, evidenciando que quebra‑cabeças de raciocínio complexo ainda são desafiadores para os agentes atuais. Contudo, para navegação rotineira, extração de dados e validação de UI, o modelo funciona de forma confiável.
Casos de uso e limitações
Cenários ideais
- Teste automatizado de UI – verifica se componentes são renderizados corretamente e se interações se comportam como esperado.
- Coleta de dados web – extrai informações estruturadas sem a necessidade de escrever raspadores personalizados.
- Automação de tarefas – preenche formulários, clica em botões e navega por fluxos de trabalho de múltiplas etapas.
- Suporte a ferramentas de codificação assistida por IA – fornece contexto navegando por documentação ou repositórios de exemplo.
Restrições atuais
- Sem controle em nível de SO – não pode manipular arquivos, lançar aplicativos de desktop ou executar automação em todo o sistema.
- Preço equiparado ao Sonnet – embora seja mais barato para tarefas pequenas, o custo escala para o nível Sonnet em janelas de contexto grandes.
- Complexidade de integração – ao contrário da abordagem de endpoint único do Sonnet, o Gemini 2.5 Computer Use exige o manuseio de uma rota de API separada, o que pode complicar pipelines com múltiplas ferramentas.
- Implementações comunitárias limitadas – poucos projetos de código aberto integraram totalmente o modelo além do quick‑start de referência.
Comparação com agentes concorrentes
Recurso | Gemini 2.5 Computer Use | Anthropic Claude (com uso de ferramentas) | OpenAI GPT‑4o (Computer Use) |
---|---|---|---|
Foco principal | Automação de navegadores web | Propósito geral com plugins de ferramentas | Propósito geral com API de uso de computador |
Velocidade | Rápida (herda Gemini 2.5 Pro) | Comparável, varia conforme o modelo | Rápida, otimizada para chat |
Janela de contexto | Até 128 k tokens | Até 100 k tokens (varia) | Até 128 k tokens |
Preço (contexto grande) | Igual ao Sonnet | Estruturado em camadas, geralmente mais alto | Estruturado em camadas, similar ao Sonnet |
Suporte de ecossistema | Browserbase, Kilo/Rue/Klein (em breve) | API Anthropic, ferramentas de terceiros limitadas | API OpenAI, ferramentas de terceiros limitadas |
No geral, o Gemini 2.5 Computer Use oferece a experiência de automação web mais dedicada entre os três, embora fique atrás em maturidade de ecossistema.
Perspectivas futuras
O potencial do modelo depende de uma integração mais ampla em ferramentas de desenvolvedor. Se o Google o incorporar ao Gemini CLI ou o empacotar com assistentes de codificação baseados em IA populares, a adoção pode acelerar drasticamente. Além disso, expandir o suporte para ações em nível de SO transformaria o agente de um bot web de nicho em um assistente pessoal completo.
Conclusão
Gemini 2.5 Computer Use representa um avanço significativo no portfólio de IA do Google, oferecendo um agente rápido e ajustado para navegação web e teste de UI. Embora as limitações atuais — como a ausência de controle em nível de SO e custos mais altos em contextos extensos — moderen seu apelo, o modelo já supera muitas soluções existentes em tarefas centradas no navegador. Desenvolvedores que buscam automação confiável para fluxos de trabalho baseados na web o encontrarão atraente, especialmente à medida que a integração com plataformas como Kilo, Rue e Klein amadureça. O verdadeiro teste será a rapidez com que o Google conseguirá incorporar essa capacidade a ecossistemas de ferramentas mais amplos e se lançamentos futuros, como o aguardado Gemini 3, ampliarão seu alcance além do navegador.