08/10/2025

Modelo de Uso de Computador Google Gemini 2.5 surge como principal agente de automação web.

Introdução

Enquanto a comunidade de IA aguardava ansiosamente o Gemini 3, o Google surpreendeu os desenvolvedores ao lançar o Gemini 2.5 Computer Use. Construído sobre a arquitetura Gemini 2.5 Pro, este modelo foi ajustado para interação com navegadores web e promete rivalizar com os agentes existentes da Anthropic e da OpenAI. Em conjunto com ferramentas como Browserbase e Playwright, o Gemini 2.5 Computer Use pode navegar em sites, testar interfaces de usuário e executar uma variedade de tarefas baseadas na web de forma automática.

O que é o Gemini 2.5 Computer Use?

O Gemini 2.5 Computer Use é uma versão especializada do modelo Gemini 2.5 Pro que se concentra em entender e interagir com navegadores web. Ao contrário dos LLMs de propósito geral, ele ainda não está otimizado para navegação em nível de sistema operacional, o que a equipe afirma ser uma escolha deliberada — a maioria dos usuários precisa mais de automação web do que de controle de desktop.

Principais recursos

Ajustado para navegação web – destaca‑se em navegação de páginas, preenchimento de formulários e inspeção de UI.
Inferência rápida – mantém a velocidade do Gemini 2.5 Pro, tornando‑o adequado para tarefas em tempo real.
Janela de contexto ampla – suporta até 128 000 tokens, embora o preço siga o modelo de nível superior Sonnet nessa escala.
Integração via API – acessado por meio de um endpoint dedicado que espelha a abordagem da Anthropic para agentes habilitados por ferramentas.

Integração com cadeias de ferramentas existentes

O Google colaborou com a Browserbase para oferecer uma implementação de referência chamada Agent Quick Start. O fluxo de trabalho envolve clonar o repositório, instalar dependências, definir a chave da API Gemini e invocar o script principal com uma consulta em linguagem natural.

Os desenvolvedores também podem configurar o agente para ser executado dentro de navegadores sandbox ou outros ambientes isolados. O suporte futuro de plataformas como Kilo, Rue e Klein permitirá que o modelo verifique componentes de UI e automatize pipelines de teste diretamente nesses ecossistemas.

Passos para iniciar rapidamente

Clone o repositório Agent Quick Start.
Instale os pacotes Python/Node necessários.
Adicione suas credenciais da API Gemini.
Execute o script principal com a descrição da tarefa (ex.: “Verificar o fluxo de login em example.com”).

Desempenho e benchmarks

Como o Gemini 2.5 Computer Use foi construído especificamente para navegação web, benchmarks tradicionais de nível de SO não estão disponíveis. Testes internos iniciais mostram que ele supera o Gemini 2.5 em tarefas centradas na web e iguala ou ultrapassa a velocidade de agentes concorrentes para cargas de trabalho semelhantes.

Um experimento notável envolveu pedir ao modelo que resolvesse o puzzle diário do Wordle. O modelo falhou, evidenciando que quebra‑cabeças de raciocínio complexo ainda são desafiadores para os agentes atuais. Contudo, para navegação rotineira, extração de dados e validação de UI, o modelo funciona de forma confiável.

Casos de uso e limitações

Cenários ideais

Teste automatizado de UI – verifica se componentes são renderizados corretamente e se interações se comportam como esperado.
Coleta de dados web – extrai informações estruturadas sem a necessidade de escrever raspadores personalizados.
Automação de tarefas – preenche formulários, clica em botões e navega por fluxos de trabalho de múltiplas etapas.
Suporte a ferramentas de codificação assistida por IA – fornece contexto navegando por documentação ou repositórios de exemplo.

Restrições atuais

Sem controle em nível de SO – não pode manipular arquivos, lançar aplicativos de desktop ou executar automação em todo o sistema.
Preço equiparado ao Sonnet – embora seja mais barato para tarefas pequenas, o custo escala para o nível Sonnet em janelas de contexto grandes.
Complexidade de integração – ao contrário da abordagem de endpoint único do Sonnet, o Gemini 2.5 Computer Use exige o manuseio de uma rota de API separada, o que pode complicar pipelines com múltiplas ferramentas.
Implementações comunitárias limitadas – poucos projetos de código aberto integraram totalmente o modelo além do quick‑start de referência.

Comparação com agentes concorrentes

Recurso	Gemini 2.5 Computer Use	Anthropic Claude (com uso de ferramentas)	OpenAI GPT‑4o (Computer Use)
Foco principal	Automação de navegadores web	Propósito geral com plugins de ferramentas	Propósito geral com API de uso de computador
Velocidade	Rápida (herda Gemini 2.5 Pro)	Comparável, varia conforme o modelo	Rápida, otimizada para chat
Janela de contexto	Até 128 k tokens	Até 100 k tokens (varia)	Até 128 k tokens
Preço (contexto grande)	Igual ao Sonnet	Estruturado em camadas, geralmente mais alto	Estruturado em camadas, similar ao Sonnet
Suporte de ecossistema	Browserbase, Kilo/Rue/Klein (em breve)	API Anthropic, ferramentas de terceiros limitadas	API OpenAI, ferramentas de terceiros limitadas

No geral, o Gemini 2.5 Computer Use oferece a experiência de automação web mais dedicada entre os três, embora fique atrás em maturidade de ecossistema.

Perspectivas futuras

O potencial do modelo depende de uma integração mais ampla em ferramentas de desenvolvedor. Se o Google o incorporar ao Gemini CLI ou o empacotar com assistentes de codificação baseados em IA populares, a adoção pode acelerar drasticamente. Além disso, expandir o suporte para ações em nível de SO transformaria o agente de um bot web de nicho em um assistente pessoal completo.

Conclusão

Gemini 2.5 Computer Use representa um avanço significativo no portfólio de IA do Google, oferecendo um agente rápido e ajustado para navegação web e teste de UI. Embora as limitações atuais — como a ausência de controle em nível de SO e custos mais altos em contextos extensos — moderen seu apelo, o modelo já supera muitas soluções existentes em tarefas centradas no navegador. Desenvolvedores que buscam automação confiável para fluxos de trabalho baseados na web o encontrarão atraente, especialmente à medida que a integração com plataformas como Kilo, Rue e Klein amadureça. O verdadeiro teste será a rapidez com que o Google conseguirá incorporar essa capacidade a ecossistemas de ferramentas mais amplos e se lançamentos futuros, como o aguardado Gemini 3, ampliarão seu alcance além do navegador.

Modelo de Uso de Computador Google Gemini 2.5 surge como principal agente de automação web.

Modelo de Uso de Computador Google Gemini 2.5 surge como principal agente de automação web.

Introdução

O que é o Gemini 2.5 Computer Use?

Principais recursos

Integração com cadeias de ferramentas existentes

Passos para iniciar rapidamente

Desempenho e benchmarks

Casos de uso e limitações

Cenários ideais

Restrições atuais

Comparação com agentes concorrentes

Perspectivas futuras

Conclusão

Modelo de Uso de Computador Google Gemini 2.5 surge como principal agente de automação web.

Modelo de Uso de Computador Google Gemini 2.5 surge como principal agente de automação web.