Il modello di utilizzo del computer Google Gemini 2.5 emerge come principale agente di automazione web.
Il modello di utilizzo del computer Google Gemini 2.5 emerge come principale agente di automazione web.
Introduzione
Mentre la comunità dell’IA attendeva con impazienza Gemini 3, Google ha sorpreso gli sviluppatori rilasciando Gemini 2.5 Computer Use. Basato sull’architettura Gemini 2.5 Pro, questo modello è stato ottimizzato per l’interazione con i browser web e promette di competere con gli agenti attuali di Anthropic e OpenAI. In combinazione con strumenti come Browserbase e Playwright, Gemini 2.5 Computer Use può navigare siti, testare interfacce utente e svolgere una varietà di compiti basati sul web in modo automatico.
Cos’è Gemini 2.5 Computer Use?
Gemini 2.5 Computer Use è una versione specializzata del modello Gemini 2.5 Pro che si concentra sull’interpretazione e l’interazione con i browser web. A differenza dei LLM a uso generico, non è ancora ottimizzato per la navigazione a livello di sistema operativo, scelta che il team definisce deliberata: la maggior parte degli utenti ha più bisogno di automazione web che di controllo del desktop.
Caratteristiche principali
- Ottimizzato per la navigazione web – eccelle nella navigazione di pagine, nella compilazione di form e nell’ispezione di UI.
- Inferenza rapida – mantiene la velocità di Gemini 2.5 Pro, rendendolo adatto a compiti in tempo reale.
- Ampia finestra di contesto – supporta fino a 128 000 token, sebbene il prezzo sia allineato al modello di fascia alta Sonnet a questa scala.
- Integrazione API – accessibile tramite un endpoint dedicato che rispecchia l’approccio di Anthropic agli agenti abilitati agli strumenti.
Integrazione con le catene di strumenti esistenti
Google ha collaborato con Browserbase per fornire un’implementazione di riferimento chiamata Agent Quick Start. Il flusso di lavoro prevede il clone del repository, l’installazione delle dipendenze, la configurazione della chiave API Gemini e l’esecuzione dello script principale con una query in linguaggio naturale.
Gli sviluppatori possono anche configurare l’agente per funzionare all’interno di browser sandbox o altri ambienti isolati. Il supporto imminente di piattaforme come Kilo, Rue e Klein consentirà al modello di verificare componenti UI e automatizzare pipeline di test direttamente all’interno di quegli ecosistemi.
Passaggi rapidi
- Clona il repository Agent Quick Start.
- Installa i pacchetti Python/Node richiesti.
- Aggiungi le tue credenziali API Gemini.
- Esegui lo script principale con una descrizione del compito (ad es. “Verifica il flusso di login su example.com”).
Prestazioni e benchmark
Poiché Gemini 2.5 Computer Use è costruito appositamente per la navigazione web, i benchmark tradizionali a livello di OS non sono disponibili. I primi test interni mostrano che supera Gemini 2.5 nei compiti incentrati sul web e eguaglia o supera la velocità degli agenti concorrenti per carichi di lavoro simili.
Un esperimento notevole ha chiesto al modello di risolvere il puzzle quotidiano di Wordle. Il modello ha fallito, evidenziando che i puzzle di ragionamento complesso rimangono difficili per gli agenti attuali. Tuttavia, per la navigazione di routine, l’estrazione di dati e la validazione di UI, il modello si comporta in modo affidabile.
Casi d’uso e limitazioni
Scenari ideali
- Test UI automatizzati – verifica che i componenti vengano renderizzati correttamente e che le interazioni si comportino come previsto.
- Raccolta dati web – estrai informazioni strutturate senza scrivere scraper personalizzati.
- Automazione di compiti – compila form, clicca pulsanti e naviga flussi di lavoro a più passaggi.
- Supporto per strumenti di codifica assistita dall’IA – fornisci contesto navigando documentazione o repository di esempio.
Vincoli attuali
- Nessun controllo a livello di OS – non può manipolare file, avviare applicazioni desktop o eseguire automazioni a livello di sistema.
- Parità di prezzo con Sonnet – sebbene più economico per piccoli compiti, il costo scala al livello Sonnet per finestre di contesto ampie.
- Complessità di integrazione – a differenza dell’approccio a singolo endpoint di Sonnet, Gemini 2.5 Computer Use richiede la gestione di una rotta API separata, il che può complicare pipeline con più strumenti.
- Implementazioni comunitarie limitate – pochi progetti open‑source hanno integrato completamente il modello oltre il quick‑start di riferimento.
Confronto con agenti concorrenti
Caratteristica | Gemini 2.5 Computer Use | Anthropic Claude (con uso di strumenti) | OpenAI GPT‑4o (Computer Use) |
---|---|---|---|
Focus principale | Automazione di browser web | Uso generico con plugin di strumenti | Uso generico con API per uso computer |
Velocità | Rapida (eredita Gemini 2.5 Pro) | Comparabile, varia a seconda del modello | Rapida, ottimizzata per chat |
Finestra di contesto | Fino a 128 k token | Fino a 100 k token (varia) | Fino a 128 k token |
Prezzo (grande contesto) | Stesso di Sonnet | A scaglioni, generalmente più alto | A scaglioni, simile a Sonnet |
Supporto ecosistema | Browserbase, in arrivo Kilo/Rue/Klein | API Anthropic, strumenti di terze parti limitati | API OpenAI, strumenti di terze parti limitati |
Nel complesso, Gemini 2.5 Computer Use offre l’esperienza di automazione web più dedicata tra le tre soluzioni, sebbene sia indietro in termini di maturità dell’ecosistema.
Prospettive future
Il potenziale del modello dipende da una più ampia integrazione negli strumenti per sviluppatori. Se Google lo includesse nel Gemini CLI o lo confezionasse con assistenti di codifica IA popolari, l’adozione potrebbe accelerare notevolmente. Inoltre, l’estensione del supporto ad azioni a livello di OS trasformerebbe l’agente da un bot web di nicchia a un assistente personale a tutto tondo.
Conclusione
Gemini 2.5 Computer Use rappresenta un passo significativo per il portafoglio AI di Google, offrendo un agente veloce e ottimizzato per la navigazione web e il testing di UI. Sebbene le limitazioni attuali—come l’assenza di controllo a livello di OS e i costi più elevati per grandi finestre di contesto—ne attenuino l’attrattiva, il modello supera già molte soluzioni esistenti per compiti incentrati sul browser. Gli sviluppatori che cercano automazione affidabile per flussi di lavoro basati sul web lo troveranno una proposta convincente, soprattutto man mano che l’integrazione con piattaforme come Kilo, Rue e Klein maturerà. La vera sfida sarà vedere quanto rapidamente Google riuscirà a inserire questa capacità in ecosistemi di tooling più ampi e se future versioni, come il tanto atteso Gemini 3, ne estenderanno l’ambito oltre il browser.