spdup.net

Notizie tecnologiche

Il modello di utilizzo del computer Google Gemini 2.5 emerge come principale agente di automazione web.


Il modello di utilizzo del computer Google Gemini 2.5 emerge come principale agente di automazione web.

Introduzione

Mentre la comunità dell’IA attendeva con impazienza Gemini 3, Google ha sorpreso gli sviluppatori rilasciando Gemini 2.5 Computer Use. Basato sull’architettura Gemini 2.5 Pro, questo modello è stato ottimizzato per l’interazione con i browser web e promette di competere con gli agenti attuali di Anthropic e OpenAI. In combinazione con strumenti come Browserbase e Playwright, Gemini 2.5 Computer Use può navigare siti, testare interfacce utente e svolgere una varietà di compiti basati sul web in modo automatico.

Cos’è Gemini 2.5 Computer Use?

Gemini 2.5 Computer Use è una versione specializzata del modello Gemini 2.5 Pro che si concentra sull’interpretazione e l’interazione con i browser web. A differenza dei LLM a uso generico, non è ancora ottimizzato per la navigazione a livello di sistema operativo, scelta che il team definisce deliberata: la maggior parte degli utenti ha più bisogno di automazione web che di controllo del desktop.

Caratteristiche principali

  • Ottimizzato per la navigazione web – eccelle nella navigazione di pagine, nella compilazione di form e nell’ispezione di UI.
  • Inferenza rapida – mantiene la velocità di Gemini 2.5 Pro, rendendolo adatto a compiti in tempo reale.
  • Ampia finestra di contesto – supporta fino a 128 000 token, sebbene il prezzo sia allineato al modello di fascia alta Sonnet a questa scala.
  • Integrazione API – accessibile tramite un endpoint dedicato che rispecchia l’approccio di Anthropic agli agenti abilitati agli strumenti.

Integrazione con le catene di strumenti esistenti

Google ha collaborato con Browserbase per fornire un’implementazione di riferimento chiamata Agent Quick Start. Il flusso di lavoro prevede il clone del repository, l’installazione delle dipendenze, la configurazione della chiave API Gemini e l’esecuzione dello script principale con una query in linguaggio naturale.

Gli sviluppatori possono anche configurare l’agente per funzionare all’interno di browser sandbox o altri ambienti isolati. Il supporto imminente di piattaforme come Kilo, Rue e Klein consentirà al modello di verificare componenti UI e automatizzare pipeline di test direttamente all’interno di quegli ecosistemi.

Passaggi rapidi

  1. Clona il repository Agent Quick Start.
  2. Installa i pacchetti Python/Node richiesti.
  3. Aggiungi le tue credenziali API Gemini.
  4. Esegui lo script principale con una descrizione del compito (ad es. “Verifica il flusso di login su example.com”).

Prestazioni e benchmark

Poiché Gemini 2.5 Computer Use è costruito appositamente per la navigazione web, i benchmark tradizionali a livello di OS non sono disponibili. I primi test interni mostrano che supera Gemini 2.5 nei compiti incentrati sul web e eguaglia o supera la velocità degli agenti concorrenti per carichi di lavoro simili.

Un esperimento notevole ha chiesto al modello di risolvere il puzzle quotidiano di Wordle. Il modello ha fallito, evidenziando che i puzzle di ragionamento complesso rimangono difficili per gli agenti attuali. Tuttavia, per la navigazione di routine, l’estrazione di dati e la validazione di UI, il modello si comporta in modo affidabile.

Casi d’uso e limitazioni

Scenari ideali

  • Test UI automatizzati – verifica che i componenti vengano renderizzati correttamente e che le interazioni si comportino come previsto.
  • Raccolta dati web – estrai informazioni strutturate senza scrivere scraper personalizzati.
  • Automazione di compiti – compila form, clicca pulsanti e naviga flussi di lavoro a più passaggi.
  • Supporto per strumenti di codifica assistita dall’IA – fornisci contesto navigando documentazione o repository di esempio.

Vincoli attuali

  • Nessun controllo a livello di OS – non può manipolare file, avviare applicazioni desktop o eseguire automazioni a livello di sistema.
  • Parità di prezzo con Sonnet – sebbene più economico per piccoli compiti, il costo scala al livello Sonnet per finestre di contesto ampie.
  • Complessità di integrazione – a differenza dell’approccio a singolo endpoint di Sonnet, Gemini 2.5 Computer Use richiede la gestione di una rotta API separata, il che può complicare pipeline con più strumenti.
  • Implementazioni comunitarie limitate – pochi progetti open‑source hanno integrato completamente il modello oltre il quick‑start di riferimento.

Confronto con agenti concorrenti

CaratteristicaGemini 2.5 Computer UseAnthropic Claude (con uso di strumenti)OpenAI GPT‑4o (Computer Use)
Focus principaleAutomazione di browser webUso generico con plugin di strumentiUso generico con API per uso computer
VelocitàRapida (eredita Gemini 2.5 Pro)Comparabile, varia a seconda del modelloRapida, ottimizzata per chat
Finestra di contestoFino a 128 k tokenFino a 100 k token (varia)Fino a 128 k token
Prezzo (grande contesto)Stesso di SonnetA scaglioni, generalmente più altoA scaglioni, simile a Sonnet
Supporto ecosistemaBrowserbase, in arrivo Kilo/Rue/KleinAPI Anthropic, strumenti di terze parti limitatiAPI OpenAI, strumenti di terze parti limitati

Nel complesso, Gemini 2.5 Computer Use offre l’esperienza di automazione web più dedicata tra le tre soluzioni, sebbene sia indietro in termini di maturità dell’ecosistema.

Prospettive future

Il potenziale del modello dipende da una più ampia integrazione negli strumenti per sviluppatori. Se Google lo includesse nel Gemini CLI o lo confezionasse con assistenti di codifica IA popolari, l’adozione potrebbe accelerare notevolmente. Inoltre, l’estensione del supporto ad azioni a livello di OS trasformerebbe l’agente da un bot web di nicchia a un assistente personale a tutto tondo.

Conclusione

Gemini 2.5 Computer Use rappresenta un passo significativo per il portafoglio AI di Google, offrendo un agente veloce e ottimizzato per la navigazione web e il testing di UI. Sebbene le limitazioni attuali—come l’assenza di controllo a livello di OS e i costi più elevati per grandi finestre di contesto—ne attenuino l’attrattiva, il modello supera già molte soluzioni esistenti per compiti incentrati sul browser. Gli sviluppatori che cercano automazione affidabile per flussi di lavoro basati sul web lo troveranno una proposta convincente, soprattutto man mano che l’integrazione con piattaforme come Kilo, Rue e Klein maturerà. La vera sfida sarà vedere quanto rapidamente Google riuscirà a inserire questa capacità in ecosistemi di tooling più ampi e se future versioni, come il tanto atteso Gemini 3, ne estenderanno l’ambito oltre il browser.

Guarda il Video Originale