spdup.net

Actualités tech

Le modèle d’utilisation d’ordinateur Google Gemini 2.5 se démarque comme le principal agent d’automatisation du Web.


Le modèle d’utilisation d’ordinateur Google Gemini 2.5 se démarque comme le principal agent d’automatisation du Web.

Introduction

Alors que la communauté IA attendait avec impatience Gemini 3, Google a surpris les développeurs en lançant Gemini 2.5 Computer Use. Basé sur l’architecture Gemini 2.5 Pro, ce modèle est affiné pour l’interaction avec les navigateurs web et promet de rivaliser avec les agents existants d’Anthropic et d’OpenAI. Associé à des outils tels que Browserbase et Playwright, Gemini 2.5 Computer Use peut parcourir des sites, des interfaces utilisateur et exécuter une variété de tâches web de façon autonome.

Qu’est‑ce que Gemini 2.5 Computer Use ?

Gemini 2.5 Computer Use est une version spécialisée du modèle Gemini 2.5 Pro qui se concentre sur la compréhension et l’interaction avec les navigateurs web. Contrairement aux LLM à usage général, il n’est pas encore optimisé pour la navigation au niveau du système d’exploitation, ce qui, selon l’équipe, est un choix délibéré — la plupart des utilisateurs ont davantage besoin d’automatisation web que de contrôle du bureau.

Fonctionnalités principales

  • Affinage pour la navigation web – excelle dans la navigation de pages, le remplissage de formulaires et l’inspection d’interfaces.
  • Inférence rapide – conserve la rapidité de Gemini 2.5 Pro, ce qui le rend adapté aux tâches en temps réel.
  • Grande fenêtre contextuelle – supporte jusqu’à 128 000 tokens, bien que le tarif corresponde à celui du modèle Sonnet de niveau supérieur à cette échelle.
  • Intégration API accessible via un point d’accès dédié qui reprend l’approche d’Anthropic pour les agents dotés d’outils.

Intégration aux chaînes d’outils existantes

Google a collaboré avec Browserbase pour fournir une implémentation de référence appelée Agent Quick Start. Le flux de travail consiste à cloner le dépôt, installer les dépendances, définir la clé d’API Gemini et lancer le script principal avec une requête en langage naturel.

Les développeurs peuvent également configurer l’agent pour qu’il s’exécute dans des navigateurs sandboxés ou d’autres environnements isolés. Un support à venir de plateformes telles que Kilo, Rue et Klein permettra au modèle de vérifier les composants UI et d’automatiser les pipelines de tests directement au sein de ces écosystèmes.

Étapes de démarrage rapide

  1. Clonez le dépôt Agent Quick Start.
  2. Installez les paquets Python/Node requis.
  3. Ajoutez vos identifiants d’API Gemini.
  4. Exécutez le script principal avec une description de tâche (par ex. « Vérifier le flux de connexion sur example.com »).

Performances et benchmarks

Comme Gemini 2.5 Computer Use est conçu spécifiquement pour la navigation web, les benchmarks classiques au niveau du système d’exploitation sont inexistants. Les premiers tests internes montrent qu’il surasse Gemini 2.5 sur les tâches centrées sur le web et égale voire dépasse la vitesse des agents concurrents pour des charges de travail similaires.

Une expérience notable a consisté à demander au modèle de résoudre le puzzle quotidien Wordle. Le modèle a échoué, soulignant que les énigmes de raisonnement complexes restent difficiles pour les agents actuels. En revanche, pour la navigation courante, l’extraction de données et la validation d’interfaces, le modèle fonctionne de façon fiable.

Cas d’usage et limites

Scénarios idéaux

  • Tests UI automatisés – vérifier que les composants s’affichent correctement et que les interactions se comportent comme prévu.
  • Collecte de données web – extraire des informations structurées sans écrire de scrapers personnalisés.
  • Automatisation de tâches – remplir des formulaires, cliquer sur des boutons et parcourir des flux de travail à plusieurs étapes.
  • Support aux outils de codage assisté par IA – fournir du contexte en parcourant la documentation ou des dépôts d’exemples.

Contraintes actuelles

  • Pas de contrôle au niveau du système d’exploitation – impossible de manipuler des fichiers, de lancer des applications de bureau ou d’effectuer une automatisation système globale.
  • Tarification équivalente à Sonnet – bien que moins cher pour les petites tâches, le coût grimpe au niveau de Sonnet pour les grandes fenêtres contextuelles.
  • Complexité d’intégration – contrairement à l’approche monopoint de Sonnet, Gemini 2.5 Computer Use nécessite la gestion d’une route API distincte, ce qui peut compliquer les pipelines multi‑outils.
  • Implémentations communautaires limitées – peu de projets open‑source ont intégré le modèle au‑delà du démarrage rapide de référence.

Comparaison avec les agents concurrents

FonctionnalitéGemini 2.5 Computer UseClaude d’Anthropic (avec usage d’outils)GPT‑4o d’OpenAI (Computer Use)
Focus principalAutomatisation de navigateurs webUsage général avec plugins d’outilsUsage général avec API Computer
VitesseRapide (hérite de Gemini 2.5 Pro)Comparable, varie selon le modèleRapide, optimisé pour le chat
Fenêtre contextuelleJusqu’à 128 k tokensJusqu’à 100 k tokens (selon le modèle)Jusqu’à 128 k tokens
Tarification (grande fenêtre)Identique à SonnetÉchelonnée, généralement plus élevéeÉchelonnée, similaire à Sonnet
Support écosystèmeBrowserbase, Kilo/Rue/Klein à venirAPI Anthropic, outils tiers limitésAPI OpenAI, outils tiers limités

Dans l’ensemble, Gemini 2.5 Computer Use offre l’expérience d’automatisation web la plus dédiée parmi les trois, bien qu’il reste en retrait sur la maturité de l’écosystème.

Perspectives

Le potentiel du modèle dépend d’une intégration plus large dans les outils développeurs. Si Google l’intègre au Gemini CLI ou le reg avec des assistants de codage IA populaires, son adoption pourrait croître de façon spectaculaire. De plus, étendre le support aux actions au niveau du système d’exploitation transformerait l’agent d’un simple bot web en un assistant personnel complet.

Conclusion

Gemini 2.5 Computer Use représente une avancée majeure pour le portefeuille IA de Google, offrant un agent rapide et finement ajusté pour la navigation web et les tests d’interfaces. Bien que les limites actuelles – absence de contrôle OS et coûts plus élevés pour les grandes fenêtres contextuelles – en atténuent l’attrait, le modèle surpasse déjà de nombreuses solutions existantes pour les tâches centrées sur le navigateur. Les développeurs cherchant une automatisation fiable pour des flux de travail web y trouveront un atout, surtout à mesure que l’intégration avec des plateformes comme Kilo, Rue et Klein se consolide. Le vrai test sera la rapidité avec laquelle Google pourra intégrer cette capacité dans des écosystèmes d’outils plus larges et si les futures versions, comme le tant attendu Gemini 3, étendront son champ d’action au‑delà du navigateur.

Voir la Vidéo Originale