Le modèle d’utilisation d’ordinateur Google Gemini 2.5 se démarque comme le principal agent d’automatisation du Web.
Le modèle d’utilisation d’ordinateur Google Gemini 2.5 se démarque comme le principal agent d’automatisation du Web.
Introduction
Alors que la communauté IA attendait avec impatience Gemini 3, Google a surpris les développeurs en lançant Gemini 2.5 Computer Use. Basé sur l’architecture Gemini 2.5 Pro, ce modèle est affiné pour l’interaction avec les navigateurs web et promet de rivaliser avec les agents existants d’Anthropic et d’OpenAI. Associé à des outils tels que Browserbase et Playwright, Gemini 2.5 Computer Use peut parcourir des sites, des interfaces utilisateur et exécuter une variété de tâches web de façon autonome.
Qu’est‑ce que Gemini 2.5 Computer Use ?
Gemini 2.5 Computer Use est une version spécialisée du modèle Gemini 2.5 Pro qui se concentre sur la compréhension et l’interaction avec les navigateurs web. Contrairement aux LLM à usage général, il n’est pas encore optimisé pour la navigation au niveau du système d’exploitation, ce qui, selon l’équipe, est un choix délibéré — la plupart des utilisateurs ont davantage besoin d’automatisation web que de contrôle du bureau.
Fonctionnalités principales
- Affinage pour la navigation web – excelle dans la navigation de pages, le remplissage de formulaires et l’inspection d’interfaces.
- Inférence rapide – conserve la rapidité de Gemini 2.5 Pro, ce qui le rend adapté aux tâches en temps réel.
- Grande fenêtre contextuelle – supporte jusqu’à 128 000 tokens, bien que le tarif corresponde à celui du modèle Sonnet de niveau supérieur à cette échelle.
- Intégration API accessible via un point d’accès dédié qui reprend l’approche d’Anthropic pour les agents dotés d’outils.
Intégration aux chaînes d’outils existantes
Google a collaboré avec Browserbase pour fournir une implémentation de référence appelée Agent Quick Start. Le flux de travail consiste à cloner le dépôt, installer les dépendances, définir la clé d’API Gemini et lancer le script principal avec une requête en langage naturel.
Les développeurs peuvent également configurer l’agent pour qu’il s’exécute dans des navigateurs sandboxés ou d’autres environnements isolés. Un support à venir de plateformes telles que Kilo, Rue et Klein permettra au modèle de vérifier les composants UI et d’automatiser les pipelines de tests directement au sein de ces écosystèmes.
Étapes de démarrage rapide
- Clonez le dépôt Agent Quick Start.
- Installez les paquets Python/Node requis.
- Ajoutez vos identifiants d’API Gemini.
- Exécutez le script principal avec une description de tâche (par ex. « Vérifier le flux de connexion sur example.com »).
Performances et benchmarks
Comme Gemini 2.5 Computer Use est conçu spécifiquement pour la navigation web, les benchmarks classiques au niveau du système d’exploitation sont inexistants. Les premiers tests internes montrent qu’il surasse Gemini 2.5 sur les tâches centrées sur le web et égale voire dépasse la vitesse des agents concurrents pour des charges de travail similaires.
Une expérience notable a consisté à demander au modèle de résoudre le puzzle quotidien Wordle. Le modèle a échoué, soulignant que les énigmes de raisonnement complexes restent difficiles pour les agents actuels. En revanche, pour la navigation courante, l’extraction de données et la validation d’interfaces, le modèle fonctionne de façon fiable.
Cas d’usage et limites
Scénarios idéaux
- Tests UI automatisés – vérifier que les composants s’affichent correctement et que les interactions se comportent comme prévu.
- Collecte de données web – extraire des informations structurées sans écrire de scrapers personnalisés.
- Automatisation de tâches – remplir des formulaires, cliquer sur des boutons et parcourir des flux de travail à plusieurs étapes.
- Support aux outils de codage assisté par IA – fournir du contexte en parcourant la documentation ou des dépôts d’exemples.
Contraintes actuelles
- Pas de contrôle au niveau du système d’exploitation – impossible de manipuler des fichiers, de lancer des applications de bureau ou d’effectuer une automatisation système globale.
- Tarification équivalente à Sonnet – bien que moins cher pour les petites tâches, le coût grimpe au niveau de Sonnet pour les grandes fenêtres contextuelles.
- Complexité d’intégration – contrairement à l’approche monopoint de Sonnet, Gemini 2.5 Computer Use nécessite la gestion d’une route API distincte, ce qui peut compliquer les pipelines multi‑outils.
- Implémentations communautaires limitées – peu de projets open‑source ont intégré le modèle au‑delà du démarrage rapide de référence.
Comparaison avec les agents concurrents
Fonctionnalité | Gemini 2.5 Computer Use | Claude d’Anthropic (avec usage d’outils) | GPT‑4o d’OpenAI (Computer Use) |
---|---|---|---|
Focus principal | Automatisation de navigateurs web | Usage général avec plugins d’outils | Usage général avec API Computer |
Vitesse | Rapide (hérite de Gemini 2.5 Pro) | Comparable, varie selon le modèle | Rapide, optimisé pour le chat |
Fenêtre contextuelle | Jusqu’à 128 k tokens | Jusqu’à 100 k tokens (selon le modèle) | Jusqu’à 128 k tokens |
Tarification (grande fenêtre) | Identique à Sonnet | Échelonnée, généralement plus élevée | Échelonnée, similaire à Sonnet |
Support écosystème | Browserbase, Kilo/Rue/Klein à venir | API Anthropic, outils tiers limités | API OpenAI, outils tiers limités |
Dans l’ensemble, Gemini 2.5 Computer Use offre l’expérience d’automatisation web la plus dédiée parmi les trois, bien qu’il reste en retrait sur la maturité de l’écosystème.
Perspectives
Le potentiel du modèle dépend d’une intégration plus large dans les outils développeurs. Si Google l’intègre au Gemini CLI ou le reg avec des assistants de codage IA populaires, son adoption pourrait croître de façon spectaculaire. De plus, étendre le support aux actions au niveau du système d’exploitation transformerait l’agent d’un simple bot web en un assistant personnel complet.
Conclusion
Gemini 2.5 Computer Use représente une avancée majeure pour le portefeuille IA de Google, offrant un agent rapide et finement ajusté pour la navigation web et les tests d’interfaces. Bien que les limites actuelles – absence de contrôle OS et coûts plus élevés pour les grandes fenêtres contextuelles – en atténuent l’attrait, le modèle surpasse déjà de nombreuses solutions existantes pour les tâches centrées sur le navigateur. Les développeurs cherchant une automatisation fiable pour des flux de travail web y trouveront un atout, surtout à mesure que l’intégration avec des plateformes comme Kilo, Rue et Klein se consolide. Le vrai test sera la rapidité avec laquelle Google pourra intégrer cette capacité dans des écosystèmes d’outils plus larges et si les futures versions, comme le tant attendu Gemini 3, étendront son champ d’action au‑delà du navigateur.