spdup.net

Tech-Nachrichten

Google Gemini 2.5‑Computer‑Use‑Modell etabliert sich als führender Web‑Automatisierungs‑Agent.


Google Gemini 2.5‑Computer‑Use‑Modell etabliert sich als führender Web‑Automatisierungs‑Agent.

Einführung

Während die KI‑Community sehnsüchtig auf Gemini 3 gewartet hat, überraschte Google die Entwickler mit der Veröffentlichung von Gemini 2.5 Computer Use. Auf der Gemini‑2.5‑Pro‑Architektur aufgebaut, ist dieses Modell für die Interaktion mit Web‑Browsern feinabgestimmt und verspricht, mit den bestehenden Agenten von Anthropic und OpenAI zu konkurrieren. In Kombination mit Werkzeugen wie Browserbase und Playwright kann Gemini 2.5 Computer Use Websites navigieren, Benutzeroberflächen testen und eine Vielzahl von webbasierten Aufgaben automatisch ausführen.

Was ist Gemini 2.5 Computer Use?

Gemini 2.5 Computer Use ist eine spezialisierte Variante des Gemini‑2.5‑Pro‑Modells, die sich auf das Verstehen und Interagieren mit Web‑Browsern konzentriert. Im Gegensatz zu allgemeineren LLMs ist es noch nicht für die Navigation auf Betriebssystem‑Ebene optimiert, was das Team bewusst so gewählt hat – die meisten Nutzer benötigen eher Web‑Automatisierung als Desktop‑Steuerung.

Kernfunktionen

  • Feinabgestimmt für das Surfen im Web – glänzt bei der Seitennavigation, dem Ausfüllen von Formularen und der Inspektion von Benutzeroberflächen.
  • Schnelle Inferenz – behält die Geschwindigkeit von Gemini 2.5 Pro bei und ist damit für Echtzeit‑Aufgaben geeignet.
  • Großes Kontextfenster – unterstützt bis zu 128 000 Token, wobei die Preisgestaltung dem höherwertigen Sonnet‑Modell in diesem Umfang entspricht.
  • API‑Integration – wird über einen dedizierten Endpunkt bereitgestellt, der Anthropics Ansatz für tool‑aktivierte Agenten nachahmt.

Integration in bestehende Toolchains

Google hat mit Browserbase zusammengearbeitet, um eine Referenzimplementierung namens Agent Quick Start bereitzustellen. Der Ablauf umfasst das Klonen des Repositories, das Installieren von Abhängigkeiten, das Setzen des Gemini‑API‑Schlüssels und das Aufrufen des Haupt‑Scripts mit einer natürlichsprachlichen Anfrage.

Entwickler können den Agenten zudem so konfigurieren, dass er in sandboxed Browsern oder anderen isolierten Umgebungen läuft. Zukünftige Unterstützung von Plattformen wie Kilo, Rue und Klein wird es dem Modell ermöglichen, UI‑Komponenten zu verifizieren und Test‑Pipelines direkt innerhalb dieser Ökosysteme zu automatisieren.

Schnellstart‑Schritte

  1. Das Agent‑Quick‑Start‑Repository klonen.
  2. Erforderliche Python‑/Node‑Pakete installieren.
  3. Die Gemini‑API‑Zugangsdaten hinzufügen.
  4. Das Haupt‑Script mit einer Aufgabenbeschreibung ausführen (z. B. „Den Login‑Ablauf auf example.com prüfen“).

Leistung und Benchmarks

Da Gemini 2.5 Computer Use speziell für die Web‑Navigation entwickelt wurde, gibt es keine traditionellen Benchmarks auf Betriebssystem‑Ebene. Frühe interne Tests zeigen, dass es Gemini 2.5 bei web‑zentrierten Aufgaben übertrifft und die Geschwindigkeit konkurrierender Agenten bei ähnlichen Workloads erreicht oder übertrifft.

Ein bemerkenswertes Experiment bestand darin, das Modell zu bitten, das tägliche Wordle‑Rätsel zu lösen. Das Modell scheiterte, was verdeutlicht, dass komplexe Denkaufgaben für aktuelle Agenten nach wie vor eine Herausforderung darstellen. Für routinemäßiges Surfen, Datenerfassung und UI‑Validierung hingegen liefert das Modell zuverlässige Ergebnisse.

Anwendungsfälle und Einschränkungen

Ideale Szenarien

  • Automatisiertes UI‑Testing – prüfen, ob Komponenten korrekt gerendert werden und Interaktionen wie erwartet funktionieren.
  • Web‑Datenerfassung – strukturierte Informationen scrapen, ohne eigene Scraper schreiben zu müssen.
  • Aufgaben‑Automatisierung – Formulare ausfüllen, Buttons klicken und mehrstufige Workflows navigieren.
  • Unterstützung für KI‑unterstützte Codierungs‑Tools – Kontext bereitstellen, indem Dokumentation oder Beispiel‑Repositories durchsucht werden.

Aktuelle Einschränkungen

  • Keine OS‑Ebene‑Steuerung – kann weder Dateien manipulieren, Desktop‑Anwendungen starten noch systemweite Automatisierung durchführen.
  • Preisparität mit Sonnet – ist zwar bei kleinen Aufgaben günstiger, die Kosten steigen bei großen Kontextfenstern auf das Niveau von Sonnet.
  • Integrationskomplexität – im Gegensatz zu Sonnets Single‑Endpoint‑Ansatz erfordert Gemini 2.5 Computer Use die Handhabung einer separaten API‑Route, was Multi‑Tool‑Pipelines verkomplizieren kann.
  • Begrenzte Community‑Implementierungen – nur wenige Open‑Source‑Projekte haben das Modell über den Referenz‑Schnellstart hinaus vollständig integriert.

Vergleich mit konkurrierenden Agenten

MerkmalGemini 2.5 Computer UseAnthropic Claude (mit Tool‑Nutzung)OpenAI GPT‑4o (Computer Use)
HauptfokusWeb‑Browser‑AutomatisierungAllgemeiner Zweck mit Tool‑PluginsAllgemeiner Zweck mit Computer‑Use‑API
GeschwindigkeitSchnell (erbt Gemini 2.5 Pro)Vergleichbar, je nach Modell unterschiedlichSchnell, für Chat optimiert
KontextfensterBis zu 128 k TokenBis zu 100 k Token (variabel)Bis zu 128 k Token
Preisgestaltung (großes Kontextfenster)Gleich wie SonnetStufenweise, meist höherStufenweise, ähnlich wie Sonnet
Ökosystem‑UnterstützungBrowserbase, kommende Kilo/Rue/KleinAnthropic‑API, begrenzte Drittanbieter‑ToolsOpenAI‑API, begrenzte Drittanbieter‑Tools

Insgesamt bietet Gemini 2.5 Computer Use das dedizierteste Web‑Automatisierungserlebnis der drei, obwohl es in der Reife des Ökosystems hinterherhinkt.

Ausblick

Das Potenzial des Modells hängt von einer breiteren Integration in Entwickler‑Tools ab. Wenn Google es in die Gemini‑CLI einbindet oder mit populären KI‑Coding‑Assistenten bündelt, könnte die Akzeptanz stark zunehmen. Darüber hinaus würde die Erweiterung des Supports auf OS‑Ebene den Agenten von einem Nischen‑Web‑Bot zu einem vollwertigen persönlichen Assistenten machen.

Fazit

Gemini 2.5 Computer Use stellt einen bedeutenden Fortschritt im KI‑Portfolio von Google dar und liefert einen schnellen, feinabgestimmten Agenten für Web‑Navigation und UI‑Testing. Zwar schmälern aktuelle Einschränkungen – wie das Fehlen von OS‑Ebene‑Steuerung und höhere Kosten bei großen Kontextgrößen – die Attraktivität, doch das Modell übertrifft bereits viele bestehende Lösungen bei browser‑zentrierten Aufgaben. Entwickler, die zuverlässige Automatisierung für web‑basierte Workflows suchen, werden es als überzeugend empfinden, zumal die Integration mit Plattformen wie Kilo, Rue und Klein reift. Die eigentliche Bewährungsprobe wird sein, wie schnell Google diese Fähigkeit in breitere Tool‑Ökosysteme einbindet und ob zukünftige Veröffentlichungen, etwa das erwartete Gemini 3, ihre Reichweite über den Browser hinaus erweitern.

Originalvideo Ansehen