08/10/2025

Google Gemini 2.5, modelo de uso de computadora, se posiciona como el principal agente de automatización web.

Introducción

Mientras la comunidad de IA esperaba con ansias Gemini 3, Google sorprendió a los desarrolladores al lanzar Gemini 2.5 Computer Use. Basado en la arquitectura Gemini 2.5 Pro, este modelo está afinado para la interacción con navegadores web y promete rivalizar con los agentes existentes de Anthropic y OpenAI. Junto con herramientas como Browserbase y Playwright, Gemini 2.5 Computer Use puede navegar sitios, probar interfaces de usuario y realizar una variedad de tareas basadas en la web de forma automática.

Qué es Gemini 2.5 Computer Use?

Gemini 2.5 Computer Use es una versión especializada del modelo Gemini 2.5 Pro que se centra en entender e interactuar con navegadores web. A diferencia de los LLM de propósito general, aún no está optimizado para la navegación a nivel de sistema operativo, lo cual el equipo indica que es una decisión deliberada: la mayoría de los usuarios necesita más automatización web que control de escritorio.

Características principales

Afinado para la navegación web – sobresale en la navegación de páginas, completado de formularios e inspección de UI.
Inferencia rápida – mantiene la velocidad de Gemini 2.5 Pro, lo que lo hace apto para tareas en tiempo real.
Ventana de contexto amplia – soporta hasta 128 000 tokens, aunque el precio se alinea con el modelo de nivel superior Sonnet a esa escala.
Integración API – se accede mediante un endpoint dedicado que replica el enfoque de Anthropic para agentes habilitados con herramientas.

Integración con cadenas de herramientas existentes

Google colaboró con Browserbase para ofrecer una implementación de referencia llamada Agent Quick Start. El flujo de trabajo implica clonar el repositorio, instalar dependencias, configurar la clave API de Gemini y ejecutar el script principal con una consulta en lenguaje natural.

Los desarrolladores también pueden configurar el agente para que se ejecute dentro de navegadores sandbox o en otros entornos aislados. El próximo soporte de plataformas como Kilo, Rue y Klein permitirá que el modelo verifique componentes UI y automatice pipelines de pruebas directamente dentro de esos ecosistemas.

Pasos rápidos para comenzar

Clona el repositorio Agent Quick Start.
Instala los paquetes requeridos de Python/Node.
Añade tus credenciales de la API de Gemini.
Ejecuta el script principal con una descripción de la tarea (p. ej., “Revisa el flujo de inicio de sesión en example.com”).

Rendimiento y métricas

Como Gemini 2.5 Computer Use está construido específicamente para la navegación web, no existen métricas tradicionales a nivel de SO. Las pruebas internas tempranas muestran que supera a Gemini 2.5 en tareas centradas en la web y iguala o supera la velocidad de los agentes competidores para cargas de trabajo similares.

Un experimento notable consistió en pedir al modelo que resolviera el puzzle diario de Wordle. El modelo falló, lo que subraya que los acertijos de razonamiento complejo siguen siendo un desafío para los agentes actuales. Sin embargo, para la navegación rutinaria, extracción de datos y validación de UI, el modelo funciona de manera fiable.

Casos de uso y limitaciones

Escenarios ideales

Pruebas automatizadas de UI – verifica que los componentes se rendericen correctamente y que las interacciones se comporten como se espera.
Recopilación de datos web – extrae información estructurada sin necesidad de escribir scrapers personalizados.
Automatización de tareas – completa formularios, pulsa botones y navega flujos de trabajo de varios pasos.
Soporte para herramientas de codificación asistida por IA – aporta contexto navegando documentación o repositorios de ejemplo.

Restricciones actuales

Sin control a nivel de SO – no puede manipular archivos, lanzar aplicaciones de escritorio ni realizar automatizaciones a nivel del sistema.
Paridad de precios con Sonnet – aunque resulta más barato para tareas pequeñas, el costo escala al nivel de Sonnet para ventanas de contexto grandes.
Complejidad de integración – a diferencia del enfoque de endpoint único de Sonnet, Gemini 2.5 Computer Use requiere manejar una ruta API separada, lo que puede complicar pipelines con múltiples herramientas.
Implementaciones comunitarias limitadas – pocos proyectos de código abierto han integrado completamente el modelo más allá del quick‑start de referencia.

Comparación con agentes competidores

Característica	Gemini 2.5 Computer Use	Anthropic Claude (con uso de herramientas)	OpenAI GPT‑4o (Uso de Computadora)
Enfoque principal	Automatización de navegadores web	Propósito general con complementos de herramientas	Propósito general con API de uso de computadora
Velocidad	Rápida (hereda Gemini 2.5 Pro)	Comparable, varía según el modelo	Rápida, optimizada para chat
Ventana de contexto	Hasta 128 k tokens	Hasta 100 k tokens (varía)	Hasta 128 k tokens
Precio (gran contexto)	Igual que Sonnet	Escalonado, generalmente más alto	Escalonado, similar a Sonnet
Soporte del ecosistema	Browserbase, próximos Kilo/Rue/Klein	API de Anthropic, herramientas de terceros limitadas	API de OpenAI, herramientas de terceros limitadas

En conjunto, Gemini 2.5 Computer Use ofrece la experiencia de automatización web más dedicada entre los tres, aunque queda rezagado en cuanto a madurez del ecosistema.

Mirando al futuro

El potencial del modelo depende de una integración más amplia en herramientas para desarrolladores. Si Google lo incorpora al Gemini CLI o lo empaqueta con asistentes de codificación basados en IA populares, la adopción podría acelerarse de forma dramática. Además, ampliar el soporte a acciones a nivel de SO transformaría al agente de un bot web de nicho a un asistente personal completo.

Conclusión

Gemini 2.5 Computer Use representa un paso significativo para el portafolio de IA de Google, ofreciendo un agente rápido y afinado para la navegación web y pruebas de UI. Aunque sus limitaciones actuales —como la ausencia de control a nivel de SO y los costos más altos en contextos extensos— moderan su atractivo, el modelo ya supera a muchas soluciones existentes en tareas centradas en el navegador. Los desarrolladores que busquen automatización fiable para flujos de trabajo basados en la web lo encontrarán una opción convincente, sobre todo a medida que la integración con plataformas como Kilo, Rue y Klein madure. La verdadera prueba será qué tan rápido Google pueda incrustar esta capacidad en ecosistemas de herramientas más amplios y si futuros lanzamientos, como el esperado Gemini 3, ampliarán su alcance más allá del navegador.

Google Gemini 2.5, modelo de uso de computadora, se posiciona como el principal agente de automatización web.

Google Gemini 2.5, modelo de uso de computadora, se posiciona como el principal agente de automatización web.

Introducción

Qué es Gemini 2.5 Computer Use?

Características principales

Integración con cadenas de herramientas existentes

Pasos rápidos para comenzar

Rendimiento y métricas

Casos de uso y limitaciones

Escenarios ideales

Restricciones actuales

Comparación con agentes competidores

Mirando al futuro

Conclusión

Google Gemini 2.5, modelo de uso de computadora, se posiciona como el principal agente de automatización web.

Google Gemini 2.5, modelo de uso de computadora, se posiciona como el principal agente de automatización web.