spdup.net

Noticias tecnológicas

Google Gemini 2.5, modelo de uso de computadora, se posiciona como el principal agente de automatización web.


Google Gemini 2.5, modelo de uso de computadora, se posiciona como el principal agente de automatización web.

Introducción

Mientras la comunidad de IA esperaba con ansias Gemini 3, Google sorprendió a los desarrolladores al lanzar Gemini 2.5 Computer Use. Basado en la arquitectura Gemini 2.5 Pro, este modelo está afinado para la interacción con navegadores web y promete rivalizar con los agentes existentes de Anthropic y OpenAI. Junto con herramientas como Browserbase y Playwright, Gemini 2.5 Computer Use puede navegar sitios, probar interfaces de usuario y realizar una variedad de tareas basadas en la web de forma automática.

Qué es Gemini 2.5 Computer Use?

Gemini 2.5 Computer Use es una versión especializada del modelo Gemini 2.5 Pro que se centra en entender e interactuar con navegadores web. A diferencia de los LLM de propósito general, aún no está optimizado para la navegación a nivel de sistema operativo, lo cual el equipo indica que es una decisión deliberada: la mayoría de los usuarios necesita más automatización web que control de escritorio.

Características principales

  • Afinado para la navegación web – sobresale en la navegación de páginas, completado de formularios e inspección de UI.
  • Inferencia rápida – mantiene la velocidad de Gemini 2.5 Pro, lo que lo hace apto para tareas en tiempo real.
  • Ventana de contexto amplia – soporta hasta 128 000 tokens, aunque el precio se alinea con el modelo de nivel superior Sonnet a esa escala.
  • Integración API – se accede mediante un endpoint dedicado que replica el enfoque de Anthropic para agentes habilitados con herramientas.

Integración con cadenas de herramientas existentes

Google colaboró con Browserbase para ofrecer una implementación de referencia llamada Agent Quick Start. El flujo de trabajo implica clonar el repositorio, instalar dependencias, configurar la clave API de Gemini y ejecutar el script principal con una consulta en lenguaje natural.

Los desarrolladores también pueden configurar el agente para que se ejecute dentro de navegadores sandbox o en otros entornos aislados. El próximo soporte de plataformas como Kilo, Rue y Klein permitirá que el modelo verifique componentes UI y automatice pipelines de pruebas directamente dentro de esos ecosistemas.

Pasos rápidos para comenzar

  1. Clona el repositorio Agent Quick Start.
  2. Instala los paquetes requeridos de Python/Node.
  3. Añade tus credenciales de la API de Gemini.
  4. Ejecuta el script principal con una descripción de la tarea (p. ej., “Revisa el flujo de inicio de sesión en example.com”).

Rendimiento y métricas

Como Gemini 2.5 Computer Use está construido específicamente para la navegación web, no existen métricas tradicionales a nivel de SO. Las pruebas internas tempranas muestran que supera a Gemini 2.5 en tareas centradas en la web y iguala o supera la velocidad de los agentes competidores para cargas de trabajo similares.

Un experimento notable consistió en pedir al modelo que resolviera el puzzle diario de Wordle. El modelo falló, lo que subraya que los acertijos de razonamiento complejo siguen siendo un desafío para los agentes actuales. Sin embargo, para la navegación rutinaria, extracción de datos y validación de UI, el modelo funciona de manera fiable.

Casos de uso y limitaciones

Escenarios ideales

  • Pruebas automatizadas de UI – verifica que los componentes se rendericen correctamente y que las interacciones se comporten como se espera.
  • Recopilación de datos web – extrae información estructurada sin necesidad de escribir scrapers personalizados.
  • Automatización de tareas – completa formularios, pulsa botones y navega flujos de trabajo de varios pasos.
  • Soporte para herramientas de codificación asistida por IA – aporta contexto navegando documentación o repositorios de ejemplo.

Restricciones actuales

  • Sin control a nivel de SO – no puede manipular archivos, lanzar aplicaciones de escritorio ni realizar automatizaciones a nivel del sistema.
  • Paridad de precios con Sonnet – aunque resulta más barato para tareas pequeñas, el costo escala al nivel de Sonnet para ventanas de contexto grandes.
  • Complejidad de integración – a diferencia del enfoque de endpoint único de Sonnet, Gemini 2.5 Computer Use requiere manejar una ruta API separada, lo que puede complicar pipelines con múltiples herramientas.
  • Implementaciones comunitarias limitadas – pocos proyectos de código abierto han integrado completamente el modelo más allá del quick‑start de referencia.

Comparación con agentes competidores

CaracterísticaGemini 2.5 Computer UseAnthropic Claude (con uso de herramientas)OpenAI GPT‑4o (Uso de Computadora)
Enfoque principalAutomatización de navegadores webPropósito general con complementos de herramientasPropósito general con API de uso de computadora
VelocidadRápida (hereda Gemini 2.5 Pro)Comparable, varía según el modeloRápida, optimizada para chat
Ventana de contextoHasta 128 k tokensHasta 100 k tokens (varía)Hasta 128 k tokens
Precio (gran contexto)Igual que SonnetEscalonado, generalmente más altoEscalonado, similar a Sonnet
Soporte del ecosistemaBrowserbase, próximos Kilo/Rue/KleinAPI de Anthropic, herramientas de terceros limitadasAPI de OpenAI, herramientas de terceros limitadas

En conjunto, Gemini 2.5 Computer Use ofrece la experiencia de automatización web más dedicada entre los tres, aunque queda rezagado en cuanto a madurez del ecosistema.

Mirando al futuro

El potencial del modelo depende de una integración más amplia en herramientas para desarrolladores. Si Google lo incorpora al Gemini CLI o lo empaqueta con asistentes de codificación basados en IA populares, la adopción podría acelerarse de forma dramática. Además, ampliar el soporte a acciones a nivel de SO transformaría al agente de un bot web de nicho a un asistente personal completo.

Conclusión

Gemini 2.5 Computer Use representa un paso significativo para el portafolio de IA de Google, ofreciendo un agente rápido y afinado para la navegación web y pruebas de UI. Aunque sus limitaciones actuales —como la ausencia de control a nivel de SO y los costos más altos en contextos extensos— moderan su atractivo, el modelo ya supera a muchas soluciones existentes en tareas centradas en el navegador. Los desarrolladores que busquen automatización fiable para flujos de trabajo basados en la web lo encontrarán una opción convincente, sobre todo a medida que la integración con plataformas como Kilo, Rue y Klein madure. La verdadera prueba será qué tan rápido Google pueda incrustar esta capacidad en ecosistemas de herramientas más amplios y si futuros lanzamientos, como el esperado Gemini 3, ampliarán su alcance más allá del navegador.

Ver Video Original