19/11/2025

Gemini 3 Pro domina los nuevos benchmarks agenticos y supera a Sonnet y GPT‑5.1 en pruebas de codificación.

Introducción

El último lanzamiento de Gemini 3 Pro se ha convertido rápidamente en un referente en el ámbito de la codificación asistida por IA. En una serie de pruebas rigurosas —desde desafíos clásicos de programación hasta flujos de trabajo agentes complejos— Gemini 3 Pro no solo obtuvo puntuaciones perfectas en los benchmarks establecidos, sino que también superó a rivales líderes como Claude Sonnet, Claude Opus y GPT‑5.1 CodeX. Este artículo desglosa la nueva suite de benchmarks, la metodología detrás de las puntuaciones y las implicaciones prácticas para los desarrolladores que buscan asistencia de IA de alto rendimiento y coste‑efectiva.

Nueva Suite de Benchmarks

Para evaluar Gemini 3 Pro más allá del tradicional Kingbench 2.0, se introdujeron dos benchmarks adicionales:

GDscript Bench – 60 preguntas centradas en el lenguaje de scripting nativo del motor de juegos de código abierto Godot, GDscript. Cada tarea se valida con pruebas unitarias y un juez LLM que evalúa la calidad del código.
Spelt Bench – Diseñado para medir la capacidad del modelo de generar código para el framework Spelt, también puntuado mediante pruebas unitarias y un juez LLM.

Ambos benchmarks buscan exponer debilidades que muchos grandes modelos de lenguaje (LLM) presentan al trabajar con lenguajes de nicho o específicos de dominio.

Metodología de Puntuación e Índice de Inteligencia

Cada benchmark produce una puntuación bruta que luego se combina en un Índice de Inteligencia, un promedio ponderado que enfatiza la competencia en programación. El índice también incorpora un análisis precio‑rendimiento basado en los costos reales de uso de la API.

Modelo	Índice de Inteligencia	Kingbench 2.0	GDscript Bench	Spelt Bench
Gemini 3 Pro	60,4	100 % (perfecto)	20,8	83,3
Claude Sonnet	37,5	50 %	15,2	70,1
Claude Opus	34,9	45 %	14,9	68,4
GPT‑5.1 CodeX	31,3	40 %	13,7	65,0

El gráfico precio‑rendimiento mostró que Gemini 3 Pro completó toda la suite por solo $2,85, una cifra notablemente inferior al costo incurrido por Sonnet para ejecuciones comparables.

Benchmarks Agentes con Kilo Code

Más allá de la generación estática de código, la evaluación también incluyó tareas agentes —escenarios donde el modelo orquesta una secuencia de acciones, como construir aplicaciones completas a partir de una descripción. Todas las pruebas se realizaron usando Kilo Code, un framework agente popular que se integra directamente con Gemini 3 Pro a través de la API preview.

Casos de Prueba Agentes Clave

Aplicación Movie Tracker – Generó una página de inicio funcional y páginas internas. La salida fue concisa y requirió un procesamiento posterior mínimo.
Extensión de Juego FPS en Godot – Añadió un contador de pasos y una barra de salud que respondían a acciones de salto. El modelo expuso correctamente los ajustes de configuración para el objetivo de pasos.
Calculadora TUI en Go – Produjo una calculadora de interfaz de terminal totalmente operativa con aritmética precisa y navegación fluida.
Aplicación Spelt – Entregó una UI funcional pero menos pulida que la de Sonnet; sin embargo, la funcionalidad central permaneció intacta.
Desafío Open‑Code – Tradicionalmente dominado por agentes multimodelo como CodeBuff, Gemini 3 Pro tuvo éxito, manejando la generación de SVG y la estética de la UI sin incurrir en altos costos.
Aplicación Nux – Generó código extenso que no logró iniciarse debido a numerosos errores en tiempo de ejecución; esta falla reflejó el desempeño de los modelos competidores.
Herramienta de Imagen Tari – Implementó una interfaz robusta para explorar, recortar y anotar imágenes, demostrando fuertes capacidades de generación.

En conjunto, Gemini 3 Pro alcanzó una tasa de éxito del 71,4 % en la tabla de clasificación agente, superando por primera vez el umbral del 70 % y dejando atrás al previamente dominante sistema CodeBuff.

Disponibilidad e Integración

Aunque Gemini 3 Pro aún no está disponible a través del CLI público de Gemini (las versiones gratuita y pro están en lista de espera), los desarrolladores pueden invocar el modelo mediante la API o a través del editor anti‑gravedad, que ofrece acceso gratuito. La integración del modelo con Kilo Code requirió solo un cambio de configuración sencillo para seleccionar el modelo preview.

Implicaciones para los Desarrolladores

Mayor productividad: Obtener puntuaciones perfectas en benchmarks clásicos y resultados sólidos en tareas agentes sugiere que Gemini 3 Pro puede manejar tanto la generación de código aislado como la orquestación de flujos de trabajo complejos.
Eficiencia de costos: Con menos de $3 para una suite completa de pruebas, el modelo presenta una propuesta de valor atractiva para equipos que necesitan asistencia de IA escalable sin inflar los presupuestos.
Flexibilidad de dominio: El éxito en los benchmarks GDscript y Spelt indica que Gemini 3 Pro puede adaptarse a entornos de programación de nicho, un punto doloroso común para muchos LLM.
Espacio para mejorar: El fallo en la aplicación Nux y las ocasionales alucinaciones en secuencias agente más largas resaltan áreas donde la ingeniería de prompts o la afinación a nivel de sistema podrían mejorar aún más la fiabilidad.

Conclusión

El riguroso régimen de pruebas demuestra que Gemini 3 Pro ha establecido un nuevo estándar para la asistencia de codificación impulsada por IA. Con rendimiento perfecto en Kingbench, puntuaciones máximas en los benchmarks recién introducidos GDscript y Spelt, y una tasa récord del 71,4 % de éxito en tareas agentes, el modelo supera a los competidores establecidos tanto en capacidad como en costo.

Para desarrolladores y organizaciones que buscan integrar IA en sus pipelines de desarrollo, Gemini 3 Pro ofrece una combinación poderosa de precisión, versatilidad y asequibilidad, convirtiéndose en un candidato sólido para los flujos de trabajo de codificación de próxima generación.