Vista previa de Gemini 3 revela checkpoints sólidos, pistas sobre precios y qué esperar.
Vista previa de Gemini 3 revela checkpoints sólidos, pistas sobre precios y qué esperar.
Introducción
El próximo modelo de lenguaje a gran escala de Google, Gemini 3, parece estar a punto de un lanzamiento público. Un breve listado de Gemini 3.0 Pro en Vertex AI —con una fecha de despliegue tentativa “11‑2025”— sugiere que el modelo podría aparecer en cualquier momento. Tras semanas de pruebas en una serie de checkpoints internos, he compilado un resumen exhaustivo de lo que el modelo puede hacer, dónde todavía falla y cómo podría ser el panorama de precios.
El camino hacia Gemini 3: de pruebas AB al caos de checkpoints
Pistas tempranas en AI Studio
La primera pista pública apareció en AI Studio de Google, donde al seleccionar Gemini 2.5 Pro a veces se devolvía un ID de checkpoint diferente que comenzaba con 2HTT. Los registros de red lo identificaron como Gemini 3.0 Pro. Ese checkpoint surgía solo una vez cada 40‑50 peticiones, pero los resultados fueron impactantes:
- Planos de planta precisos con puertas y muebles colocados correctamente
- Un panda SVG comiendo una hamburguesa con composición adecuada
- Una Pokéball en 3‑js renderizada con iluminación realista
- Una escena estilo Minecraft que marcó un nuevo referente para la generación 3D de un solo disparo
- Una simulación de mariposa que, aunque un poco detrás de GPT‑5, siguió impresionando
- Buen desempeño en acertijos y problemas matemáticos “estilo AIME”
Estos resultados llevaron al modelo a la cima de la tabla interna del autor, ofreciendo aproximadamente un 25 % de mejora respecto a Sonnet 4.5.
El checkpoint “intermedio” – ECPT
El siguiente checkpoint de Google, etiquetado ECPT, se sintió notablemente limitado. La calidad de salida decayó en varias dimensiones:
- Los diseños de planos perdieron coherencia
- El panda SVG apareció desarticulado
- Los movimientos de ajedrez fueron subóptimos
- La iluminación en 3‑js y la escena de Minecraft se volvieron planas y lentas
A pesar de estas regresiones, el modelo todavía superó a Sonnet en la mayoría de preguntas de matemáticas, lo que sugiere que el checkpoint era probablemente una variante cuantizada o de razonamiento reducido destinada a pruebas de despliegue más amplias.
El rebote: checkpoint X28
La especulación de la comunidad apuntó a un nuevo checkpoint “Pro”, identificado después como X28. Al volver a probarlo con la suite original de 11 preguntas más algunas extras, X28 mostró una clara mejora respecto a 2HT:
- Planos se volvieron realmente realistas, con puertas funcionales, distribuciones sensatas y controles de iluminación dinámicos.
- El panda SVG ahora realmente comía la hamburguesa en lugar de solo posar.
- Las escenas de Pokéball en 3‑js presentaron fondos más ricos y un pulido refinado.
- La escena de Minecraft añadió ríos y una iluminación más limpia.
- La simulación de mariposa incluyó rocas, flores y menos artefactos de recorte.
- El CLI de Rust para conversión de imágenes y un script de Blender produjeron resultados de nivel profesional.
- Una demo de red de grados de separación mostró una UI limpia sin el habitual “tono púrpura”.
- La llamada a herramientas mediante el relé humano RU seleccionó la primera función con precisión.
En conjunto, X28 representó una mejora del 5‑10 % respecto a 2HT y un salto sustancial frente a los modelos Sonnet actuales.
Observaciones clave entre checkpoints
- Comportamiento de variante de pensamiento – Los checkpoints más fuertes presentan un primer token más lento seguido de una salida constante, lo que indica una deliberación interna más profunda.
- Consistencia – Los checkpoints de alta gama generan resultados casi determinísticos en peticiones repetidas, una ventaja importante para desarrolladores que construyen aplicaciones fiables.
- Sensibilidad de diseño – El modelo elige fuentes, espaciado y disposiciones que se sienten hechas a mano en lugar de genéricas.
- Llamada a herramientas – El razonamiento puro es sólido, pero la cadena fiable de llamadas a funciones sigue siendo el punto crítico para agentes de producción.
- Checkpoints limitados – Probablemente sirven para pruebas de seguridad, latencia y escalado; son útiles pero no representan el avance que muchos esperaban.
Expectativas de precios
- Paridad con Sonnet – Si Google fija el precio de Gemini 3 Pro a un nivel comparable con Sonnet 4.5, las ganancias de rendimiento justifican el costo.
- Precio premium – Tarifas más altas deberían compensarse con una mayor fiabilidad en llamadas a herramientas, mayor rendimiento y calidad constante en sesiones largas.
- Precio agresivo – Un punto de precio inferior al de Sonnet podría atraer a una gran base de usuarios, sobre todo considerando el ecosistema Gemini ya maduro (CLI, Jewels, generadores de AI).
Cómo se compara Gemini 3 con la competencia
| Característica | Gemini 3 (checkpoints fuertes) | Sonnet 4.5 | GPT‑5 | Claude |
|---|---|---|---|---|
| Razonamiento espacial y disparos 3‑D de una sola vez | ≥ Opus (nivel superior) | Bueno pero menos consistente | Competitivo | Bueno |
| Simulaciones de matemáticas y física | Competitivo, a veces superado por GPT‑5 | Fuerte | Fuerte | — |
| Consistencia entre regeneraciones | Alta (especialmente X28/2HT) | Moderada | Moderada | Moderada |
| Fiabilidad en llamadas a herramientas | Prometedor, necesita más pruebas reales | Buena | Buena | Buena |
Si el lanzamiento público refleja los checkpoints X28 o 2HT, Gemini 3 podría convertirse en el mejor modelo general para desarrolladores. Un lanzamiento similar a ECPT seguiría siendo una mejora sobre Sonnet, pero no el salto generacional que muchos anticipan.
Consejos prácticos para el benchmarking
- Evita demos “tipo web” – Salidas simples de HTML/CSS son fáciles para cualquier modelo de vanguardia y no reflejan la verdadera capacidad.
- Presiona 3‑D + matemáticas – Usa escenas 3‑js que requieran cálculos reales para exponer diferencias.
- Mide la consistencia – Prueba el mismo prompt varias veces; anota la latencia del primer token y la estabilidad de la salida.
- Evalúa cadenas de llamadas a herramientas – Verifica que el modelo pueda planificar y ejecutar llamadas a funciones de varios pasos, no solo un único endpoint de API.
Conclusión
Desde el checkpoint de prueba AB temprano 2HT, pasando por la caída con ECPT y el fuerte rebote con X28, la evidencia apunta a una perspectiva cautelosamente optimista para Gemini 3. Si Google lanza un modelo comparable a los checkpoints X28/2HT, los desarrolladores finalmente contarán con un LLM general que combina razonamiento profundo, intuición de diseño y uso fiable de herramientas.
Incluso una versión limitada seguiría superando a Sonnet en muchos flujos de trabajo, pero el verdadero avance dependerá del checkpoint final que Google elija para la vista previa pública. Cuando el modelo llegue a Vertex AI, un benchmark completo —incluyendo economía de tokens, latencia y tasas de éxito en llamadas a herramientas— aclarará la relación precio‑rendimiento.
El futuro del desarrollo impulsado por IA nunca ha sido tan prometedor.