15/10/2025

Reseña del checkpoint ECPT de Google Gemini 3.0 Pro – Notable caída de rendimiento, pero sigue siendo viable.

Introducción

La hoja de ruta de IA generativa de Google sigue evolucionando a gran velocidad, con lanzamientos frecuentes de puntos de control ECPT para su modelo Gemini 3.0 Pro. El último punto de control, promocionado como una mejora capaz de manejar tareas complejas como la construcción de un sistema operativo basado en la web, ha generado un gran revuelo. Tras numerosas solicitudes de la comunidad, sometimos este punto de control a una serie de pruebas de generación visual y de codificación para evaluar si el bombo coincide con la realidad.

Visión general del punto de control ECPT de Gemini 3.0 Pro

El nuevo punto de control ECPT se presenta como sucesor de versiones anteriores de Gemini 3.0 Pro. Las primeras impresiones sugieren que el modelo podría estar “nerfeado” —ya sea intencionalmente limitado para un despliegue más amplio o degradado inadvertidamente en su capacidad de razonamiento. En comparación con puntos de control previos, la salida parece menos pulida y, a veces, con errores.

Metodología de prueba

Nuestra evaluación se centró en dos dimensiones principales:

Calidad de generación visual – usando indicaciones para planos de planta, gráficos SVG, escenas 3D y recursos animados.
Capacidad de programación y razonamiento – generando fragmentos de HTML/CSS/JavaScript, scripts en Python y respondiendo preguntas de cultura general.

Todas las indicaciones se mantuvieron consistentes con las usadas en videos de referencia anteriores para garantizar una comparación justa.

Rendimiento en generación visual

Plano de planta

El plano de planta generado fue mediocre: las habitaciones estaban desalineadas, el diseño carecía de la nitidez que se observaba en puntos de control anteriores y el atractivo visual general era bajo.

Panda SVG

La ilustración del panda en SVG mostró una notable caída en detalle y pulido. Aunque funcional, no alcanzó el nivel de refinamiento de versiones previas.

Ilustración de hamburguesa

El gráfico de la hamburguesa fue aceptable, pero el elemento del panda adjunto sufrió la misma regresión de calidad.

Pokéball (Three.js)

El Pokéball en Three.js se renderizó correctamente, sin embargo la iluminación de fondo y la profundidad de textura fueron más débiles que antes.

Simulación de tablero de ajedrez

La demo del tablero de ajedrez funcionó, pero la IA realizó varios movimientos subóptimos —capturas pobres y una estrategia general débil— lo que evidencia una caída en el razonamiento táctico.

Escena estilo Minecraft (Three.js)

La escena inspirada en Minecraft se cargó, pero resultó entrecortada, sin iluminación dinámica y con efectos volumétricos poco desarrollados.

Animación de mariposa

La animación de la mariposa fue aceptable; no impresionó ni decepcionó, situándose claramente en el rango “promedio”.

Script de Blender para Pokéball

El script de Blender generado produjo un modelo con dimensiones correctas, pero omitió configuraciones avanzadas de iluminación presentes en puntos de control anteriores.

Capacidades de programación y razonamiento

Indicador de Web‑OS

Un benchmark popular consiste en pedir al modelo que cree un sistema operativo completo basado en la web con una sola indicación. Mientras que Sonnet puede lograrlo con código relativamente limpio, el punto de control Gemini 3.0 Pro produjo fragmentos fragmentados que requirieron ensamblaje manual. El resultado no supuso un avance respecto a los modelos existentes.

Conocimientos generales (Pregunta del Pentágono)

Al presentarse una serie de consultas de cultura general, el punto de control respondió con precisión, lo que indica que su base de conocimientos sigue siendo sólida. Sin embargo, las respuestas parecían más restringidas, posiblemente por filtros de seguridad o una variante de razonamiento de menor capacidad.

Intérprete de Python y Easter Egg

Se generó sin problemas un intérprete de Python incorporado y un sencillo juego de serpiente, demostrando que el modelo aún puede producir scripts funcionales.

Observaciones sobre el “nerf” del modelo

Reducción de la fidelidad visual en la mayoría de las pruebas gráficas.
Razonamiento estratégico más débil en demos relacionadas con juegos (p. ej., ajedrez).
Salida inconsistente: enlaces rotos ocasionales o recursos ausentes.
Posibles límites de seguridad o de cuantización que restringen el poder expresivo del modelo para su lanzamiento público.

Estos factores sugieren que el punto de control podría ser una variante lista para despliegue, optimizada para estabilidad más que para rendimiento máximo.

Comparación con modelos competidores

Sonnet: sigue superando a Gemini en la creación de un Web‑OS con una sola indicación.
GPT‑5 / Claude: comparables en generación básica de código, pero Gemini mantiene una ligera ventaja en tareas multimodales cuando no está nerfeado.

Conclusión

El último punto de control ECPT de Gemini 3.0 Pro de Google ofrece una experiencia competente pero notablemente limitada. Aunque sigue siendo una herramienta valiosa para desarrolladores y creadores, la caída de rendimiento genera dudas sobre la dirección de futuros lanzamientos. Si Google busca equilibrar seguridad y capacidad, una estrategia de comunicación más clara respecto a las variantes del modelo ayudaría a establecer expectativas realistas.

En conjunto, el punto de control sigue siendo utilizable para muchas tareas, pero los usuarios avanzados que buscan el rendimiento de vanguardia de versiones anteriores de Gemini pueden sentirse decepcionados. Las actualizaciones futuras —posiblemente el próximo Gemini 3.1— deberán abordar estas regresiones para mantener la posición de Google en el competitivo panorama de IA generativa.