spdup.net

Actualités tech

Revue du point de contrôle ECPT de Google Gemini 3.0 Pro – Baisse de performance notable mais toujours viable


Revue du point de contrôle ECPT de Google Gemini 3.0 Pro – Baisse de performance notable mais toujours viable

Introduction

La feuille de route de l’IA générative de Google évolue à un rythme soutenu, avec des sorties fréquentes de points de contrôle ECPT pour son modèle Gemini 3.0 Pro. Le dernier point de contrôle, présenté comme une mise à jour capable de gérer des tâches complexes telles que la construction d’un OS basé sur le web, a suscité beaucoup d’engouement. Après de nombreuses demandes de la communauté, nous avons soumis ce point de contrôle à une série de tests de génération visuelle et de codage afin d’évaluer si le battage médiatique correspond à la réalité.

Aperçu du point de contrôle ECPT Gemini 3.0 Pro

Le nouveau point de contrôle ECPT se veut le successeur des versions précédentes de Gemini 3.0 Pro. Les premières impressions laissent penser que le modèle a été « nerfé » — soit délibérément limité pour un déploiement plus large, soit involontairement affaibli dans sa capacité de raisonnement. Comparé aux points de contrôle antérieurs, le rendu paraît moins poli et parfois bogué.

Méthodologie des tests

Notre évaluation s’est concentrée sur deux dimensions principales :

  • Qualité de la génération visuelle — à l’aide de prompts pour des plans d’étage, des graphiques SVG, des scènes 3D et des actifs animés.
  • Capacité de programmation et de raisonnement — génération de fragments HTML/CSS/JavaScript, scripts Python et réponses à des questions de culture générale.

Tous les prompts ont été conservés identiques à ceux utilisés dans les vidéos de référence précédentes afin d’assurer une comparaison équitable.

Performance de génération visuelle

Plan d’étage

Le plan d’étage généré était médiocre : les pièces étaient mal alignées, la disposition manquait de la netteté observée dans les points de contrôle antérieurs, et l’attrait visuel global était faible.

Panda SVG

L’illustration SVG du panda montrait une nette perte de détail et de finition. Fonctionnelle, elle n’atteint toutefois pas le niveau de raffinement des versions précédentes.

Illustration de burger

Le graphisme du burger était acceptable, mais l’élément panda qui l’accompagnait subissait la même régression de qualité.

Pokéball (Three.js)

Le Pokéball en Three.js était correctement rendu, mais l’éclairage d’arrière‑plan et la profondeur de texture étaient plus faibles qu’auparavant.

Simulation d’échiquier

La démonstration d’échiquier fonctionnait, mais l’IA a effectué plusieurs coups sous‑optimaux — captures pauvres et stratégie globalement faible — soulignant une baisse du raisonnement tactique.

Scène style Minecraft (Three.js)

La scène inspirée de Minecraft se chargeait, mais elle était lente, dépourvue d’éclairage dynamique, et les effets volumétriques étaient sous‑développés.

Animation de papillon

L’animation du papillon était passable ; elle n’a ni impressionné ni déçu, se situant clairement dans la moyenne.

Script Blender pour Pokéball

Le script Blender généré a produit un modèle aux dimensions correctes, mais il a omis les configurations d’éclairage avancées présentes dans les points de contrôle précédents.

Capacités de programmation et de raisonnement

Prompt Web‑OS

Un benchmark populaire consiste à demander au modèle de créer un système d’exploitation complet basé sur le web en une seule requête. Alors que Sonnet peut accomplir cela avec un code relativement propre, le point de contrôle Gemini 3.0 Pro a produit des fragments de code décousus nécessitant un assemblage manuel. Le résultat n’est pas une percée par rapport aux modèles existants.

Connaissances générales (question du Pentagone)

Face à une série de questions de culture générale, le point de contrôle a répondu avec précision, montrant que sa base de connaissances reste solide. Cependant, les réponses semblaient plus contraintes, probablement à cause de filtres de sécurité ou d’une variante de raisonnement à capacité réduite.

Interpréteur Python & Easter Egg

Un interpréteur Python intégré et un petit jeu de serpent ont été générés sans problème, démontrant que le modèle peut encore produire des scripts fonctionnels.

Observations sur le nerf du modèle

  • Fidélité visuelle réduite dans la plupart des tests graphiques.
  • Raisonnement stratégique plus faible dans les démonstrations ludiques (ex. : échecs).
  • Sortie incohérente : liens parfois cassés ou actifs manquants.
  • Limites potentielles de sécurité ou de quantisation qui plafonnent la puissance d’expression du modèle pour la version publique.

Ces éléments suggèrent que le point de contrôle pourrait être une variante prête au déploiement, optimisée pour la stabilité plutôt que pour les performances maximales.

Comparaison avec les modèles concurrents

  • Sonnet : reste supérieur à Gemini pour la création d’un web‑OS en une seule requête.
  • GPT‑5 / Claude : comparable en génération de code basique, mais Gemini conserve un léger avantage dans les tâches multimodales lorsqu’il n’est pas nerfé.

Conclusion

Le dernier point de contrôle ECPT de Gemini 3.0 Pro de Google offre une expérience compétente mais clairement throttlée. S’il demeure un outil précieux pour les développeurs et les créateurs, la baisse de performance soulève des questions quant à la direction des futures versions. Si Google souhaite équilibrer sécurité et capacité, une stratégie de communication plus claire autour des variantes de modèle aiderait à fixer des attentes réalistes.

Dans l’ensemble, le point de contrôle reste utilisable pour de nombreuses tâches, mais les utilisateurs avancés recherchant les performances de pointe des versions antérieures de Gemini pourraient être déçus. Les futures mises à jour—potentiellement le prochain Gemini 3.1—devront corriger ces régressions afin de maintenir la position de Google dans le paysage concurrentiel de l’IA générative.

Voir la Vidéo Originale