spdup.net

Actualités tech

L’aperçu de Gemini 3 révèle des points de contrôle solides, des indices sur les tarifs et ce à quoi s’attendre.


L’aperçu de Gemini 3 révèle des points de contrôle solides, des indices sur les tarifs et ce à quoi s’attendre.

Introduction

Le modèle de grande taille de nouvelle génération de Google, Gemini 3, semble être sur le point d’une sortie publique. Une brève annonce pour Gemini 3.0 Pro sur Vertex AI—avec une date de déploiement provisoire « 11‑2025 »—suggère que le modèle pourrait arriver n’importe quel jour. Après des semaines de tests à travers une série de points de contrôle internes, j’ai compilé un récapitulatif complet de ce que le modèle peut faire, de ses limites actuelles et de ce à quoi pourrait ressembler le paysage tarifaire.


Le chemin vers Gemini 3 : des tests AB au chaos des points de contrôle

Premiers indices dans AI Studio

Le premier indice public est apparu dans AI Studio de Google, où la sélection de Gemini 2.5 Pro renvoyait parfois un identifiant de point de contrôle différent commençant par 2HTT. Les journaux réseau ont identifié celui‑ci comme Gemini 3.0 Pro. Le point de contrôle n’apparaissait qu’une fois toutes les 40‑50 requêtes, mais les résultats étaient frappants :

  • Plans d’étage précis avec portes et meubles correctement placés
  • Un panda SVG mangeant un burger avec une composition correcte
  • Une Pokéball 3‑js rendue avec un éclairage réaliste
  • Une scène de style Minecraft qui a établi une nouvelle référence pour la génération 3D en un seul coup
  • Une simulation de papillon qui, bien que légèrement en retard par rapport à GPT‑5, restait impressionnante
  • De bonnes performances sur les devinettes et les problèmes de maths « style AIME »

Ces résultats ont propulsé le modèle en tête du classement interne de l’auteur, offrant environ 25 % d’amélioration par rapport à Sonnet 4.5.

Le point de contrôle « Middle » – ECPT

Le point de contrôle suivant de Google, nommé ECPT, semblait nettement affaibli. La qualité des sorties a baissé sur plusieurs dimensions :

  • Les plans d’étage ont perdu en cohérence
  • Le panda SVG était décousu
  • Les coups d’échecs étaient sous‑optimaux
  • L’éclairage 3‑js et la scène Minecraft sont devenus plats et saccadés

Malgré ces régressions, le modèle surpassait toujours Sonnet sur la plupart des questions de maths, ce qui laisse penser que ce point de contrôle était probablement une version quantifiée ou à capacité de raisonnement réduite destinée aux tests de déploiement plus larges.

Le rebond : point de contrôle X28

Les spéculations de la communauté ont pointé vers un nouveau point de contrôle « Pro », identifié plus tard comme X28. Lors d’un nouveau test avec la suite originale de 11 questions plus quelques ajouts, X28 a clairement dépassé 2HT :

  • Plans d’étage devenus vraiment réalistes, avec portes fonctionnelles, agencements sensés et contrôles d’éclairage dynamiques.
  • Le panda SVG mange réellement le burger au lieu de simplement poser.
  • Les scènes Pokéball 3‑js présentaient des arrière‑plans plus riches et un polissage affiné.
  • La scène Minecraft a ajouté des rivières et une illumination plus nette.
  • La simulation de papillon incluait rochers, fleurs et moins d’artefacts de clipping.
  • Le CLI Rust pour la conversion d’images et un script Blender ont tous deux produit des résultats de niveau professionnel.
  • Une démo de réseau de degré de séparation rendu une interface propre, sans le « violet‑vibe » par défaut habituel.
  • L’appel d’outil via le relais humain RU a montré une sélection précise de la première fonction.

Dans l’ensemble, X28 représentait une amélioration de 5‑10 % par rapport à 2HT et un bond substantiel par rapport aux modèles Sonnet actuels.


Observations clés à travers les points de contrôle

  • Comportement de variante de réflexion – Les points de contrôle les plus forts affichent un premier token plus lent suivi d’une sortie régulière, signe d’une délibération interne plus profonde.
  • Cohérence – Les points de contrôle haut de gamme génèrent des résultats quasi‑déterministes sur des invites répétées, un atout majeur pour les développeurs qui construisent des applications fiables.
  • Sens du design – Le modèle choisit polices, espacements et mises en page qui semblent faits à la main plutôt que génériques.
  • Appel d’outils – Le raisonnement brut est solide, mais la chaîne fiable d’appels de fonctions reste le maillon critique pour les agents en production.
  • Points de contrôle affaiblis – Ils servent probablement aux tests de sécurité, de latence et d’évolutivité ; utiles mais pas la percée tant attendue.

Attentes tarifaires

  • Parité avec Sonnet – Si Google fixe le prix de Gemini 3 Pro à un niveau comparable à Sonnet 4.5, les gains de performance justifient le coût.
  • Tarification premium – Des tarifs plus élevés devraient être compensés par une fiabilité supérieure des appels d’outils, un débit plus élevé et une qualité constante sur de longues sessions.
  • Tarification agressive – Un prix inférieur à celui de Sonnet pourrait attirer une large base d’utilisateurs, surtout compte tenu de l’écosystème Gemini désormais mature (CLI, Jewels, générateurs AI Studio).

Comparaison de Gemini 3 avec les concurrents

FonctionnalitéGemini 3 (points de contrôle forts)Sonnet 4.5GPT‑5Claude
Raisonnement spatial & rendus 3D en une fois≥ Opus (niveau supérieur)Bon mais moins cohérentCompétitifBon
Simulations mathématiques et de physiqueCompétitif, parfois dépassé par GPT‑5SolideSolide
Cohérence entre régénérationsÉlevée (surtout X28/2HT)ModéréeModéréeModérée
Fiabilité des appels d’outilsPrometteuse, nécessite davantage de tests en conditions réellesBonneBonneBonne

Si la sortie publique reflète les points de contrôle X28 ou 2HT, Gemini 3 pourrait devenir le meilleur modèle grand public pour les développeurs. Un lancement ressemblant à ECPT resterait une amélioration par rapport à Sonnet, mais pas le saut générationnel attendu par beaucoup.


Conseils pratiques pour le benchmarking

  • Éviter les démos « style web » – Les sorties HTML/CSS simples sont faciles pour n’importe quel modèle de pointe et ne reflètent pas la vraie capacité.
  • Mettre à l’épreuve 3D + maths – Utilisez des scènes 3‑js qui nécessitent de vrais calculs pour faire ressortir les différences.
  • Mesurer la cohérence – Testez la même invite plusieurs fois ; notez la latence du premier token et la stabilité de la sortie.
  • Évaluer les chaînes d’appels d’outils – Vérifiez que le modèle peut planifier et exécuter des appels de fonctions multi‑étapes, pas seulement un seul appel d’API.

Conclusion

Du premier point de contrôle AB 2HT à la baisse avec ECPT puis au rebond solide avec X28, les preuves pointent vers une perspective prudemment optimiste pour Gemini 3. Si Google livre un modèle comparable aux points de contrôle X28/2HT, les développeurs disposeront enfin d’un LLM grand public qui combine raisonnement profond, intuition de design et utilisation fiable des outils.

Même une version affaiblie resterait en avance sur Sonnet pour de nombreux flux de travail, mais la vraie percée dépendra du point de contrôle final choisi par Google pour la prévisualisation publique. Dès que le modèle sera disponible sur Vertex AI, un benchmark complet—incluant l’économie de tokens, la latence et les taux de succès des appels d’outils—clarifiera le rapport prix‑performance.

L’avenir du développement piloté par l’IA s’annonce plus lumineux que jamais.

Voir la Vidéo Originale