spdup.net

Actualités tech

Deepseek V3.2 Speciale et Mistral Large 3 testés – Les modèles open‑source reprennent le devant de la scène


Deepseek V3.2 Speciale et Mistral Large 3 testés – Les modèles open‑source reprennent le devant de la scène

Introduction

L’écosystème des grands modèles de langage (LLM) open source a connu un regain d’intérêt avec la sortie de deux modèles très médiatisés : Deepseek V3.2 Speciale et Mistral Large 3. Les deux projets proviennent de développeurs open source chevronnés — Deepseek, connu pour ses séries V3 et R1, et Mistral, l’une des premières entreprises occidentales à commercialiser des modèles compétitifs sous licence permissive. Cet article examine les innovations architecturales, les performances aux benchmarks et les implications pratiques de ces nouvelles versions.

Contexte : l’évolution des LLM open source

  • Deepseek a attiré l’attention avec l’architecture V3, offrant de bonnes performances sur de nombreuses tâches tout en restant accessible à la communauté.
  • Mistral a eu un impact notable avec le modèle Mistral‑Nemo à 32 milliards de paramètres, salué pour son efficacité en exécution locale. Cependant, les versions ultérieures ont souffert de licences restrictives et d’un manque de transparence, ce qui a diminué leur attrait.

Les deux sociétés reviennent aujourd’hui avec des modèles mis à jour qui promettent des résultats d’état‑de‑l’art (SOTA) tout en conservant une licence ouverte.

Deepseek V3.2 Speciale – Architecture et attention parcimonieuse

Conception de base

Deepseek V3.2 s’appuie sur l’architecture V3 originale mais introduit DeepSeek Sparse Attention (DSA), un nouveau mécanisme d’attention qui atténue le coût quadratique de l’attention traditionnelle des transformeurs. DSA utilise un « indexeur éclair » pour classer les tokens selon leur pertinence et ne porte attention qu’aux k tokens les plus importants, réduisant ainsi la complexité de calcul tout en préservant la qualité d’un modèle dense.

Longueur de contexte et efficacité

  • Contexte maximal : 128 000 tokens
  • Réduction de calcul : importante, permettant une inférence abordable même sur du matériel modeste ou des instances cloud.

Variante « Speciale »

Deepseek a publié deux points de contrôle :

  1. General V3.2 – le modèle standard, sans capacités de raisonnement spécifiques.
  2. Speciale – un modèle dédié au raisonnement qui assouplit les pénalités de longueur pendant l’entraînement, permettant de générer des chaînes de raisonnement plus longues et plus cohérentes sans ajustements au moment de l’inférence.

Les deux checkpoints sont disponibles publiquement sur Hugging Face et ont été intégrés à des services de routage tels qu’OpenRouter et Kylo Code.

Mistral Large 3 – Fonctionnalités et benchmarks

Portefeuille de modèles

La dernière suite de Mistral comprend :

  • Mistral Large 3 – un modèle mixture‑of‑experts (MoE) à 45 milliards de paramètres qui active environ 41 milliards de paramètres par token.
  • Variantes plus petites : Mistral 31‑4B, 8B et 3B.

L’approche MoE reflète l’architecture de Deepseek, offrant un compromis entre nombre de paramètres et vitesse d’inférence.

Capacité de raisonnement

Mistral Large 3 est présenté comme un modèle non‑raisonneur ; il excelle dans la génération de code et l’appel d’outils, mais ne se spécialise pas dans le raisonnement en chaîne de pensée. Cette distinction est importante lors du choix d’un modèle pour des tâches en aval spécifiques.

Résultats comparatifs aux benchmarks

L’auteur a évalué les deux modèles sur une suite personnalisée couvrant la génération géométrique, la création de SVG, le rendu 3D, l’art de style jeu vidéo et les tâches de programmation. Voici un résumé des performances observées :

Deepseek V3.2 (General) – Principaux constats

  • Génération de plan d’étage : texte incohérent, incapacité à fournir une mise en page 3D.
  • SVG panda : meilleur que Mistral mais toujours en dessous des modèles de pointe.
  • Pokéball en Three.js : majoritairement correct ; petit élément d’interface (bouton) manquant.
  • Échiquier avec lecture automatique : rendu précis et séquence de coups logique.
  • Clone Minecraft style Kandinsky : sortie inutilisable.
  • Illustration de papillon majestueux : faible fidélité visuelle, rappel des graphismes du début des années 2000.
  • Code d’outil CLI Rust : non fonctionnel.
  • Script Blender : échec d’exécution.
  • Énigmes mathématiques : mixte ; énigmes simples résolues, problèmes arithmétiques souvent incorrects.

Mistral Large 3 – Principaux constats

  • Plan d’étage (3D) : génération médiocre, ne répond pas aux exigences spatiales.
  • SVG panda : proportions du corps incohérentes.
  • Pokéball en Three.js : objets mal placés, dimensions inexactes.
  • Échiquier en lecture automatique : non fonctionnel.
  • Clone Minecraft : manque de cohérence.
  • Illustration de papillon : acceptable mais sans éclat.
  • Outil CLI Rust : code non fonctionnel.
  • Script Blender : ne produit pas les résultats attendus.
  • Problèmes mathématiques : généralement non résolus.

Classement au tableau de bord

  • Deepseek V3.2 (General) : classé 11ᵉ sur le tableau public des LLM, devant des modèles tels que GPT‑5.1 CEX et GLM.
  • Deepseek Speciale (Raisonnement) : position plus basse en raison d’instabilités dans les réponses API et de bugs de génération de code.
  • Mistral Large 3 : occupe la 27ᵉ place, respectable mais derrière les leaders open source.

Ces résultats montrent que, bien que compétitifs, les deux modèles restent en retrait face aux alternatives open source les plus abouties comme GLM, MiniMax et Kimmy.

Disponibilité et intégration

  • Poids du modèle : hébergés sur Hugging Face pour les checkpoints général et Speciale.
  • Services de routage : intégrés à OpenRouter et Kylo Code, facilitant l’accès via API.
  • Appel d’outils : les deux modèles offrent de bonnes performances dans les scénarios d’appel d’outils, les rendant adaptés à l’automatisation de workflows.

Les développeurs souhaitant expérimenter ces modèles peuvent récupérer les poids directement depuis Hugging Face et les déployer avec n’importe quelle bibliothèque de transformeurs standard (par ex. 🤗 Transformers, vLLM).

Conclusion

La sortie de Deepseek V3.2 Speciale et de Mistral Large 3 constitue un retour notable pour des développeurs open source chevronnés. L’architecture à attention parcimonieuse de Deepseek apporte une efficacité impressionnante sur des fenêtres de contexte très longues, tandis que le checkpoint Speciale tente de pousser les capacités de raisonnement. Le modèle MoE de Mistral, Large 3, offre de solides performances en génération de code mais reste limité sur les tâches de raisonnement.

Les comparaisons aux benchmarks révèlent que les deux modèles sont compétitifs mais pas encore dominants dans le paysage open source. Ils occupent des places respectables sur les classements publics et constituent des alternatives intéressantes pour les développeurs recherchant des modèles sous licence permissive avec de bonnes capacités d’appel d’outils.

À mesure que la communauté open source continue d’innover, ces sorties soulignent l’importance de l’innovation architecturale (attention parcimonieuse, mixture‑of‑experts) et de licences transparentes pour façonner la prochaine génération de modèles d’IA accessibles.

Voir la Vidéo Originale