spdup.net

Technologienieuws

Deepseek V3.2 Speciale en Mistral Large 3 getest – Open‑sourcemodellen keren terug in de schijnwerpers


Deepseek V3.2 Speciale en Mistral Large 3 getest – Open‑sourcemodellen keren terug in de schijnwerpers

Introductie

Het open‑source ecosysteem voor grote taalmodellen (LLM) heeft een heropleving doorgemaakt met de uitgave van twee prominente modellen: Deepseek V3.2 Speciale en Mistral Large 3. Beide projecten komen van ervaren open‑source ontwikkelaars — Deepseek, bekend van de V3‑ en R1‑series, en Mistral, een van de eerste westerse bedrijven die competitieve, permissief gelicentieerde modellen uitbrachten. Dit artikel onderzoekt de architecturale innovaties, benchmarkprestaties en praktische implicaties van deze nieuwe releases.

Achtergrond: De evolutie van open‑source LLM’s

  • Deepseek trok de aandacht met de V3‑architectuur, die sterke prestaties leverde op een breed scala aan taken terwijl het toegankelijk bleef voor de gemeenschap.
  • Mistral maakte een opvallende impact met het Mistral‑Nemo model van 32 billion parameters, geprezen om zijn efficiëntie bij lokaal draaien. Later uitgegeven modellen leden echter onder restrictieve licenties en een gebrek aan transparantie, waardoor hun aantrekkingskracht afnam.

Beide bedrijven zijn nu terug met geüpdatete modellen die state‑of‑the‑art (SOTA) resultaten beloven, terwijl ze een open licentie behouden.

Deepseek V3.2 Speciale – Architectuur en Sparse Attention

Kernontwerp

Deepseek’s V3.2 bouwt voort op de oorspronkelijke V3‑architectuur, maar introduceert DeepSeek Sparse Attention (DSA), een nieuw aandachtmechanisme dat de kwadratische kosten van traditionele transformer‑attention vermindert. DSA maakt gebruik van een “lightning indexer” om tokens op relevantie te rangschikken en alleen de top‑k meest belangrijke tokens te verwerken, waardoor de computationele complexiteit wordt verlaagd terwijl de kwaliteit van een dense model behouden blijft.

Contextlengte en efficiëntie

  • Maximale context: 128 000 tokens
  • Vermindering van rekenkracht: aanzienlijk, waardoor betaalbare inferentie mogelijk is zelfs op bescheiden hardware of cloud‑instances.

De “Speciale” variant

Deepseek bracht twee checkpoints uit:

  1. General V3.2 – het standaard, niet‑redenerende model.
  2. Speciale – een dedicated redeneringsmodel dat length‑penalties tijdens het trainen versoft, waardoor het model langere, meer samenhangende redeneerketens kan genereren zonder aanpassingen tijdens inferentie.

Beide checkpoints zijn publiek beschikbaar op Hugging Face en zijn geïntegreerd in routeringsdiensten zoals OpenRouter en Kylo Code.

Mistral Large 3 – Kenmerken en benchmarks

Modelportfolio

Mistral’s nieuwste suite omvat:

  • Mistral Large 3 – een 45‑billion‑parameter mixture‑of‑experts (MoE) model dat ongeveer 41 billion parameters activeert per token.
  • Kleinere varianten: Mistral 31‑4B, 8B en 3B.

De MoE‑aanpak spiegelt de architectuur van Deepseek en biedt een balans tussen parameter‑aantal en inferentiesnelheid.

Redeneringsvermogen

Mistral Large 3 wordt gepresenteerd als een non‑reasoning model; het blinkt uit in code‑generatie en tool‑calling, maar is niet gespecialiseerd in chain‑of‑thought redeneren. Dit onderscheid is belangrijk bij het kiezen van een model voor specifieke downstream‑taken.

Vergelijkende benchmarkresultaten

De auteur heeft beide modellen geëvalueerd met een eigen suite die onder meer geometriegeneratie, SVG‑creatie, 3D‑rendering, game‑stijl kunst en programmeertaken omvat. Hieronder een samenvatting van de waargenomen prestaties:

Deepseek V3.2 (General) – Belangrijkste bevindingen

  • Floor‑plan generatie: leverde onsamenhangende tekst, geen 3‑D‑lay-out.
  • SVG‑panda: beter dan Mistral, maar nog steeds achter top‑tier modellen.
  • Pokéball in Three.js: grotendeels correct; een klein UI‑element (knop) ontbrak.
  • Schaakbord met autoplay: nauwkeurige weergave en logische zetvolgorde.
  • Kandinsky‑stijl Minecraft‑clone: onbruikbare output.
  • Majestic butterfly illustratie: lage visuele kwaliteit, doet denken aan graphics uit het begin van de jaren 2000.
  • Rust CLI‑tool code: niet functioneel.
  • Blender‑script: faalde bij uitvoering.
  • Wiskundige raadsels: gemengd; eenvoudige raadsels opgelost, rekenproblemen vaak onjuist.

Mistral Large 3 – Belangrijkste bevindingen

  • Floor‑plan (3‑D): slecht gegenereerd, voldoet niet aan ruimtelijke eisen.
  • SVG‑panda: onregelmatige lichaamsverhoudingen.
  • Pokéball in Three.js: objecten verkeerd geplaatst, afmetingen onnauwkeurig.
  • Schaakbord autoplay: niet functioneel.
  • Minecraft‑clone: gebrek aan samenhang.
  • Butterfly illustratie: acceptabel maar niet indrukwekkend.
  • Rust CLI‑tool: niet werkende code.
  • Blender‑script: leverde niet de verwachte resultaten.
  • Wiskundige problemen: over het algemeen onopgelost.

Plaats op het leaderboard

  • Deepseek V3.2 (General): gerangschikt 11e op het openbare LLM‑leaderboard, beter dan modellen zoals GPT‑5.1 CEX en GLM.
  • Deepseek Speciale (Reasoning): lager geplaatst vanwege instabiliteit in API‑reacties en buggy code‑generatie.
  • Mistral Large 3: staat op 27e plaats, respectabel maar achter de toonaangevende open‑source concurrenten.

De resultaten suggereren dat beide modellen competitief zijn, maar nog achterlopen op de meest gepolijste open‑source alternatieven zoals GLM, MiniMax en Kimmy.

Beschikbaarheid en integratie

  • Modelgewichten: gehost op Hugging Face voor zowel de algemene als de Speciale checkpoints.
  • Routeringsdiensten: geïntegreerd met OpenRouter en Kylo Code, waardoor eenvoudige API‑toegang mogelijk is.
  • Tool‑calling: beide modellen tonen solide prestaties in tool‑calling scenario’s, waardoor ze geschikt zijn voor workflow‑automatisering.

Ontwikkelaars die met deze modellen willen experimenteren kunnen de gewichten direct van Hugging Face ophalen en ze inzetten met elke standaard transformer‑bibliotheek (bijv. 🤗 Transformers, vLLM).

Conclusie

De uitgave van Deepseek V3.2 Speciale en Mistral Large 3 vormt een opvallende comeback voor veteranen in de open‑source LLM‑ontwikkeling. Deepseek’s sparse attention‑architectuur levert indrukwekkende efficiëntie bij zeer lange contextvensters, terwijl de Speciale checkpoint probeert redeneringscapaciteiten verder te pushen. Mistral’s MoE‑gebaseerde Large 3 biedt sterke code‑generatie, maar schiet tekort op redeneringstaken.

Benchmark‑vergelijkingen laten zien dat beide modellen competitief maar nog niet dominant zijn in het open‑source landschap. Ze bekleden respectabele posities op openbare leaderboards en bieden waardevolle alternatieven voor ontwikkelaars die op zoek zijn naar permissief gelicentieerde modellen met degelijke tool‑calling mogelijkheden.

Naarmate de open‑source gemeenschap blijft itereren, onderstrepen deze releases het belang van architecturale innovatie (sparse attention, mixture‑of‑experts) en transparante licenties bij het vormgeven van de volgende generatie toegankelijke AI‑modellen.

Bekijk Originele Video