Deepseek V3.2 Speciale e Mistral Large 3 testati – I modelli open source tornano sotto i riflettori
Deepseek V3.2 Speciale e Mistral Large 3 testati – I modelli open source tornano sotto i riflettori
Introduzione
L’ecosistema dei grandi modelli linguistici (LLM) open‑source ha vissuto una rinascita con il rilascio di due modelli di alto profilo: Deepseek V3.2 Speciale e Mistral Large 3. Entrambi i progetti nascono da sviluppatori veterani del mondo open‑source—Deepseek, noto per le serie V3 e R1, e Mistral, una delle prime aziende occidentali a distribuire modelli competitivi con licenza permissiva. Questo articolo analizza le innovazioni architetturali, le prestazioni sui benchmark e le implicazioni pratiche di questi nuovi rilasci.
Contesto: L’evoluzione degli LLM open‑source
- Deepseek ha attirato l’attenzione con l’architettura V3, offrendo ottime prestazioni su una vasta gamma di compiti mantenendo l’accessibilità per la comunità.
- Mistral ha avuto un impatto notevole con il modello Mistral‑Nemo da 32 miliardi di parametri, lodato per la sua efficienza in esecuzione locale. Tuttavia, le versioni successive hanno sofferto per licenze restrittive e mancanza di trasparenza, riducendone l’appeal.
Entrambe le aziende sono tornate ora con modelli aggiornati che promettono risultati allo stato dell’arte (SOTA) mantenendo licenze aperte.
Deepseek V3.2 Speciale – Architettura e Attenzione Sparsa
Progettazione di base
Deepseek V3.2 si basa sull’architettura V3 originale ma introduce DeepSeek Sparse Attention (DSA), un nuovo meccanismo di attenzione che mitiga il costo quadratico dell’attenzione tradizionale dei transformer. DSA utilizza un “indice fulmineo” per classificare i token in base alla rilevanza e attendere solo i top‑k più importanti, riducendo così la complessità computazionale senza sacrificare la qualità di un modello denso.
Lunghezza del contesto ed efficienza
- Contesto massimo: 128 000 token
- Riduzione del calcolo: significativa, consentendo inferenza a costi contenuti anche su hardware modesto o istanze cloud.
Variante “Speciale”
Deepseek ha rilasciato due checkpoint:
- General V3.2 – il modello standard, non orientato al ragionamento.
- Speciale – un modello dedicato al ragionamento che allenta le penalità di lunghezza durante l’addestramento, permettendo di generare catene di ragionamento più lunghe e coerenti senza dover intervenire al momento dell’inferenza.
Entrambi i checkpoint sono disponibili pubblicamente su Hugging Face e sono stati integrati in servizi di routing come OpenRouter e Kylo Code.
Mistral Large 3 – Caratteristiche e Benchmark
Portfolio di modelli
L’ultima suite di Mistral comprende:
- Mistral Large 3 – un modello mixture‑of‑experts (MoE) da 45 miliardi di parametri che attiva circa 41 miliardi di parametri per token.
- Varianti più piccole: Mistral 31‑4B, 8B e 3B.
L’approccio MoE rispecchia l’architettura di Deepseek, offrendo un equilibrio tra numero di parametri e velocità di inferenza.
Capacità di ragionamento
Mistral Large 3 è commercializzato come modello non‑reasoning; eccelle nella generazione di codice e nel tool‑calling, ma non è specializzato nel ragionamento a catena di pensiero. Questa distinzione è importante quando si sceglie un modello per compiti downstream specifici.
Risultati comparativi sui benchmark
L’autore ha valutato entrambi i modelli su una suite personalizzata che copre generazione geometrica, creazione di SVG, rendering 3D, arte in stile videogioco e compiti di programmazione. Di seguito una sintesi delle prestazioni osservate:
Deepseek V3.2 (General) – Principali constatazioni
- Generazione di floor‑plan: testo incoerente, incapace di produrre un layout 3‑D.
- SVG panda: migliore di Mistral ma ancora inferiore ai modelli di fascia alta.
- Pokéball in Three.js: per lo più corretto; manca un piccolo elemento UI (pulsante).
- Scacchiera con autoplay: rendering accurato e sequenza di mosse logica.
- Clone Minecraft in stile Kandinsky: output inutilizzabile.
- Illustrazione di farfalla maestosa: bassa fedeltà visiva, ricorda le grafiche dei primi anni 2000.
- Codice CLI Rust: non funzionante.
- Script Blender: non eseguito.
- Indovinelli matematici: misti; indovinelli semplici risolti, problemi aritmetici spesso errati.
Mistral Large 3 – Principali constatazioni
- Floor‑plan (3‑D): generato in modo scadente, non soddisfa i requisiti spaziali.
- SVG panda: proporzioni del corpo incoerenti.
- Pokéball in Three.js: oggetti posizionati male, dimensioni imprecise.
- Scacchiera autoplay: non funzionante.
- Clone Minecraft: privo di coerenza.
- Illustrazione di farfalla: accettabile ma non impressionante.
- Codice CLI Rust: codice non funzionante.
- Script Blender: non produce i risultati attesi.
- Problemi matematici: generalmente non risolti.
Posizionamento nella classifica
- Deepseek V3.2 (General): classificato 11° nella leaderboard pubblica degli LLM, superando modelli come GPT‑5.1 CEX e GLM.
- Deepseek Speciale (Reasoning): posizionato più in basso a causa di instabilità nelle risposte API e generazione di codice difettosa.
- Mistral Large 3: occupa il 27° posto, rispettabile ma dietro i principali concorrenti open‑source.
I risultati suggeriscono che, sebbene entrambi i modelli siano competitivi, rimangono dietro le alternative open‑source più raffinate come GLM, MiniMax e Kimmy.
Disponibilità e integrazione
- Pesi del modello: ospitati su Hugging Face sia per il checkpoint generale che per quello Speciale.
- Servizi di routing: integrati con OpenRouter e Kylo Code, facilitando l’accesso API.
- Tool‑calling: entrambi i modelli mostrano solide prestazioni in scenari di tool‑calling, rendendoli adatti all’automazione dei flussi di lavoro.
Gli sviluppatori interessati a sperimentare questi modelli possono scaricare i pesi direttamente da Hugging Face e distribuirli con qualsiasi libreria transformer standard (es. 🤗 Transformers, vLLM).
Conclusioni
Il rilascio di Deepseek V3.2 Speciale e Mistral Large 3 rappresenta un ritorno significativo per i veterani sviluppatori di LLM open‑source. L’architettura a attenzione sparsa di Deepseek offre un’efficienza impressionante su finestre di contesto molto lunghe, mentre il checkpoint Speciale tenta di spingere in avanti le capacità di ragionamento. Il modello MoE‑based Large 3 di Mistral garantisce ottime prestazioni nella generazione di codice, ma resta indietro nei compiti di ragionamento.
I confronti sui benchmark mostrano che entrambi i modelli sono competitivi ma non ancora dominanti nel panorama open‑source. Occupano posizioni rispettabili nelle classifiche pubbliche e forniscono valide alternative per gli sviluppatori che cercano modelli con licenza permissiva e buone capacità di tool‑calling.
Man mano che la comunità open‑source continua a iterare, questi rilasci sottolineano l’importanza dell’innovazione architetturale (attenzione sparsa, mixture‑of‑experts) e della trasparenza delle licenze nel definire la prossima generazione di modelli AI accessibili.