31/10/2025

Recensione di Cursor Composer e SWE‑1.5 – Perché un'azienda da 10 miliardi di dollari ha lanciato un modello di qualità inferiore.

Recensione di Cursor Composer e SWE‑1.5 – Perché un’azienda da 10 miliardi di dollari ha lanciato un modello di qualità inferiore.

Introduzione

Il mercato degli assistenti di programmazione basati su IA si sta riscaldando e questa settimana due attori di peso—Cursor e Windsurf—hanno presentato nuovi modelli, Cursor Composer e SWE‑1.5. Entrambi promettono latenza ultra‑bassa per la programmazione “agente”, ma la tecnologia sottostante e le prestazioni sollevano serie domande. Questo articolo analizza le capacità dichiarate dei modelli, la metodologia di test e perché i risultati potrebbero deludere anche gli utenti più indulgenti.

Contesto sui nuovi modelli

Cursor Composer

Commercializzato come modello “di frontiera” quattro volte più veloce rispetto a LLM comparabili.
Progettato per compiti di programmazione a bassa latenza e multi‑passo, con la maggior parte dei turni completati in meno di 30 secondi.
Basato su un’infrastruttura “open‑weights” non divulgata, presumibilmente costruita su un modello di classe 4.6.
Non sono stati pubblicati risultati di benchmark, rendendo difficile la verifica indipendente.

SWE‑1.5 (Windsurf)

Presentato come il più veloce dei due, capace di raggiungere fino a 950 token al secondo su hardware Cerebras.
Addestrato su una base open‑source non specificata con dati proprietari di reinforcement‑learning.
Posizionato come alternativa ad alta capacità di throughput per la generazione di codice.

Metodologia di test

La valutazione è stata effettuata con gli strumenti CLI ufficiali forniti da ciascun fornitore:

Cursor Composer – accessibile tramite il Cursor CLI (l’interfaccia dell’editor mostrava solo il modello più vecchio Cheetah).
SWE‑1.5 – accessibile tramite l’editor Windsurf.

Entrambi i modelli sono stati sottoposti a una serie di sfide di programmazione rappresentative, che spaziavano da semplici calcolatrici a prototipi di web‑app più complessi. Per ogni compito sono stati registrati tempo di esecuzione, correttezza e tassi di errore.

Panoramica delle prestazioni

Cursor Composer

App Movie‑tracker – numerosi errori UI; la vista “discover” era rotta.
Calcolatrice UI Goatee – funzionava correttamente, dimostrando che il modello può gestire logiche semplici.
Gioco Godo – non è riuscito a girare; modelli moderni come GLM‑4.5 e Miniax lo gestiscono facilmente.
Grande compito di codice aperto – non è stato completato.
App Spelt – è comparsa solo la schermata di login; gli errori di backend erano pervasivi.
Cropper di immagini Rust Tari – non funzionante.
Posizionamento complessivo: 11° nella classifica interna, dietro modelli come Kilo, Miniax e GLM‑4.5.

SWE‑1.5

Posizionamento 19° nella stessa classifica.
È riuscito a generare un’interfaccia UI per una calcolatrice ma non ha effettuato i calcoli.
Ha prodotto costantemente codice errato o incompleto nell’intera suite di test.

Perché i risultati sono importanti

Mancanza di trasparenza – Entrambe le aziende nascondono il modello di base esatto che hanno raffinato. La descrizione suggerisce una discendenza da GLM‑4.5 o Qwen‑3‑Coder, ma non vi è alcuna prova concreta.
Compromesso velocità‑qualità – Sebbene SWE‑1.5 raggiunga una maggiore velocità di token al secondo, la qualità dell’output è spesso inutilizzabile. La sola velocità non compensa il codice rotto.
Assenza di benchmark – Senza valutazioni accettate dalla comunità (es. HumanEval, MBPP), le affermazioni di prestazioni “di frontiera” rimangono non verificate.
Potenziali problemi etici – Distribuire un modello open‑source raffinato senza attribuzione può violare le norme della comunità e, in alcune giurisdizioni, i termini di licenza.

Analisi tecnica

Scelta del modello – Il comportamento osservato corrisponde più a Qwen‑3‑Coder o a un checkpoint più vecchio di GLM‑4.5 piuttosto che a un vero modello di classe 4.6. La mancanza di ragionamento avanzato e di utilizzo di strumenti suggerisce un’allineamento di pre‑training insufficiente.
Impatto del Reinforcement Learning (RL) – I modesti guadagni derivanti dal fine‑tuning RL sono superati dalla scarsa scelta del modello di base. Un corretto allineamento durante il pre‑training sarebbe necessario per vedere miglioramenti reali.
Considerazioni hardware – Entrambi i modelli girano su hardware ad alto throughput (Cerebras per SWE‑1.5, non specificato per Cursor). Tuttavia, modelli open più recenti (es. Miniax, GLM‑4.5) raggiungono già velocità comparabili o superiori sullo stesso hardware, rendendo il vantaggio di velocità irrilevante.

Implicazioni per il settore

Gap di trasparenza – Il rifiuto di divulgare il modello sottostante mina la fiducia. Gli utenti non possono verificare se il prodotto è una vera innovazione o semplicemente un checkpoint open‑source rinominato.
Costo opportunità – Aziende con capitalizzazioni di mercato di 10 miliardi di dollari potrebbero assumere team ML dedicati per sviluppare modelli proprietari o, almeno, attribuire apertamente il modello di base che stanno raffinando.
Reazione della comunità – La scarsa critica da parte della più ampia comunità IA suggerisce una crescente compiacenza verso la mancata attribuzione dei modelli.

Raccomandazioni per i professionisti

Priorizzare modelli open comprovati – Quando la velocità è fondamentale, considerare pesi aperti consolidati come Miniax, GLM‑4.5 o Mistral‑7B e applicare il proprio fine‑tuning.
Validare prima dell’integrazione – Eseguire una piccola suite di benchmark (es. generazione di codice, uso di strumenti, gestione degli errori) prima di adottare un nuovo modello di fornitore.
Richiedere trasparenza – Insistere su una documentazione chiara del modello di base, dei dati di addestramento e della licenza per evitare insidie legali e di prestazione.

Conclusione

Sia Cursor Composer sia SWE‑1.5 promettono una generazione di codice fulminea, ma la realtà è una serie di output veloci ma difettosi. I modelli faticano su compiti basilari che checkpoint open‑source più vecchi gestiscono con facilità, e il processo di sviluppo opaco solleva preoccupazioni etiche. Finché le aziende non renderanno pubbliche le loro fondamenta o non forniranno un modello realmente superiore, gli sviluppatori saranno meglio serviti aderendo a alternative ben documentate e validate dalla comunità.

Questo articolo riflette una valutazione tecnica indipendente e non promuove alcun prodotto specifico.

Recensione di Cursor Composer e SWE‑1.5 – Perché un'azienda da 10 miliardi di dollari ha lanciato un modello di qualità inferiore.

Recensione di Cursor Composer e SWE‑1.5 – Perché un’azienda da 10 miliardi di dollari ha lanciato un modello di qualità inferiore.

Introduzione

Contesto sui nuovi modelli

Cursor Composer

SWE‑1.5 (Windsurf)

Metodologia di test

Panoramica delle prestazioni

Cursor Composer

SWE‑1.5

Perché i risultati sono importanti

Analisi tecnica

Implicazioni per il settore

Raccomandazioni per i professionisti

Conclusione

Recensione di Cursor Composer e SWE‑1.5 – Perché un'azienda da 10 miliardi di dollari ha lanciato un modello di qualità inferiore.

Recensione di Cursor Composer e SWE‑1.5 – Perché un’azienda da 10 miliardi di dollari ha lanciato un modello di qualità inferiore.