Recensione di Cursor Composer e SWE‑1.5 – Perché un'azienda da 10 miliardi di dollari ha lanciato un modello di qualità inferiore.
Recensione di Cursor Composer e SWE‑1.5 – Perché un’azienda da 10 miliardi di dollari ha lanciato un modello di qualità inferiore.
Introduzione
Il mercato degli assistenti di programmazione basati su IA si sta riscaldando e questa settimana due attori di peso—Cursor e Windsurf—hanno presentato nuovi modelli, Cursor Composer e SWE‑1.5. Entrambi promettono latenza ultra‑bassa per la programmazione “agente”, ma la tecnologia sottostante e le prestazioni sollevano serie domande. Questo articolo analizza le capacità dichiarate dei modelli, la metodologia di test e perché i risultati potrebbero deludere anche gli utenti più indulgenti.
Contesto sui nuovi modelli
Cursor Composer
- Commercializzato come modello “di frontiera” quattro volte più veloce rispetto a LLM comparabili.
- Progettato per compiti di programmazione a bassa latenza e multi‑passo, con la maggior parte dei turni completati in meno di 30 secondi.
- Basato su un’infrastruttura “open‑weights” non divulgata, presumibilmente costruita su un modello di classe 4.6.
- Non sono stati pubblicati risultati di benchmark, rendendo difficile la verifica indipendente.
SWE‑1.5 (Windsurf)
- Presentato come il più veloce dei due, capace di raggiungere fino a 950 token al secondo su hardware Cerebras.
- Addestrato su una base open‑source non specificata con dati proprietari di reinforcement‑learning.
- Posizionato come alternativa ad alta capacità di throughput per la generazione di codice.
Metodologia di test
La valutazione è stata effettuata con gli strumenti CLI ufficiali forniti da ciascun fornitore:
- Cursor Composer – accessibile tramite il Cursor CLI (l’interfaccia dell’editor mostrava solo il modello più vecchio Cheetah).
- SWE‑1.5 – accessibile tramite l’editor Windsurf.
Entrambi i modelli sono stati sottoposti a una serie di sfide di programmazione rappresentative, che spaziavano da semplici calcolatrici a prototipi di web‑app più complessi. Per ogni compito sono stati registrati tempo di esecuzione, correttezza e tassi di errore.
Panoramica delle prestazioni
Cursor Composer
- App Movie‑tracker – numerosi errori UI; la vista “discover” era rotta.
- Calcolatrice UI Goatee – funzionava correttamente, dimostrando che il modello può gestire logiche semplici.
- Gioco Godo – non è riuscito a girare; modelli moderni come GLM‑4.5 e Miniax lo gestiscono facilmente.
- Grande compito di codice aperto – non è stato completato.
- App Spelt – è comparsa solo la schermata di login; gli errori di backend erano pervasivi.
- Cropper di immagini Rust Tari – non funzionante.
- Posizionamento complessivo: 11° nella classifica interna, dietro modelli come Kilo, Miniax e GLM‑4.5.
SWE‑1.5
- Posizionamento 19° nella stessa classifica.
- È riuscito a generare un’interfaccia UI per una calcolatrice ma non ha effettuato i calcoli.
- Ha prodotto costantemente codice errato o incompleto nell’intera suite di test.
Perché i risultati sono importanti
- Mancanza di trasparenza – Entrambe le aziende nascondono il modello di base esatto che hanno raffinato. La descrizione suggerisce una discendenza da GLM‑4.5 o Qwen‑3‑Coder, ma non vi è alcuna prova concreta.
- Compromesso velocità‑qualità – Sebbene SWE‑1.5 raggiunga una maggiore velocità di token al secondo, la qualità dell’output è spesso inutilizzabile. La sola velocità non compensa il codice rotto.
- Assenza di benchmark – Senza valutazioni accettate dalla comunità (es. HumanEval, MBPP), le affermazioni di prestazioni “di frontiera” rimangono non verificate.
- Potenziali problemi etici – Distribuire un modello open‑source raffinato senza attribuzione può violare le norme della comunità e, in alcune giurisdizioni, i termini di licenza.
Analisi tecnica
- Scelta del modello – Il comportamento osservato corrisponde più a Qwen‑3‑Coder o a un checkpoint più vecchio di GLM‑4.5 piuttosto che a un vero modello di classe 4.6. La mancanza di ragionamento avanzato e di utilizzo di strumenti suggerisce un’allineamento di pre‑training insufficiente.
- Impatto del Reinforcement Learning (RL) – I modesti guadagni derivanti dal fine‑tuning RL sono superati dalla scarsa scelta del modello di base. Un corretto allineamento durante il pre‑training sarebbe necessario per vedere miglioramenti reali.
- Considerazioni hardware – Entrambi i modelli girano su hardware ad alto throughput (Cerebras per SWE‑1.5, non specificato per Cursor). Tuttavia, modelli open più recenti (es. Miniax, GLM‑4.5) raggiungono già velocità comparabili o superiori sullo stesso hardware, rendendo il vantaggio di velocità irrilevante.
Implicazioni per il settore
- Gap di trasparenza – Il rifiuto di divulgare il modello sottostante mina la fiducia. Gli utenti non possono verificare se il prodotto è una vera innovazione o semplicemente un checkpoint open‑source rinominato.
- Costo opportunità – Aziende con capitalizzazioni di mercato di 10 miliardi di dollari potrebbero assumere team ML dedicati per sviluppare modelli proprietari o, almeno, attribuire apertamente il modello di base che stanno raffinando.
- Reazione della comunità – La scarsa critica da parte della più ampia comunità IA suggerisce una crescente compiacenza verso la mancata attribuzione dei modelli.
Raccomandazioni per i professionisti
- Priorizzare modelli open comprovati – Quando la velocità è fondamentale, considerare pesi aperti consolidati come Miniax, GLM‑4.5 o Mistral‑7B e applicare il proprio fine‑tuning.
- Validare prima dell’integrazione – Eseguire una piccola suite di benchmark (es. generazione di codice, uso di strumenti, gestione degli errori) prima di adottare un nuovo modello di fornitore.
- Richiedere trasparenza – Insistere su una documentazione chiara del modello di base, dei dati di addestramento e della licenza per evitare insidie legali e di prestazione.
Conclusione
Sia Cursor Composer sia SWE‑1.5 promettono una generazione di codice fulminea, ma la realtà è una serie di output veloci ma difettosi. I modelli faticano su compiti basilari che checkpoint open‑source più vecchi gestiscono con facilità, e il processo di sviluppo opaco solleva preoccupazioni etiche. Finché le aziende non renderanno pubbliche le loro fondamenta o non forniranno un modello realmente superiore, gli sviluppatori saranno meglio serviti aderendo a alternative ben documentate e validate dalla comunità.
Questo articolo riflette una valutazione tecnica indipendente e non promuove alcun prodotto specifico.