Il nuovo modello di codice di ByteDance supera Claude e GPT‑5 nei benchmark, sollevando preoccupazioni per Anthropic.
Il nuovo modello di codice di ByteDance supera Claude e GPT‑5 nei benchmark, sollevando preoccupazioni per Anthropic.
Introduzione
Una recente release di ByteDance, il gigante tecnologico dietro TikTok, ha sorpreso la comunità dell’AI per la programmazione. Il loro nuovo modello—spesso indicato come Dubau Seed Code—supera i principali concorrenti come Claude di Anthropic e il non ancora rilasciato GPT‑5 su diversi benchmark di codifica, il tutto a una frazione del costo. L’ascesa rapida di questo modello potrebbe spiegare perché Anthropic avrebbe limitato l’accesso all’editor di codice Trey, prodotto di ByteDance che in precedenza sfruttava Claude.
ByteDance e il suo ecosistema AI
ByteDance non è solo una potenza dei social media; ha silenziosamente costruito una suite di strumenti AI, tra cui:
- Trey – un editor di codice assistito dall’AI, elogiato per la sua interfaccia intuitiva e il flusso di lavoro in “modalità solo”.
- Volcano API – una piattaforma che mette a disposizione dei sviluppatori i modelli linguistici di ByteDance, sebbene attualmente limitata agli utenti cinesi.
- Dubau Seed Code – l’ultimo large language model (LLM) focalizzato sui compiti di ingegneria del software.
Queste offerte illustrano l’ambizione di ByteDance di competere direttamente con attori consolidati come OpenAI, Anthropic e Google.
L’editor di codice Trey e il suo rapporto con Anthropic
Trey ha guadagnato popolarità per le sue robuste capacità di completamento del codice e per la possibilità di eseguire una varietà di modelli, alcuni dei quali inizialmente gratuiti. Tuttavia, Anthropic ha interrotto bruscamente l’accesso di Trey ai modelli Claude, una mossa che ricorda decisioni precedenti e controverse di Anthropic nei confronti di altri servizi di terze parti. Sebbene le motivazioni precise rimangano opache, i test interni suggeriscono che Anthropic possa sentirsi minacciata dal modello di codifica emergente di ByteDance.
Prestazioni sui benchmark: SWE‑Bench Verified
Una delle valutazioni più rispettate per i modelli di generazione di codice è il benchmark SWE‑Bench Verified. Anthropic ha storicamente evidenziato le proprie prestazioni su questo test, rendendo qualsiasi sfida al suo ranking particolarmente delicata.
Panoramica dei risultati
- Dubau Seed Code ha conquistato la vetta della classifica, superando Claude‑Sonnet di Anthropic di circa 8 %.
- Il modello ha inoltre superato le baseline in stile GPT‑5 e altri sistemi leader come i checkpoint Gemini 3.
- Nel complesso, Dubau Seed Code ha ottenuto la 15ª posizione tra tutti i partecipanti, con i primi quattro posti occupati da varianti di Gemini.
Questi risultati dimostrano che un modello relativamente economico può competere con, e persino superare, le offerte premium su un benchmark critico di codifica.
Vantaggi di costo e velocità
Oltre alle prestazioni pure, Dubau Seed Code si distingue per il suo prezzo accessibile e l’inferenza rapida:
- Prezzo: 17‑12 $ per milione di token (circa 15 volte più economico di Claude‑Sonnet).
- Throughput: circa 80 token al secondo, consentendo risposte quasi in tempo reale per sessioni di codifica interattive.
- Supporto multimodale: il modello può elaborare immagini e video, ampliando la sua utilità oltre la semplice generazione di testo.
Queste caratteristiche rendono il modello attraente per sviluppatori e imprese che cercano assistenza AI a costi contenuti.
Accesso al modello al di fuori della Cina
Sebbene la Volcano API richieda un numero di cellulare cinese, gli sviluppatori di tutto il mondo possono comunque sperimentare Dubau Seed Code tramite ZenMox (una piattaforma in stile open‑router). ZenMox offre:
- Crediti di prova gratuiti per i nuovi utenti.
- Un endpoint API compatibile con Anthropic, che consente ai flussi di lavoro basati su Claude di passare a Dubau Seed Code con minime modifiche al codice.
Questa accessibilità ha facilitato test più ampi da parte della comunità e ha contribuito alla rapida adozione del modello.
Valutazione nel mondo reale
L’autore ha condotto una serie di test pratici per valutare le capacità del modello in diversi ambiti.
Compiti di programmazione e grafica
- Generazione di planimetrie: Ha prodotto codice corretto, sebbene la qualità visiva fosse modesta.
- SVG Panda con hamburger: Grafica riconoscibile; l’interazione tra gli elementi potrebbe migliorare.
- Pokéball 3‑JS: Colori e forme accurati; manca il pulsante interattivo.
- Scacchiera autoplay: Non ha funzionato come previsto.
- Mappa in stile Minecraft (influenza Kandinsky): Ha generato effetti di profondità impressionanti e terreno casuale, superando Sonnet in ricchezza visiva.
- Animazione farfalla: Animazione di volo fluida e ambiente accattivante, nonostante un modello di farfalla meno dettagliato.
- Strumento CLI Rust: Funzionato correttamente.
- Script Blender: Non è stato eseguito con successo.
Nel complesso, il modello ha raggiunto un rispettabile 15° posto nella classifica SWE‑Bench, particolarmente notevole considerando il suo basso costo.
Benchmark agentici (integrazione Claw‑Code)
Quando abbinato a Claw‑Code, un set di strumenti per valutare agenti AI, i risultati sono stati misti:
- App di tracciamento film: Non funzionale, piena di bug.
- Simulazione God‑game: Numerosi errori hanno impedito l’esecuzione corretta.
- Calcolatrice Go TUI: Prestazioni eccezionali; ha generato un’interfaccia completamente funzionale e esteticamente gradevole.
- App Spelt, app Nux, query al repository Open‑Code: Tutte hanno fallito nel produrre risultati utilizzabili.
Questi risultati hanno posizionato il modello al 12° posto complessivo, superando alcuni agenti commerciali come Cursor Composer ma rimanendo dietro a sistemi specializzati come Kimmy e Quen Code. L’autore osserva che il modello sembra ottimizzato per il flusso di lavoro di Trey, e la dipendenza da comandi terminale anziché operazioni edit‑diff potrebbe aver ostacolato le prestazioni.
Implicazioni per Anthropic e il mercato più ampio
L’emergere di un modello di codifica ad alte prestazioni e a basso costo da parte di un fornitore cinese sfida la narrativa dominante secondo cui i prezzi premium garantiscono capacità superiori. La decisione di Anthropic di limitare l’accesso di Trey a Claude potrebbe essere interpretata come una mossa difensiva per proteggere la quota di mercato.
Per gli sviluppatori, il punto chiave è che esistono ora alternative accessibili senza sacrificare molto in termini di qualità. Questo cambiamento potrebbe favorire un’adozione più ampia di strumenti di sviluppo assistiti dall’AI, soprattutto tra startup e imprese attente ai costi.
Conclusione
Il modello Dubau Seed Code di ByteDance offre una combinazione convincente di prestazioni leader nei benchmark, capacità multimodali e un prezzo eccezionalmente basso. Il suo successo su SWE‑Bench Verified e i risultati competitivi nei compiti agentici dimostrano che un modello più piccolo, ben ottimizzato, può competere con i giganti del settore come Claude‑Sonnet e il prossimo GPT‑5.
La disponibilità del modello tramite piattaforme come ZenMox garantisce che gli sviluppatori di tutto il mondo possano sperimentarlo, potenzialmente rimodellando il panorama dell’ingegneria del software guidata dall’AI. Man mano che il mercato reagisce, potremmo assistere a una maggiore pressione sui fornitori consolidati per rivedere le strutture di prezzo e l’accessibilità, a beneficio della più ampia comunità di sviluppatori.