spdup.net

Technologienieuws

Het nieuwe code‑model van ByteDance verslaat Claude en GPT‑5 in benchmarks, waardoor Anthropic zich zorgen maakt.


Het nieuwe code‑model van ByteDance verslaat Claude en GPT‑5 in benchmarks, waardoor Anthropic zich zorgen maakt.

Inleiding

Een recente release van ByteDance, de techgigant achter TikTok, heeft de AI‑programmeergemeenschap verrast. Hun nieuwe model – vaak aangeduid als Dubau Seed Code – presteert beter dan toonaangevende concurrenten zoals Anthropic’s Claude en de nog niet uitgebrachte GPT‑5 op verschillende programmeer‑benchmarks, en dat tegen een fractie van de prijs. De snelle opkomst van dit model kan verklaren waarom Anthropic naar verluidt de toegang heeft beperkt voor de Trey‑code‑editor, een ByteDance‑product dat eerder Claude gebruikte.

ByteDance en zijn AI‑ecosysteem

ByteDance is niet alleen een sociale‑mediapowerhouse; het heeft stilletjes een reeks AI‑tools opgebouwd, waaronder:

  • Trey – een AI‑ondersteunde code‑editor die geprezen wordt om zijn intuïtieve interface en “solo‑mode” workflow.
  • Volcano API – een platform dat ByteDance‑taalmodellen beschikbaar maakt voor ontwikkelaars, zij het momenteel beperkt tot Chinese gebruikers.
  • Dubau Seed Code – het nieuwste grote taalmodel (LLM) gericht op software‑engineering taken.

Deze aanbiedingen illustreren ByteDance’s ambitie om direct te concurreren met gevestigde spelers zoals OpenAI, Anthropic en Google.

De Trey‑code‑editor en de relatie met Anthropic

Trey verwierf populariteit dankzij zijn robuuste code‑aanvullingsmogelijkheden en de mogelijkheid om verschillende modellen te draaien, waarvan sommige aanvankelijk gratis waren. Anthropic heeft echter abrupt de toegang van Trey tot Claude‑modellen afgesloten, een zet die doet denken aan eerdere, controversiële beslissingen van Anthropic tegen andere diensten van derden. Terwijl de exacte beweegredenen onduidelijk blijven, suggereert intern testen dat Anthropic zich mogelijk bedreigd voelt door ByteDance’s opkomende programmeermodel.

Benchmark‑prestaties: SWE‑Bench Verified

Een van de meest gerespecteerde evaluaties voor code‑generatiemodellen is de SWE‑Bench Verified benchmark. Anthropic heeft historisch gezien zijn prestaties op deze test benadrukt, waardoor elke uitdaging voor zijn rangschikking bijzonder gevoelig is.

Resultatenoverzicht

  • Dubau Seed Code stond bovenaan het klassement en overtrof Anthropic’s Claude‑Sonnet met ongeveer 8 %.
  • Het model presteerde ook beter dan GPT‑5‑achtige baselines en andere toonaangevende systemen zoals Gemini 3 checkpoints.
  • In totaal behaalde Dubau Seed Code de 15e positie onder alle deelnemers, waarbij de vier topplaatsen werden ingenomen door Gemini‑varianten.

Deze resultaten tonen aan dat een relatief goedkoop model kan concurreren met, en zelfs premium‑aanbiedingen kan overtreffen op een cruciale programmeerbenchmark.

Kosten‑ en snelheidsvoordelen

Naast ruwe prestaties valt Dubau Seed Code op door zijn betaalbare prijs en snelle inferentie:

  • Prijs: $17‑$12 per miljoen tokens (ongeveer 15× goedkoper dan Claude‑Sonnet).
  • Doorvoersnelheid: Rond de 80 tokens per seconde, waardoor bijna realtime reacties mogelijk zijn tijdens interactieve code‑sessies.
  • Multimodale ondersteuning: Het model kan afbeeldingen en video verwerken, waardoor de bruikbaarheid verder reikt dan louter tekstgeneratie.

Deze eigenschappen maken het model aantrekkelijk voor ontwikkelaars en bedrijven die op zoek zijn naar kosteneffectieve AI‑ondersteuning.

Toegang tot het model buiten China

Hoewel de Volcano API een Chinees mobiel nummer vereist, kunnen ontwikkelaars wereldwijd nog steeds experimenteren met Dubau Seed Code via ZenMox (een open‑router‑achtig platform). ZenMox biedt:

  • Gratis proefcredits voor nieuwe gebruikers.
  • Een Anthropic‑compatibel API‑eindpunt, waardoor bestaande Claude‑gebaseerde workflows met minimale code‑aanpassingen kunnen overschakelen naar Dubau Seed Code.

Deze toegankelijkheid heeft bredere community‑tests mogelijk gemaakt en bijgedragen aan de snelle adoptie van het model.

Praktische evaluatie

De auteur voerde een reeks praktische tests uit om de capaciteiten van het model te beoordelen over verschillende domeinen.

Code‑ en grafiektaken

  • Plattegrondgeneratie: Produceerde correcte code, hoewel de visuele kwaliteit bescheiden was.
  • SVG‑panda met burger: Herkenbare graphics; interactie tussen elementen kan verbeteren.
  • 3‑JS Pokéball: Nauwkeurige kleuren en vormen; ontbrekende interactieve knop.
  • Autoplay schaakbord: Werkte niet zoals verwacht.
  • Minecraft‑stijl kaart (Kandinsky‑invloed): Genereerde indrukwekkende diepte‑effecten en willekeurig terrein, beter dan Sonnet in visuele rijkdom.
  • Vlinder‑animatie: Vloeiende vlieganimatie en aantrekkelijke omgeving, ondanks een minder gedetailleerd vlindermodel.
  • Rust CLI‑tool: Werkte correct.
  • Blender‑script: Voerde niet succesvol uit.

Al met al behaalde het model een respectabele 15e plaats op het SWE‑Bench‑klassement, vooral opmerkelijk gezien de lage kosten.

Agent‑benchmarks (Claw‑Code integratie)

In combinatie met Claw‑Code, een toolset voor het evalueren van AI‑agents, waren de resultaten gemengd:

  • Film‑tracker app: Niet functioneel, vol bugs.
  • God‑game simulatie: Talrijke fouten belemmerden succesvolle uitvoering.
  • Go TUI‑calculator: Uitstekende prestatie; genereerde een volledig functionele, esthetisch aantrekkelijke UI.
  • Spelt‑app, Nux‑app, Open‑Code repository‑query: Allemaal mislukt in het leveren van bruikbare resultaten.

Deze uitkomsten plaatsten het model op 12e positie overall, beter dan sommige commerciële agents zoals Cursor Composer, maar achter gespecialiseerde systemen zoals Kimmy en Quen Code. De auteur merkt op dat het model geoptimaliseerd lijkt voor Trey’s workflow, en dat de afhankelijkheid van terminal‑commando’s in plaats van edit‑diff‑operaties de prestaties mogelijk heeft belemmerd.

Implicaties voor Anthropic en de bredere markt

De opkomst van een hoog‑presterend, laag‑geprijsd programmeermodel van een Chinese leverancier daagt het heersende narratief uit dat premium prijzen superieure capaciteit garanderen. Anthropic’s beslissing om Trey’s toegang tot Claude te beperken kan worden gezien als een defensieve manoeuvre om marktaandeel te beschermen.

Voor ontwikkelaars is de belangrijkste conclusie dat betaalbare alternatieven nu bestaan zonder veel in te leveren op kwaliteit. Deze verschuiving kan leiden tot bredere adoptie van AI‑ondersteunde ontwikkeltools, vooral onder startups en kostenbewuste ondernemingen.

Conclusie

ByteDance’s Dubau Seed Code‑model levert een overtuigende combinatie van benchmark‑leidende prestaties, multimodale mogelijkheden en een uiterst lage prijs. Het succes op SWE‑Bench Verified en competitieve resultaten op agent‑taken tonen aan dat een goed afgestemd, kleiner model kan concurreren met industriële zwaargewichten zoals Claude‑Sonnet en de aankomende GPT‑5.

De beschikbaarheid van het model via platforms zoals ZenMox zorgt ervoor dat ontwikkelaars wereldwijd ermee kunnen experimenteren, wat het landschap van AI‑gedreven software‑engineering mogelijk zal hervormen. Naarmate de markt reageert, kunnen we een toenemende druk op gevestigde aanbieders zien om prijsstructuren en toegankelijkheid te heroverwegen, wat uiteindelijk ten goede komt aan de bredere ontwikkelaarsgemeenschap.

Bekijk Originele Video