spdup.net

Tech-Nachrichten

Das neue Code‑Modell von ByteDance übertrifft Claude und GPT‑5 in Benchmarks und löst Bedenken bei Anthropic aus.


Das neue Code‑Modell von ByteDance übertrifft Claude und GPT‑5 in Benchmarks und löst Bedenken bei Anthropic aus.

Einführung

Eine kürzlich veröffentlichte Version von ByteDance, dem Technologieriesen hinter TikTok, hat die KI‑Programmier‑Community überrascht. Ihr neues Modell – häufig als Dubau Seed Code bezeichnet – übertrifft führende Konkurrenten wie Anthropics Claude und das noch nicht veröffentlichte GPT‑5 in mehreren Programmier‑Benchmarks, und das zu einem Bruchteil des Preises. Der rasche Aufstieg dieses Modells könnte erklären, warum Anthropic Berichten zufolge den Zugriff für den Trey‑Code‑Editor, ein ByteDance‑Produkt, das zuvor Claude nutzte, eingeschränkt hat.

ByteDance und sein KI‑Ökosystem

ByteDance ist nicht nur ein Social‑Media‑Gigant; das Unternehmen hat leise eine Reihe von KI‑Werkzeugen aufgebaut, darunter:

  • Trey – ein KI‑unterstützter Code‑Editor, der für seine intuitive Benutzeroberfläche und den „Solo‑Mode“-Workflow gelobt wird.
  • Volcano API – eine Plattform, die ByteDances Sprachmodelle Entwicklern zur Verfügung stellt, derzeit jedoch nur für chinesische Nutzer zugänglich ist.
  • Dubau Seed Code – das neueste Large Language Model (LLM), das sich auf Aufgaben der Software‑Entwicklung konzentriert.

Diese Angebote zeigen ByteDances Ambition, direkt mit etablierten Akteuren wie OpenAI, Anthropic und Google zu konkurrieren.

Der Trey‑Code‑Editor und seine Beziehung zu Anthropic

Trey wurde wegen seiner robusten Code‑Vervollständigungs‑Funktionen und der Möglichkeit, verschiedene Modelle auszuführen, populär – einige davon waren zunächst kostenlos. Anthropic hat jedoch plötzlich Treys Zugriff auf Claude‑Modelle beendet, ein Schritt, der an frühere umstrittene Entscheidungen von Anthropic gegenüber anderen Drittanbieterdiensten erinnert. Während die genauen Beweggründe unklar bleiben, deutet internes Testing darauf hin, dass Anthropic sich durch ByteDances aufstrebendes Coding‑Modell bedroht fühlt.

Benchmark‑Leistung: SWE‑Bench Verified

Einer der angesehensten Tests für Code‑Generierungs‑Modelle ist der SWE‑Bench Verified‑Benchmark. Anthropic hat historisch seine Leistungen in diesem Test hervorgehoben, sodass jede Herausforderung seiner Platzierung besonders sensibel ist.

Ergebnis‑Übersicht

  • Dubau Seed Code führte die Rangliste an und übertraf Anthropics Claude‑Sonnet um etwa 8 %.
  • Das Modell schlug zudem GPT‑5‑artige Baselines und andere führende Systeme wie Gemini 3‑Checkpoints.
  • Insgesamt belegte Dubau Seed Code den 15. Platz unter allen Teilnehmenden, wobei die vier besten Plätze von Gemini‑Varianten eingenommen wurden.

Diese Resultate zeigen, dass ein relativ preiswertes Modell mit Premium‑Angeboten auf einem kritischen Coding‑Benchmark mithalten und sie sogar übertreffen kann.

Kosten‑ und Geschwindigkeitsvorteile

Neben der reinen Leistungsfähigkeit besticht Dubau Seed Code durch erschwingliche Preise und schnelle Inferenz:

  • Preisgestaltung: 17 $‑12 $ pro Million Tokens (etwa 15‑mal günstiger als Claude‑Sonnet).
  • Durchsatz: rund 80 Tokens pro Sekunde, was nahezu Echtzeit‑Antworten für interaktive Coding‑Sitzungen ermöglicht.
  • Multimodale Unterstützung: Das Modell kann Bilder und Videos verarbeiten und erweitert damit seine Einsatzmöglichkeiten über reine Textgenerierung hinaus.

Diese Eigenschaften machen das Modell attraktiv für Entwickler*innen und Unternehmen, die kosteneffiziente KI‑Unterstützung suchen.

Zugriff auf das Modell außerhalb Chinas

Während die Volcano API eine chinesische Mobilnummer erfordert, können Entwickler weltweit das Dubau Seed Code‑Modell über ZenMox (eine Open‑Router‑ähnliche Plattform) testen. ZenMox bietet:

  • Kostenlose Testguthaben für neue Nutzer*innen.
  • Einen Anthropic‑kompatiblen API‑Endpunkt, der es ermöglicht, bestehende Claude‑basierte Workflows mit minimalen Code‑Änderungen auf Dubau Seed Code umzustellen.

Diese Zugänglichkeit hat breitere Community‑Tests gefördert und zum schnellen Aufstieg des Modells beigetragen.

Praxis‑Evaluation

Der Autor führte eine Reihe praktischer Tests durch, um die Fähigkeiten des Modells in verschiedenen Bereichen zu beurteilen.

Programmier‑ und Grafikaufgaben

  • Grundriss‑Generierung: Korrekter Code, jedoch nur mäßige visuelle Qualität.
  • SVG‑Panda mit Burger: Erkennbare Grafik; die Interaktion zwischen den Elementen könnte verbessert werden.
  • 3‑JS‑Pokéball: Farben und Formen stimmen; interaktiver Button fehlt.
  • Autoplay‑Schachbrett: Funktionierte nicht wie erwartet.
  • Minecraft‑ähnliche Karte (Kandinsky‑Einfluss): Beeindruckende Tiefeneffekte und zufälliges Terrain, übertraf Sonnet in visueller Reichhaltigkeit.
  • Schmetterlings‑Animation: Fließende Fluganimation und ansprechende Umgebung, obwohl das Schmetterlings‑Modell weniger detailreich war.
  • Rust‑CLI‑Tool: Funktionierte korrekt.
  • Blender‑Skript: Konnte nicht erfolgreich ausgeführt werden.

Insgesamt erreichte das Modell einen respektablen 15. Platz auf der SWE‑Bench‑Rangliste, was angesichts der geringen Kosten bemerkenswert ist.

Agenten‑Benchmarks (Claw‑Code‑Integration)

In Kombination mit Claw‑Code, einem Toolset zur Bewertung von KI‑Agenten, fielen die Ergebnisse gemischt aus:

  • Movie‑Tracker‑App: Nicht funktionsfähig, voller Fehler.
  • God‑Game‑Simulation: Zahlreiche Fehler verhinderten die Ausführung.
  • Go‑TUI‑Rechner: Hervorragende Leistung; erzeugte ein voll funktionsfähiges, ästhetisch ansprechendes UI.
  • Spelt‑App, Nux‑App, Open‑Code‑Repository‑Abfrage: Alle lieferten keine nutzbaren Ergebnisse.

Damit belegte das Modell 12. Platz insgesamt, übertraf einige kommerzielle Agenten wie Cursor Composer, lag jedoch hinter spezialisierten Systemen wie Kimmy und Quen Code zurück. Der Autor merkt an, dass das Modell offenbar für Treys Workflow optimiert ist und die starke Abhängigkeit von Terminal‑Befehlen statt Edit‑Diff‑Operationen die Performance beeinträchtigt haben könnte.

Auswirkungen für Anthropic und den breiteren Markt

Das Auftauchen eines leistungsstarken, kostengünstigen Coding‑Modells aus China stellt die gängige Annahme in Frage, dass Premium‑Preise automatisch überlegene Fähigkeiten bedeuten. Anthropics Entscheidung, Treys Zugriff auf Claude zu beschränken, könnte als defensiver Schachzug zum Schutz des Marktanteils interpretiert werden.

Für Entwickler*innen ist die zentrale Erkenntnis, dass erschwingliche Alternativen jetzt verfügbar sind, ohne wesentlich an Qualität einzubüßen. Dieser Wandel könnte die breitere Adoption von KI‑unterstützten Entwicklungswerkzeugen vorantreiben, insbesondere bei Start‑Ups und kostenbewussten Unternehmen.

Fazit

ByteDances Dubau Seed Code‑Modell bietet eine überzeugende Kombination aus benchmark‑führender Leistung, multimodalen Fähigkeiten und einem außerordentlich niedrigen Preis. Sein Erfolg bei SWE‑Bench Verified und die konkurrenzfähigen Ergebnisse bei agentenbasierten Aufgaben zeigen, dass ein gut abgestimmtes, kleineres Modell mit Branchengrößen wie Claude‑Sonnet und dem kommenden GPT‑5 mithalten kann.

Die Verfügbarkeit des Modells über Plattformen wie ZenMox ermöglicht Entwicklern weltweit, damit zu experimentieren, und könnte das Landschaftsbild der KI‑gestützten Software‑Entwicklung neu prägen. Während der Markt reagiert, dürfte der Druck auf etablierte Anbieter steigen, ihre Preis‑ und Zugangsmodelle zu überdenken – zum Vorteil der gesamten Entwickler‑Community.

Originalvideo Ansehen