Vergleich von sechs LLMs für reale Code‑Korrekturen – GPT‑5, Claude Sonnet, Grok und mehr
Vergleich von sechs LLMs für reale Code‑Korrekturen – GPT‑5, Claude Sonnet, Grok und mehr
Einführung
Ein aktueller Benchmark des Kilo‑Code‑Blogs stellte sechs führende Large‑Language‑Models (LLMs) in drei realistischen Programmier‑Challenges auf die Probe. Ziel war simpel: herausfinden, welche Modelle sicherheitskritische Fehler erkennen, produktionsreife Korrekturen vorschlagen und das alles kosteneffizient tun können. Bewertet wurden GPT‑5, OpenAI o1, Claude Opus 4.1, Claude Sonnet 4.5, Grok 4 und Gemini 2.5 Pro.
Die Ergebnisse zeigen einen klaren Kompromiss zwischen roher technischer Tiefe und praktischer Wartbarkeit. Während jedes Modell die Schwachstellen identifizierte, variierten Qualität, Vollständigkeit und Kosten der Lösungen stark. Nachfolgend ein detaillierter Überblick über die Methodik, die drei Testfälle und umsetzbare Empfehlungen für Ingenieure, die ein LLM für Code‑Reviews oder automatisierte PR‑Checks einsetzen wollen.
Test‑Methodik
Kilo Code entwickelte ein einheitliches Test‑Framework, um einen fairen Vergleich zu gewährleisten:
- Eingabe: Kleine, riskante Code‑Snippets (10‑50 Zeilen) wurden jedem Modell mit demselben Prompt zugeführt: „Fix this. No hints, no leading questions.“
- Phase 1 – KI‑Bewertung: Ein automatisiertes Rubrik‑System bewertete jede Antwort nach Korrektheit, Code‑Qualität, Vollständigkeit, sicherheitsorientierten Praktiken und Performance.
- Phase 2 – Menschliche Validierung: Ingenieure prüften die KI‑bewerteten Fixes und wählten die Versionen aus, die sie tatsächlich mergen würden.
Dieser zweistufige Ansatz kombiniert objektive Metriken mit realer Entwickler‑Beurteilung und liefert ein pragmatisches Bild vom Nutzen jedes Modells in Produktions‑Pipelines.
Szenario 1 – Node.js‑Config‑Merge‑Vulnerabilität
Problem: Eine Deep‑Merge‑Funktion propagiert unbeabsichtigt ein bösartiges admin‑Flag aus einer manipulierten Payload über Prototyp‑Ketten – ein klassisches OASP‑Muster.
Modell‑Ergebnisse:
- GPT‑5: Implementierte mehrschichtige Schutzmaßnahmen – Null‑Prototype‑Basisobjekte, explizites Blockieren riskanter Schlüssel,
hasOwnProperty‑Checks und das Einfrieren sensibler Objekte. Der Fix war gründlich und produktionsreif. - OpenAI o1: Liefert saubere Hilfsfunktionen, eine knappe Liste verbotener Schlüssel und gut lesbare Kommentare. Die Lösung ist innerhalb von Minuten auditierbar.
- Claude Sonnet 4.5: Nutzt
Object.create(null)und Schlüssel‑Blocking, bietet soliden Schutz, jedoch etwas weniger Tiefe als GPT‑5. - Gemini 2.5 Pro: Setzt Schlüssel‑Filter und Null‑Prototypen ein, verpasst aber einige rekursive Randfälle.
- Claude Opus 4.1: Vertraut auf Schemata und Typ‑Checks – wirksam, aber mit zusätzlichem Wartungsaufwand.
- Grok 4: Konzentriert sich auf einfaches Filtern und lässt
hasOwnProperty‑Validierung weg, was zu einem schwächeren Fix führt.
Fazit: Alle Modelle erkannten den Fehler, doch nur GPT‑5 und OpenAI o1 lieferten produktionsreife Fixes ohne übermäßige Komplexität.
Szenario 2 – Moderner Agent‑Workflow (2025‑Stil)
Problem: Ein KI‑gesteuerter Agent holt eine Webseite, interpretiert deren Inhalt und schlägt Tool‑Aufrufe an eine Cloud‑Management‑API vor. Ohne strenge Grenzen kann der Agent bösartige Anweisungen ausführen, was zu Token‑Leckage zwischen Tenants und unautorisierten Änderungen führt.
Modell‑Ergebnisse:
- GPT‑5: Führte enge Tool‑Scopes, zweistufige Bestätigungsregeln, strenge Vertrauensgrenzen (Credentials erscheinen nie im Modell‑Text), Provenienz‑Checks für das geladene HTML und rollenbasierte, kurzlebige Tokens ein.
- OpenAI o1: Entspricht GPT‑5 in der Tiefe, ergänzt um Shadow‑Tenant‑RBAC‑Analyse, Response‑Schema‑Validierung und einer Konfiguration, die Dateisystem‑Zugriff komplett entfernt.
- Claude Sonnet 4.5: Deckt Vertrauensgrenzen und Provenienz‑Tracking ab, fehlt jedoch an den granularen Implementierungsdetails von GPT‑5.
- Gemini 2.5 Pro: Scoped Tools und nutzt Schema‑Checks; das Gating ist vorhanden, aber leichter als bei den Top‑Performern.
- Claude Opus 4.1: Verwendet Zod‑Validierung und DOM‑Purify, liefert klare Diagramme, aber weniger geschichtete Abwehr.
- Grok 4: Verweist auf OASP‑Top‑10 und NIST‑Richtlinien mit Allow‑Lists; Gating‑Logik bleibt simpel.
Fazit: Bei neueren, komplexen Mustern überwiegt tieferes Reasoning (wie bei GPT‑5 und OpenAI o1) gegenüber einfachem Pattern‑Matching.
Szenario 3 – ImageMagick‑Command‑Injection
Problem: Eine Express‑API baut einen Shell‑Befehl für ImageMagick aus benutzer‑suppliertem Font und Text. Eine bösartige Payload kann Shell‑Operatoren (z. B. ; rm -rf /) injizieren und beliebigen Code ausführen.
Modell‑Ergebnisse:
- GPT‑5: Implementierte eine umfassende Verteidigung – strenge Allow‑Lists, absolute Font‑Pfade, Vermeidung spezieller Präfixe, Ausführung über Argument‑Vektoren (kein Shell), Eingabe via STDIN, Größen‑/Rate‑Limits und automatische Bereinigung temporärer Dateien.
- Claude Opus 4.1: Ähnliche Gründlichkeit mit
spawn, Allow‑Lists, Größen‑Validierung, Steuerzeichen‑Filter und detaillierten Demos für Reviewer. - Claude Sonnet 4.5: Nutzt
execFilemit starken Allow‑Lists und Rate‑Limiting. - OpenAI o1: Wechselt zu
execFilemit knapper Font‑Validierung und Text‑Sanitization. - Gemini 2.5 Pro: Setzt
spawnmit Allow‑Lists und sauberer Validierung ein. - Grok 4: Erklärt Shell‑Parsing‑Fallstricke (Semikolon, Pipe, Ampersand, Backticks) und wechselt zu
spawnmit Bereichs‑Validierung.
Fazit: Die besten Lösungen schichten sichere Prozess‑Ausführung mit strengen Allow‑Lists und Rate‑Limits, wodurch Shell‑Injection‑Vektoren eliminiert werden.
Kostenanalyse
Die Ausführung aller drei Szenarien über die sechs Modelle kostete insgesamt etwa 181 $. Der ImageMagick‑Fall war am teuersten wegen der langen Modell‑Ausgaben. Das Node.js‑Merge‑Szenario war am günstigsten und lag bei durchschnittlich 0,60 $ pro Evaluation (etwa 0,10 $ pro Modell‑Durchlauf).
Budget‑Empfehlungen:
- Für massives Scannen, bei dem Kosten zählen, liefern Gemini 2.5 Pro oder OpenAI o1 90‑95 % der GPT‑5‑Qualität bei rund 72 % geringeren Kosten.
- Für Hochrisiko‑Domänen (Finanzen, Gesundheitsdaten, privilegierte APIs) rechtfertigt die höhere Ausgabe von GPT‑5 die maximalen Schutzmaßnahmen.
- Für allgemeine OASP‑Reviews bietet Claude Sonnet 4.5 ein starkes Gleichgewicht zwischen Abdeckung und Preis.
Pragmatische Empfehlungen
- Kritische Systeme: Setzen Sie GPT‑5 ein. Die mehrschichtigen Abwehrmechanismen und exhaustiven Fixes rechtfertigen den Aufpreis.
- High‑Volume, Low‑Risk‑Scans: Wählen Sie Gemini 2.5 Pro oder OpenAI o1, um fast Top‑Performance zu einem Bruchteil der Kosten zu erhalten.
- Mittelweg: Claude Sonnet 4.5 liefert solide Sicherheit bei bekannten Mustern und bleibt budget‑freundlich.
- Wartbarkeit: Die menschlichen Reviewer bevorzugten OpenAI o1, weil die Fixes kompakt, in 15 Minuten lesbar und dennoch für die komplexesten Szenarien ausreichend sind.
Der zentrale Gedanke: Die perfekt‑ste Lösung ist nicht immer die langfristig beste. Ein etwas weniger umfassender Fix, der leicht zu verstehen und zu warten ist, kann in einem schnelllebigen Entwicklungsumfeld wertvoller sein.
Fazit
Der Kilo‑Code‑Benchmark zeigt, dass moderne LLMs ein Niveau erreicht haben, bei dem alle sechs Modelle zuverlässig sicherheitskritische Bugs erkennen. Die Unterscheidungsmerkmale liegen jetzt in der Gründlichkeit der Fixes, der Tiefe geschichteter Guardrails und den Gesamtkosten.
- GPT‑5 führt in technischer Tiefe und Sicherheit – ideal für mission‑kritischen Code.
- OpenAI o1 bietet ein pragmatisches Gleichgewicht aus Lesbarkeit, Robustheit und Kosten.
- Gemini 2.5 Pro und Claude Sonnet 4.5 sind fähige Arbeitspferde für den täglichen Code‑Clean‑Up.
Beim Einbinden von LLMs in den Pull‑Request‑Workflow sollte das Modell zur Mission passen: Maximale Sicherheit für hochkritische Services, kosten‑effiziente Modelle, wo Geschwindigkeit und Volumen dominieren.
Indem man LLMs als assistierende Reviewer statt als Orakel‑Ersatz versteht, können Engineering‑Teams ihre Stärken nutzen und gleichzeitig den Wartungs‑Overhead minimieren – und so sichereren Code in großem Maßstab liefern.