Zum Hauptinhalt Zur Navigation

LLM: Claude 4 übertrumpft Konkurrenz beim Programmieren

Anthropic hat seine neueste KI-Generation vorgestellt und dabei beachtliche Leistungssprünge demonstriert. Die Claude-4-Familie überholt OpenAI und Google .
/ Michael Linden
79 Kommentare News folgen (öffnet im neuen Fenster)
Illustration zum Start von Claude 4 (Bild: Anthropic)
Illustration zum Start von Claude 4 Bild: Anthropic

Anthropic hat zwei neue KI-Modelle vorgestellt(öffnet im neuen Fenster) , die besonders bei Entwicklern Anklang finden sollen. Das Flaggschiff Claude Opus 4 erreicht beim SWE-Bench - einem anspruchsvollen Test mit realen Softwareproblemen - 72,5 Prozent korrekte Lösungen. Zum Vergleich: OpenAIs neuestes GPT-4.1 schafft 69,1 Prozent, Googles Gemini 2.5 Pro Preview nur 63,2 Prozent. Beim SWE-Bench müssen KI-Systeme Bugs in bekannten Open-Source-Projekten beheben, eine Aufgabe, die normalerweise erfahrene Programmierer übernehmen.

Noch deutlicher wird der Vorsprung beim Terminal-Bench, wo Claude Opus 4 mit 43,2 Prozent alle anderen Modelle hinter sich lässt. Die Konkurrenz erreicht hier nur Werte um die 30 Prozent. Dieser Test simuliert die Arbeit in der Kommandozeile.

Überraschend: Kleineres Modell schlägt große Konkurrenz

Claude Sonnet 4, das günstigere und kleinere Modell, erreicht beim SWE-Bench sogar 72,7 Prozent - und übertrifft damit OpenAIs und Googles Spitzenmodelle. Das ist bemerkenswert, da Sonnet 4 als Alltagsmodell positioniert ist und deutlich weniger Rechenleistung benötigt als Opus 4.

Bei mathematischen Wettbewerbsaufgaben (AIME 2025) zeigt sich ein gemischtes Bild: Claude Opus 4 erreicht 75,5 Prozent, liegt aber hinter OpenAIs o3 mit 88,9 Prozent. Sonnet 4 kommt auf 70,5 Prozent.

Die neuen Modelle können nach Angaben von Anthropic mehrere Stunden konzentriert an einem Problem arbeiten - ein wichtiger Vorteil gegenüber anderen KI-Systemen.

Beide Modelle arbeiten in zwei Modi: Sie können schnelle Antworten geben oder sich Zeit für komplexere Überlegungen nehmen. Der Nutzer kann zwischen beiden Modi umschalten. Bei einfachen Aufgaben reicht oft der Schnellmodus, bei kniffligen Problemen hilft die Funktion Erweitertes Denken.

Integration möglich

Github plant bereits, Sonnet 4 in seinen Copilot-Assistenten zu integrieren. Das Unternehmen verspricht sich davon bessere Codevorschläge.

Anthropic gab auch Claude Code für alle Nutzer frei. Das Kommandozeilen-Tool lässt sich in VS Code und Jetbrains integrieren und zeigt Änderungsvorschläge direkt im Editor an. Eine Github-Anbindung ermöglicht automatische Reaktionen auf Pull-Request-Kommentare.

Die Preise bleiben unverändert: Opus 4 kostet 15 US-Dollar pro Million Eingabe-Token und 75 US-Dollar für Ausgaben. Sonnet 4 ist mit 3 beziehungsweise 15 US-Dollar deutlich günstiger. Kostenlose Nutzer können Sonnet 4 testen, Opus 4 erfordert ein bezahltes Abo.


Relevante Themen