Zum Hauptinhalt Zur Navigation Zur Suche

Deepseek-V3: Neues KI-Modell übertrifft Llama 3.1-405B und Qwen 2.5-72B

Das chinesische Unternehmen Deepseek hat mit Deepseek-V3 ein neues Large Language Model (LLM) veröffentlicht, das bisherige Open-Source-Modelle übertrifft.
/ Andreas Donath
20 Kommentare undefined News folgen (öffnet im neuen Fenster)
Deepseek-Chatoberfläche (Bild: DeepSeek/Mockdrop.io)
Deepseek-Chatoberfläche Bild: DeepSeek/Mockdrop.io

Langsam werden Open-Source-KI-Modelle besser: Das neue Large Language Model (LLM) Deepseek-V3 verfügt über 671 Milliarden Parameter(öffnet im neuen Fenster) , nutzt jedoch nur 37 Milliarden Parameter pro Token, was eine deutlich höhere Effizienz verspricht.

Das Modell basiert auf einer weiterentwickelten Architektur, die Multi-Head Latent Attention(öffnet im neuen Fenster) (MLA) und DeepseekMoE(öffnet im neuen Fenster) kombiniert. Zudem implementierte das Unternehmen eine verlustfreie Lastverteilungsstrategie, die die gleichzeitige Vorhersage mehrerer Tokens ermöglicht. Die Trainingskosten beliefen sich auf umgerechnet 5,57 Millionen US-Dollar.

Leistungsstarke Benchmark-Ergebnisse

In Benchmark-Tests übertraf Deepseek-V3 mehrere bekannte Open-Source-Modelle wie Meta Llama 3.1-405B und Qwen 2.5-72B. Besonders hervorzuheben sind die Stärken des Modells in der Verarbeitung chinesischer Sprachen und in mathematischen Berechnungen. Im Math-500-Test erreichte Deepseek-V3 eine hohe Punktzahl von 90,2.

Auch im Vergleich zu Closed-Source-Modellen wie Anthropic Claude 3.5 Sonnet schnitt Deepseek-V3 gut ab und übertraf Sonnet in Benchmarks wie MMLU-Pro und IF-Eval. Lediglich in englischsprachigen Tests wie SimpleQA und Frames zeigte das Modell im Vergleich zu GPT-4o eine geringere Leistung.

Deepseek stellte den Code auf Github unter einer MIT-Lizenz zur Verfügung(öffnet im neuen Fenster) , während das Modell selbst unter der Lizenzvereinbarung des Unternehmens(öffnet im neuen Fenster) zugänglich ist.

Lizenz beschreitet Neuland

Während traditionelle Open-Source-Lizenzen auf maximale Freiheit setzen, beschreitet Deepseek einen anderen Weg: Offenheit ja, aber mit klaren Grenzen.

Die Lizenz erlaubt zwar die kostenlose Nutzung und Weitergabe des KI-Modells, setzt aber deutliche Schranken. Eine militärische Nutzung ist ebenso untersagt wie automatisierte Entscheidungen mit rechtlichen Folgen und diskriminierende Anwendungen. Diese Einschränkungen spiegeln die wachsende Sorge über Missbrauch von KI-Technologie wider.

Bemerkenswert ist auch das Recht des Unternehmens, die Nutzung des Modells bei Missbrauch technisch einzuschränken – ein Novum in der Open-Source-Welt. Zudem behält sich Deepseek vor, Streitigkeiten vor chinesischen Gerichten zu klären.

Private Nutzer können die Anwendung über die ChatGPT-ähnliche Plattform des Unternehmens, Deepseek Chat(öffnet im neuen Fenster) , nutzen, gewerbliche Anwender können zudem über eine API auf Deepseek-V3 zugreifen. Das Unternehmen bietet konkurrenzfähige Preise an und berechnet 0,27 US-Dollar pro Million Eingabetokens und 1,10 US-Dollar pro Million Ausgabetokens.


Relevante Themen